TechFusion.ruНовостиИскусственный интеллект воссоздал жестикуляцию говорящих людей, не видя их

Искусственный интеллект воссоздал жестикуляцию говорящих людей, не видя их

жестикуляцию

Специалисты Калифорнийского университета в Беркли создали алгоритм, способный предсказывать жестикуляцию людей по их речи. Искусственный интеллект анализирует речь и ее эмоциональную окраску и создает анимированную модель говорящего, жесты которого совпадают с жестами реального человека

Многие уже привыкли, что искусственный интеллект способен определить пол и возраст человека по фото или видео, или даже воссоздать его портрет по голосу. Но ученые не останавливаются. Нейросеть, воссоздающую жестикуляцию говорящего человека, представят на конференции CPVR 2019.

Авторы алгоритма рассказали, что программа использует только аудиоматериалы, и на их основе создает анимированную модель говорящего. Обучали нейросеть на датасете из 144 часов аудиозаписей лекций, выступлений и интервью.

Искусственный интеллект превращает принимаемый аудиосигнал в одномерный промежуточный сигнал, который превращает в последовательность поз, образующих жесты говорящего. Анимированная скелетная модель, создаваемая алгоритмом, имеет 49 ключевых точек в верхней части тела человека.

В ходе экспериментов, описанных авторами в статье Learning Individual Styles of Conversational Gesture в журнале Computer Science, нейросеть показала достаточно высокую точность предсказаний жестикуляции — 44,62%. На данный момент это рекорд среди подобных исследований.

Иллюстрация на обложке: pixabay.com