TechFusion.ruНовостиВ Google Research обучили нейросеть выделять голоса в толпе

В Google Research обучили нейросеть выделять голоса в толпе

Google Research
Екатерина Рыбачёк

Екатерина Рыбачёк

Новостной редактор TechFusion.ru,
гедонист, оптимист,
любитель котиков и технологий
Екатерина Рыбачёк

Специалисты Google Research разработали нейросеть, которая способна различать голоса даже в шумных помещениях или в толпе на основе аудиовизуального распознавания

Разработчики назвали проект Looking to Listen. Как пишут авторы исследования в блоге Google Research, искусственный интеллект обучали по системе так называемого «эффекта вечеринки» — возможности сосредоточиться в очень шумном помещении на одном человеке и «слышать» его на основе мимики и артикуляции. Нейросеть, по сути, «узнает» голос по лицу, а не по звукам, и распознает речь даже если не видно рта человека.

Аудиовизуальное обучение искусственного интеллекта проводилось посредством выделения речевого сигнала из смеси музыки, других голосов и фонового шума. Чтобы нейросеть начала «узнавать» нужного человека в толпе на видео, достаточно выбрать его и его речь будет усилена, а все остальные звуки будут подавляться.

Нейросеть обучали на датасете из 100 тысяч видеороликов с лекциями и беседами на YouTube. Методика обучения заключается в объединении звуковых и визуальных сигналов входного видео для разделения речи. Подробно метод исследования описан в статье Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation в журнале Computer Vision and Pattern Recognition.

Ранее специалисты лаборатории Mitsubishi Electric в Кембридже разработали похожую систему искусственного интеллекта. Она способна в реальном времени различать уникальные «голосовые отпечатки» человека, восстанавливая речь даже в условиях нескольких одновременно говорящих людей.

Фото на обложке: pixabay.com