TechFusion.ruНовостиНейросеть Speech2Face воссоздала лица людей по их голосу

Нейросеть Speech2Face воссоздала лица людей по их голосу

Speech2Face

Система искусственного интеллекта Speech2Face, разработанная специалистами Массачусетского технического института, способна воссоздавать по записи речи человека примерное изображение его лица с учетом пола, возраста и национальности

Алгоритм, созданный в MIT, умеет распознавать голос и анализировать его. ИИ-система с высокой точностью определяет пол говорившего, с менее высокой точностью — его возраст и национальность. Подробно результаты тестирования описаны авторами в статье Speech2Face: Learning the Face Behind a Voice в журнале Computer Science.

Нейросеть обучали на датасетах коротких видео с говорившими людьми. Алгоритм тренировали разделять аудио и видео данные и самостоятельно перерабатывать их. В результате искусственный интеллект научился «угадывать» говоривших, создавая их примерные портреты.

Стоит отметить, что несмотря на довольно низкое качество воссозданных изображений, иногда нейросеть воссоздавала очень точные изображения говоривших. Наилучшие результаты программа показала в определении пола. Также неплохих результатов ученым удалось добиться в указании национальности владельцев анализируемого голоса. А вот возраст говоривших искусственный интеллект угадывал хуже всего.

Иллюстрация на обложке: arxiv.org