- CES 2020: Segway представила кресло-капсулу S-Pod для комфортных поездок - 06.01.2020 14:14
- CES 2020: Seagate показала, как работать с данными - 06.01.2020 13:42
- CES 2020: очень «умная» бытовая техника и изогнутые игровые мониторы Odyssey - 05.01.2020 14:22
Разработка лаборатории Mitsubishi Electric в Кембридже способна в реальном времени различать уникальные «голосовые отпечатки» человека, восстанавливая речь даже в условиях нескольких одновременно говорящих людей
Решение американских исследователей впервые было продемонстрировано на выставке Comined Exhibition of Advanced Technologies в Токио. Нейросеть способна различать голоса в толпе, на вечеринке, в переполненном помещении и т.п. подобных условиях.
Искусственный интеллект использует технику машинного обучения под названием «глубокое аггрегирование» для определения уникальных черт в «отпечатке голоса» различных людей. После этого ИИ способен уловить голос человека в условиях любого шума. Примечательно, что нейросеть не опирается на слова — не имеет значения, на каких языках говорит человек.
На предварительных тестах система смогла распознать голоса пяти человек, говорящих одновременно. Когда в микрофон одновременно говорили два человека, система определяла кому принадлежат голоса с точностью до 90%. Если нужно было различать голоса трех говорящих, точность результата составляла 80%. Тесты проводились на впервые «слышимых» голосах.
Подробное описание разработки опубликовано в журнале Neural and Evolutionary Computing. Нейросеть планируют использовать для расследований записи разговоров в полиции, спасательных службах. Но самое главное, такая разработка поможет значительно повысить качество распознавания речи голосовыми помощниками.
Фото на обложке: livejournal.com