TechFusion.ruАналитика данных«Слышать» кожей: умные устройства учатся понимать эмоции

«Слышать» кожей: умные устройства учатся понимать эмоции

iPhone

Не только слушать, но и слышать — решение коммуникативной задачи номер один скоро может стать намного проще. «Умные» устройства помогут понять эмоции собеседника и, если нужно, перевести разговор в нужное русло

Исследователям из Массачусетского технологического института (MIT) удалось получить неплохие результаты в считывании тональности разговора с помощью нейросетей. Когда-нибудь подобный инструмент может стать хорошим подспорьем на важных переговорах и в повседневной жизни. Разработчики добавляют, что такой инструмент может быть полезен людям с тревожным расстройством и синдромом Аспергера.

Тука Алханаи и Мохаммад Гассеми из MIT готовятся представить свою статью на конференции Ассоциации по развитию искусственного интеллекта в Сан-Франциско. В работе описан эксперимент с использованием нейросетей для определения настроения говорящих.

Исследователи записали 31 аудиофрагмент по несколько минут каждый и обучили два алгоритма: один — классифицирующий общий характер разговора (радостный или грустный), другой — с разбивкой на пятисекундные блоки (позитивный, негативный или нейтральный).

Для проведения эксперимента использовали умные браслеты Samsung Simband, с помощью которых отслеживались движение, частота пульса, артериальное давление и температура тела участников. Параллельно на Apple iPhone 5S фиксировали аудио и расшифровки высказываний для оценки тона, подачи, темпа речи и лексики.

Разработанная исследователями система анализирует звуковой ряд, лексическое наполнение и биофизические показатели говорящего и на основе полученной информации считывает, какова общая тональность разговора (радостная либо печальная). Полученная точность результатов в этой части эксперимента составила 83%. Затем — с меньшей достоверностью — была определена субъективная оценка каждого пятисекундного отрезка беседы, по которой можно отслеживать динамику эмоционального фона разговора.

estimation of the emotional content

Оценка эмоционального содержания речи в реальном времени. Иллюстрация из работы Тука Алханаи и Мохаммада Гассеми

«Полученные нами результаты показывают, что можно классифицировать эмоциональную окраску речи в режиме реального времени», — говорит Гассеми. По его сведениям, это первый подобный эксперимент, в котором сочетаются биофизическая и речевая информация в режиме пассивной фиксации на материале естественной неупорядоченной речи испытуемых.

Эмоции и речь

Во многих других исследованиях по выявлению эмоциональных реакций участникам показывают радостные или грустные видеоролики, либо, напротив, предлагают изобразить некоторую заданную эмоцию. В данном случае была поставлена задача работать с естественным эмоциональным откликом. Участников попросили рассказать какую-нибудь историю, радостную либо печальную, по собственному выбору.

Полученные алгоритмом на выходе данные вполне согласуются с ожидаемыми интуитивными оценками. Например, долгие паузы и монотонность речи коррелируют с более грустными высказываниями, а позитивные сообщения излагаются в более бодром темпе и с активной интонацией.

Что касается невербальных сигналов, то на менее позитивные истории, по данным эксперимента, указывают беспокойные движения, повышенные сердечно-сосудистые показатели, а также определенные жесты, например, поднесение рук к лицу.

Бьорн Шуллер, возглавляющий кафедру сложных и интеллектуальных систем в Университете Пассау подчеркивает, что для сбора физиологических и речевых показателей команда использовала обычные пользовательские устройства, что приближает нас к реальному использованию таких методик. «Вполне возможно, что технологические разработки достигнут более высокого уровня эмоционального интеллекта или даже сами будут «чувствующими», — предположил Шуллер в интервью MIT News.

Консультант, который всегда с тобой

«Представьте себе, что по окончании беседы можно промотать ее назад и отследить, в какие моменты собеседники были особенно напряжены, — говорит Алханаи. — Наша работа — шаг в этом направлении, и возможно, уже не за горами то время, когда можно будет носить с собой некий вариант карманного консультанта на базе искусственного интеллекта».

Пока же алгоритм будут дорабатывать — он еще недостаточно достоверен, чтобы выступать в качестве коммуникационной поддержки.

Прежде всего необходимо аккумулировать значительно больший объем выборки для обучения системы. Кроме того, на следующих этапах планируется расширить и уточнить спектр классифицируемых эмоций и научить систему определять моменты скуки, напряженности или интереса и не ограничиваться исключительно метками «позитивный» и «негативный».

С расширением круга «подопытных» пользователей результаты работы приложения будут улучшаться за счет дополнительных объемов обучающих данных. Разработчики подчеркивают, что при создании системы учитывали требования конфиденциальности: алгоритм реализуется локально на устройстве пользователя, таким образом обеспечивается защита частной информации. Алханаи добавляет, что для потребительского рынка потребуется, очевидно,  прописать четкие протоколы получения согласия от всех участников обсуждения.

Возможно, на следующих этапах методику попытаются оптимизировать, пишет Fast Company. В перспективе на вход может подаваться только речевая информация без расчета на биофизические показатели, что больше соответствует реальной практике общения, поскольку собеседники не обязательно будут готовы транслировать партнерам свои биометрические данные. И, вероятнее всего, будет предусмотрена возможность уведомления в режиме реального времени — пользователь устройства будет получать условные сигналы, когда тон или активность коммуникации нарушается.

Black Mirror episode “Nosedive.”

Кадр из сериала «Черное зеркало», сезон 3 эпизод 1 (о том, что оценки — это не всегда хорошо). Фото: Netflix

«Если поступает оценка, что разговор становится неприятным или неудобным либо переходит в негативную тональность, умные часы посылают два вибросигнала как своего рода напоминание, что, возможно, стоит переключить скорость», — цитирует Гассеми Fast Company.

Слышать сердце

Данные речевого и голосового анализа, действительно, могут представлять собой мощный диагностический материал. Возможности их использования уже активно разрабатываются и в других сферах, например, в области психиатрии и кардиологии.

Чарльз Мармар, завотделением психиатрии в Langone Medical Center в Нью-Йорке, совместно со специалистами научно-исследовательского института SRI International в Калифорнии исследуют взаимосвязь между особенностями речи и состоянием психики пациентов. Для изучения используются образцы речи ветеранов-участников боевых действий. В ходе пятилетнего исследования из более чем 40 тысяч признаков, выделенных по выборке записей исследуемой и контрольной групп, удалось отобрать 30 речевых характеристик, которые, судя по всему, связаны с посттравматическим стрессовым расстройством (ПТСР) и травматическим повреждением головного мозга. В интервью канадскому радио CBC, Мармар уточнил, что перспективными для диагностики исследователи считают примерно 200 признаков.

Например, у пациентов с психическими или когнитивными изменениями некоторые звуки получаются более долгими или возникают затруднения с произношением сложных для артикуляции фраз.

Согласно предварительным результатам, опубликованным в 2015 году, разработанный командой голосовой тест с 77-процентной точностью определил в экспериментальной группе из 39 мужчин пациентов с ПТСР и волонтеров, не страдающих таким синдромом. С того времени было собрано значительное количество дополнительного материала, и уже скоро могут быть идентифицированы речевые особенности, которые позволят различать в рамках такой диагностики ПТСР и травматическое повреждение головного мозга.

Предварительные исследования проводятся и в области кардиологии. Специалисты компании Beyond Verbal и клиники Mayo Clinic проанализировали короткие аудиозаписи 150 пациентов и выявили 13 различных речевых признаков, коррелирующих с повышенным риском ишемической болезни сердца. Кардиолог Амир Лерман полагает, что подобный речевой тест, доступный на смартфоне, мог бы в перспективе использоваться как доступный и удобный скрининг-метод и для дистанционного контроля пациентов после кардиологических операций.