TechFusion.ruКомпании«ВКонтакте» обучает ИИ распознавать хейтспич

«ВКонтакте» обучает ИИ распознавать хейтспич

ВКонтакте

Социальная сеть «ВКонтакте» разрабатывает технологию автоматического распознавания материалов с хейтспичем — то есть, с враждебными высказываниями по определенным признакам. Обученная нейросеть ускорит время обработки жалоб и поможет модераторам находить агрессивные материалы и комментарии

Нейросеть, обученная опознавать хейтспич, должна помочь модераторам соцсети быстрее находить материалы с враждебными высказываниями и публикации, провоцирующие аудиторию на проявление агрессии. Разработчики обучают нейросеть определять самые разные категории оскорблений и угроз. Среди них — проявления ксенофобии, расизма, гомофобии, сексизма, а также оскорбления на почве религиозной принадлежности, возраста, внешности или наличия заболеваний.

Чтобы усилить модерацию по теме языка ненависти и обучить искусственный интеллект, «ВКонтакте» добавила новую категорию жалоб — «Враждебные высказывания». Пользователь может выбрать ее, если нажмет кнопку «Пожаловаться» на оскорбительной публикации. После этого материал попадет на рассмотрение к модераторам. Эта категория позволит точнее откалибровать уже существующие инструменты и собрать датасет для новых решений на основе нейросетей, объяснили в соцсети.

Команды модерации и поддержки «ВКонтакте» не только реагируют на жалобы, но и проводят проактивный внутренний мониторинг. Для этого используются механизмы автоматического поиска, технологии цифровых отпечатков и нейронных сетей.

«Модераторы ВКонтакте ежедневно обрабатывают огромный объём контента, в том числе с использованием искусственного интеллекта — большинство опасных материалов удаляются ещё до того, как их кто-то увидит. Если же вы заметили оскорбительную публикацию, пожалуйтесь на неё. С проявлениями нетерпимости эффективнее бороться вместе — и мы призываем пользователей присоединяться к нам в этой борьбе», — призвал пользователей руководитель команды модерации «ВКонтакте» Иван Корнеев.

По данным «ВКонтакте», за первую половину 2020 года на платформе было удалено 520 тысяч единиц контента по теме разжигания вражды и ненависти, а также заблокировано 1340 профилей и 2470 сообществ, распространяющих враждебные высказывания.