TechFusion.ruНовостиУченые научили программу определять авторство текстов

Ученые научили программу определять авторство текстов

PocketBook Cloud
Екатерина Рыбачёк

Екатерина Рыбачёк

Новостной редактор TechFusion.ru,
гедонист, оптимист,
любитель котиков и технологий
Екатерина Рыбачёк

Группа исследователей из Санкт-Петербургского университета и израильского Института интеллектуальной обработки информации при Колледже ОРТ имени Брауде разработали новое решение для определения авторства и стиля текстов

Алгоритм компьютерного исследования основан на моделировании динамического процесса написания текстов. Программа, разработанная математиками, умеет определять авторство текста, учитывая стилистику и развитие писательских навыков. Подробно методика описана в статье Patterning of writing style evolution by means of dynamic similarity в журнале Pattern Recognition.

Исходными данными для разработанного метода моделирования динамического процесса написания текстов стали последовательности символов текста и слова. Новый метод определяет все ключевые моменты авторского стиля. На этой основе программа и «узнает» автора.

С помощью математических методов программа научилась определять, как меняется стиль определенного писателя со временем, различать даже схожие стили разных писателей, а также уверенно указывать на авторскую принадлежность написанного.

Как говорится в сообщении СПбГУ, для исследования математики выбрали известные литературные произведения: цикл из семи научно-фантастических романов Айзека Азимова «Основание», серию произведений Джона Голсуорси «Сага о Форсайтах», роман в трех томах Джона Толкина «Властелин колец» и другие известные произведения.

Например, сравнив цикл «Властелин колец» Джона Толкиена с его же произведениями «Хоббит» и «Сильмариллион», программа смогла точно определить, что последний сильно отличается по стилю как от трилогии, так и от первого произведения автора. Так как «Сильмариллион» был издан сыном писателя после его смерти на основе черновиков, можно с уверенностью сказать, что алгоритм ученых не ошибся.

В планах специалистов тестирование методики на произведениях русской литературы. Созданный алгоритм можно применять для анализа текстов, написанных на любых языках, использующих латинский алфавит, кириллицу или арабскую графику.

Полученный алгоритм, по мнению исследователей, может стать полезным инструментом для литературоведов. Кроме того, метод может помочь в анализе не только литературных произведений, но и неструктурированных текстов.

Фото на обложке: pixabay.com