- CES 2020: Segway представила кресло-капсулу S-Pod для комфортных поездок - 06.01.2020 14:14
- CES 2020: Seagate показала, как работать с данными - 06.01.2020 13:42
- CES 2020: очень «умная» бытовая техника и изогнутые игровые мониторы Odyssey - 05.01.2020 14:22
Группа исследователей из Санкт-Петербургского университета и израильского Института интеллектуальной обработки информации при Колледже ОРТ имени Брауде разработали новое решение для определения авторства и стиля текстов
Алгоритм компьютерного исследования основан на моделировании динамического процесса написания текстов. Программа, разработанная математиками, умеет определять авторство текста, учитывая стилистику и развитие писательских навыков. Подробно методика описана в статье Patterning of writing style evolution by means of dynamic similarity в журнале Pattern Recognition.
Исходными данными для разработанного метода моделирования динамического процесса написания текстов стали последовательности символов текста и слова. Новый метод определяет все ключевые моменты авторского стиля. На этой основе программа и «узнает» автора.
С помощью математических методов программа научилась определять, как меняется стиль определенного писателя со временем, различать даже схожие стили разных писателей, а также уверенно указывать на авторскую принадлежность написанного.
Как говорится в сообщении СПбГУ, для исследования математики выбрали известные литературные произведения: цикл из семи научно-фантастических романов Айзека Азимова «Основание», серию произведений Джона Голсуорси «Сага о Форсайтах», роман в трех томах Джона Толкина «Властелин колец» и другие известные произведения.
Например, сравнив цикл «Властелин колец» Джона Толкиена с его же произведениями «Хоббит» и «Сильмариллион», программа смогла точно определить, что последний сильно отличается по стилю как от трилогии, так и от первого произведения автора. Так как «Сильмариллион» был издан сыном писателя после его смерти на основе черновиков, можно с уверенностью сказать, что алгоритм ученых не ошибся.
В планах специалистов тестирование методики на произведениях русской литературы. Созданный алгоритм можно применять для анализа текстов, написанных на любых языках, использующих латинский алфавит, кириллицу или арабскую графику.
Полученный алгоритм, по мнению исследователей, может стать полезным инструментом для литературоведов. Кроме того, метод может помочь в анализе не только литературных произведений, но и неструктурированных текстов.