Математики предложили литературоведам новый способ определения авторства текстов
Математики проанализировали произведения Джона Толкина, Айзека Азимова, Артура Кларка и разработали алгоритм, который позволяет определить, один ли автор у литературного произведения и как меняется стиль одного автора за длительный период времени, - рассказал один из авторов исследования, доктор физико-математических наук, профессор СПбГУ Олег Граничин.
В проекте участвовали ученые математико-механического факультета СПбГУ и компьютерного факультета ОРТ Брауде колледжа (Израиль). Для исследования математики выбрали известные литературные произведения: цикл из семи научно-фантастических романов Айзека Азимова "Основание", серию произведений Джона Голсуорси "Сага о Форсайтах", роман в трех томах Джона Толкина "Властелин колец" и другие книги.
"Мы применили при анализе литературных произведений те же принципы работы с большими данными, как и при анализе изменения температуры воздуха за длительный период времени или химического состава ледяных кернов из четырехкилометровой скважины в центральной области Антарктиды, чтобы судить об изменении климата на Земле за тысячи лет", - рассказал Олег Граничин. За единицу информации ученые брали фрагменты текста размером около страницы и получили в итоге графики, описывающие авторский стиль. Собеседник уточнил, что в ходе исследования остались за скобками особенности лексики, частотность определенных оборотов, авторская интонация и ритм. "Эти характеристики литературоведы использовали и раньше, без применения методов работы с большими данными", - сказал он.
Полученный алгоритм, по мнению собеседника, может стать полезным инструментом для литературоведов. Он пригоден, например, чтобы узнать, один автор создал произведение или несколько. Исследователи сравнили три книги из цикла "Властелин колец" Джона Толкина с двумя другими его произведениями: "Хоббитом" и "Сильмариллионом". "Метод достаточно точно определил, что первая повесть была написана тем же автором, который создал трилогию, а вот "Сильмариллион" заметно отличается по стилю", - отметил собеседник. Исследователи обнаружили это различие и нашли подтверждение ему в истории семьи Толкина. "Книга была издана уже после смерти автора: сборник мифов и легенд Средиземья дорабатывал сын Джона Толкина Кристофер Толкин, который несколько лет изучал черновики отца", - сказал ученый.
"Алгоритм будет использован одним из студентов при подготовке курсовой работы. Он взялся проанализировать тексты Михаила Шолохова "Тихий Дон", "Поднятая целина" и "Судьба человека", - рассказал Граничин.