На этой странице мы собираемся поместить программу-атрибутор - лингвистический процессор для автоматического сравнения и классификации текстов по параметрам индивидуального авторского стиля.
В ближайшее время будет завершена первая версия программы, которая настроена для сравнения художественных прозаических текстов. Задачей этой программы будет чтение и обработка присылаемого пользователем исходного текста неизвестного происхождения с целью выдачи списка наиболее близких к нему по стилистике авторов из числа входящих в некоторый заранее заданный список "эталонных" авторов.
В эталонную выборку попали в основном романы и повести отечественных писателей 19 - 20 веков. Начальная выборка, на которой мы тренировали атрибутор, была получена от Д.Хмелева, разработчика ЛингвоАнализатора, стоящего на сайте Русская фантастика. Оказалось, что в ней много мусора - произведений, написанных в соавторстве, коллективно и т.п., много технически дефектных файлов. В результате очистки выборки - выбрасывания лишнего и добавления недостающего - сейчас она состоит из 208 произведений (полный перечень приведен ниже). Мы понимаем, что выборка пока далеко не полна и не очень представительна. Вы можете помочь нам пополнить ее, прислав файлы отсутствующих в ней произведений на наш почтовый ящик .
Выборка подбирается таким образом, чтобы тексты разных писателей в максимальной степени различались друг от друга, а тексты одного писателя были максимально близки. Те случаи, когда известный писатель в какой-то период своего творчества резко менял стиль изложения, пока отсеивались и будут обработаны дополнительно.
Сравнение и классификация текстов проводится пока по трем уровням стилевой структуры. Анализируются профили последовательностей буквосочетаний, последовательности грамматических значений (частей речи) и степень лексической насыщенности текстов. В известной степени мы идем по уже проторенному пути, считая признаком научной основательности воспроизведение и экспериментальную проверку уже полученных коллегами результатов.
В последующих версиях атрибутара предполагается движение от интегральности к аналитичности. Это будет касаться используемых лингвистических параметров - сходства и различия будут становиться все более вербализуемыми. С другой стороны, за счет подключения новых выборок будет расширяться жанровая приемлемость анализируемых спорных текстов. Планируются работы по повышению точности принимаемого решения и уменьшению требуемых объемов лингвистического материала в сравниваемых текстах.
Мы надеемся выставить первую версию атрибутора в режиме on-line до конца года.
, кузнец и плотник атрибутора
|