А. А. Марков.
Об одном применении статистического метода
(Доложено в заседании Отделения Физико-математических наук 17 февраля 1916 г.).
(публикуется по тексту, изданному в "Известиях Императорской Академии Наук", 1916г, орфография и пунктуация поправлены в соответствии с современными нормами)
В ХХ-м томе "Известий Отделения Русского Языка и Словесности" помещена интересная статья Н.А.Морозова "Лингвистические спектры", посвященная вопросу о применении статистического метода к исследованию речи различных писателей.
Подобное исследование, образец которого приведен в моей заметке "Применение статистическаго исследования" (ИАН, 1913 г.), может иметь большое значение, но только при условии, что постоянство итогов, другими словами - устойчивость их, не принимается на веру, а устанавливается в самом исследовании, при чем должен быть выяснен и размер колебаний. Ссылки же на постоянство других итогов, если бы даже они были совершенно верными, и на общий закон больших чисел нисколько не доказывают устойчивости рассматриваемых итогов.
На указанное условие в статье "Лингвистические спектры" не обращено надлежащего внимания; в ней нет и попытки доказать, что приведенные итоги характерны для русских писателей, а не относятся только к тем немногим отрывкам (по тысяче слов в каждом), которые были подвергнуты подсчету. Вместо всякого доказательства мы находим, на стр. 101, следующее утверждение: "Возьмем хотя бы отрицание не. Подсчитайте - и вы увидите, что на каждую тысячу отдельных слов у Толстого оно встречается обыкновенно немного меньше 20 раз, у Пушкина и Гоголя около 20, а у Тургенева значительно более, чем у них, - иногда свыше 30 раз. В общем же колебания ее заключаются в промежутке от 12 до 35 раз на тысячу слов в зависимости от склонности того или иного автора к отрицаниям. Все это показывает, что служебная частица "не" в большой мере подвержена индивидуальным колебаниям, т.е. определяет склад речи автора. То же самое я в случае подсчета остальных служебных частиц".
Много ли произвел автор таких подсчетов, какие он предлагает произвести читателю, неизвестно; но приведено им, в таблице XVI, для Гоголя только 5, для Пушкина и Толстого по 4 числа, а для Тургенева всего 3, притом, довольно различные: 32, 16, 24.
Произведенный же мною подсчет (1) показал, что "не" встречается у Пушкина в одной тысяче слов 32 раза ("Барышня крестьянка", со слов "Лиза призналась, что поступок ее казался ей легкомысленным..."), в другой - 9 ("Дубровский", с начала второй главы), а в третьей - только 3 ("История Пугачевского бунта", первая тысяча слов).
Примеры большого разноглася итогов, относящихся к одному и тому же писателю, встретились и автору "Лингвистических спектров", но он приписал такое разногласие воображаемой особенности писателя (графа Толстого): какой-то специальной корректурной обработке.
Стоит, однако, подсчитать еще несколько тысяч слов, чтобы противоречивые выводы получились и для других писателей. Например, по данным "Лингвистических спектров" устанавливается значительное преобладание у Пушкина предлога "в" над предлогом "на".
40, 32, 46, 43 "в" и 12, 12, 11, 12 "на";
а подсчет тысячи слов с начала второй главы повести "Капитанская дочка" дает совесть иной результат:
15 "в" и 21 "на".
Число 15 можно увеличить до 20, если присчитать те "в", которыми начинаются слова "вправо", "въезжать" и т. п., но существо дела от этого не изменится. Вместо чисел
1,2 для "в" и 0,6 для "на",
приведенных для этой повести в таблице VI (стр. 112), новый подсчет даст числа
0,58 (или 0,8) для "в" и 1,05 для "на",
которые по той же таблице VI приходится признать характерными для Гоголя.
Согласно таблицам XVI и VI речь Гоголя отличается сравнительно редким употреблением "в" и частым употреблением "на": в XVI таблице указаны для произведений Гоголя такие числа
15, 16, 23, 23, 22 "в" и 24, 26, 26, 15, 20 "на"
и по ним выведены числа таблицы VI:
0,58, 0,61, 0,9 для "в" и 1,2, 1,3, 1,3 для "на".
В последней таблице пропущена пара чисел
23\26 = 0,88... и 15\20 = 0,75,
которая также вытекает из таблицы XVI ("Нос", 1-ый спектр), но уже не указывает на пpeoблaдaниe предлога "на". Со своей стороны могу прибавить результаты подсчета первой тысячи слов девятой главы первой части поэмы "Мертвые души":
37 "в" и 12 "нa";
откуда по разделении на 26 и 20 получаем числа
1,4... и 0,6,
которые согласно таблице VI соответствуют речи Пушкина, а не Гоголя.
Итак, подсчеты немногих тысяч последовательных слов в произведениях различных писателей, подобные приведенным в таблице XVI статьи "Лингвистические спектры", представляют шаткое основание для заключений об особенностях речи каждого из этих писателей; замена одних тысяч слов другими может превращать такие заключения в противоположные, что и указывает на сомнительность их.
Только значительное расширение поля исследования (подсчет не 5 тысяч, а сотен тысяч слов) может придать заключениям некоторую степень основательности, если только границы итогов различных писателей окажутся резко отделенными, а не обнаружится другое весьма вероятное обстоятельство, что итоги всех писателей будут колебаться около одного среднего числа, подчиняясь общим законам языка.
Наконец, что касается таких вспомогательных средств, как преобразование одной таблицы в другую (XVI в VI) посредством осо6ых делителей (1\26, 1\20 и т.п.) и чертежи, то они существа дела не изменяют и потому особого значения не имеют.
(1) Во всех случаях я считал "не" в виде отдельного слова (по изданию 1882 года); если же присоединить и слова, начинающиеся с отрицания "не", то придется увеличить все числа; однако в последней тысяче никак нельзя насчитать более 8 "не", а в первой их не менее 32. К тексту
17 февраля 1916 года.