Статья: Морфологический строй функциональных стилей (на материале документов Internet)
Словом считалась последовательность русских букв (которая может содержать внутри себя дефис) между двумя разделителями. Слова, содержащие цифры или латинские буквы, не анализировались. Словоформы, для которых модуль не возвращает ни одной нормальной формы, не учитывались.
Итог обработки отдельного текстового фрагмента - строка значений, каждое из которых соответствует доле части речи в тексте. Ясно, что данные, полученные таким образом, не являются абсолютно точными. Сделав ставку на автоматическую обработку материала большого объема, приходится отказаться от учета грамматической омонимии. Поэтому, например, слова стекло, падали всегда относятся к существительным, как и рабочий, учащийся; а печь, течь - к глаголам. Кроме того, из-за переносов или вставки невидимых символов и тегов HTML в слово могут возникать ошибки определения границ слова.
Результаты
В соответствии с методикой подсчета параметров было обработано 305 фрагментов текста. Общий объем обработанного материала - 239 696 слов, по 227 257 из них модулем морфологического анализа были построены нормальные формы (установлены грамматические характеристики). Доля слов из русских букв, для которых модулем морфологического анализа не было построено ни одной нормальной формы, составляет 6,1 % (со значительным разбросом по отдельным стилям: разговорный - 15 %, художественный - 2,7 %, публицистический - 4,6 %, научный - 6,9 %, официально-деловой - 1,9 %).
Результаты обработки данных по каждому стилю и части речи приведены в табл. 1: среднее (хср), минимальное (min) и максимальное (max) значения, стандартное отклонение (S).
Таблица 1
Cтатистика частей речи по стилям | |||||||||||||
Параметры | Существи- тельные | Прилага- тельные | Место- имения | Числи- тельные | Наречия | Глаголы | Причастия | Деепри- частия | Предлоги | Союзы | Частицы | Междо- метия | Прочие |
Разговорный стиль (61 фрагмент, 30601 слово) | |||||||||||||
min | 0,074 | 0,000 | 0,105 | 0,000 | 0,039 | 0,109 | 0,005 | 0,000 | 0,024 | 0,021 | 0,132 | 0,000 | 0,000 |
max | 0,298 | 0,000 | 0,222 | 0,009 | 0,102 | 0,219 | 0,050 | 0,042 | 0,084 | 0,085 | 0,276 | 0,045 | 0,043 |
xср | 0,194 | 0,000 | 0,161 | 0,002 | 0,068 | 0,167 | 0,028 | 0,006 | 0,051 | 0,050 | 0,210 | 0,016 | 0,013 |
S | 0,040 | 0,000 | 0,027 | 0,002 | 0,017 | 0,024 | 0,011 | 0,007 | 0,013 | 0,013 | 0,031 | 0,009 | 0,008 |
Художественный стиль (79 рассказов, 73739 слов) | |||||||||||||
min | 0,140 | 0,022 | 0,059 | 0,000 | 0,023 | 0,091 | 0,016 | 0,001 | 0,031 | 0,014 | 0,068 | 0,000 | 0,000 |
max | 0,351 | 0,106 | 0,227 | 0,019 | 0,118 | 0,239 | 0,074 | 0,028 | 0,085 | 0,063 | 0,242 | 0,018 | 0,014 |
xср | 0,243 | 0,063 | 0,126 | 0,006 | 0,065 | 0,162 | 0,045 | 0,013 | 0,055 | 0,037 | 0,158 | 0,003 | 0,006 |
S | 0,049 | 0,020 | 0,039 | 0,004 | 0,017 | 0,027 | 0,013 | 0,007 | 0,010 | 0,011 | 0,030 | 0,003 | 0,003 |
Публицистический стиль (61 статья, 34939 слов) | |||||||||||||
min | 0,265 | 0,061 | 0,036 | 0,000 | 0,022 | 0,079 | 0,030 | 0,000 | 0,023 | 0,023 | 0,068 | 0,000 | 0,000 |
max | 0,410 | 0,175 | 0,119 | 0,027 | 0,077 | 0,165 | 0,102 | 0,020 | 0,084 | 0,061 | 0,221 | 0,007 | 0,020 |
xср | 0,335 | 0,107 | 0,075 | 0,007 | 0,049 | 0,120 | 0,066 | 0,009 | 0,058 | 0,038 | 0,130 | 0,000 | 0,007 |
S | 0,034 | 0,024 | 0,019 | 0,005 | 0,012 | 0,019 | 0,017 | 0,005 | 0,013 | 0,008 | 0,029 | 0,001 | 0,004 |
Научный стиль (54 статьи, 47264 слова) | |||||||||||||
min | 0,245 | 0,074 | 0,019 | 0,000 | 0,004 | 0,047 | 0,044 | 0,002 | 0,023 | 0,010 | 0,054 | 0,000 | 0,000 |
max | 0,499 | 0,199 | 0,081 | 0,019 | 0,087 | 0,129 | 0,141 | 0,041 | 0,103 | 0,117 | 0,156 | 0,023 | 0,029 |
xср | 0,396 | 0,130 | 0,047 | 0,005 | 0,029 | 0,090 | 0,091 | 0,017 | 0,061 | 0,033 | 0,090 | 0,001 | 0,008 |
S | 0,054 | 0,028 | 0,013 | 0,004 | 0,016 | 0,020 | 0,021 | 0,010 | 0,015 | 0,022 | 0,022 | 0,004 | 0,006 |
Официально-деловой стиль (50 законов, 33134 слова) | |||||||||||||
min | 0,427 | 0,075 | 0,010 | 0,000 | 0,000 | 0,015 | 0,046 | 0,000 | 0,010 | 0,000 | 0,024 | 0,000 | 0,000 |
max | 0,608 | 0,278 | 0,052 | 0,061 | 0,037 | 0,100 | 0,140 | 0,026 | 0,087 | 0,032 | 0,136 | 0,000 | 0,018 |
xср | 0,497 | 0,184 | 0,029 | 0,009 | 0,008 | 0,048 | 0,091 | 0,005 | 0,046 | 0,009 | 0,071 | 0,000 | 0,002 |
S | 0,037 | 0,048 | 0,011 | 0,012 | 0,007 | 0,018 | 0,023 | 0,005 | 0,020 | 0,008 | 0,019 | 0,000 | 0,004 |
В целом полученные данные неплохо согласуются с результатами предыдущих исследований. Результат одновременного рассмотрения пяти стилей - монотонный рост средних долей существительных и прилагательных и монотонное же уменьшение долей местоимений, наречий, глаголов и частиц от разговорного к официально-деловому стилю - наглядно представлен на рисунке. При этом доля служебных частей речи (предлоги, союзы) мало варьируются от стиля к стилю.
Средние доли частей речи по стилям: 1 - разговорный; 2 - художественный; 3 - публицистический; 4 - научный; 5 - официально-деловой
Анализ матрицы корреляции (табл. 2), вычисленной по всему корпусу текстов, позволяет выделить группу взаимосвязанных морфологических параметров: существительные, прилагательные, причастия, глаголы, наречия, местоимения, частицы. Это вполне объяснимый результат: каждое употребление существительного - это "повод" определить его прилагательным; действие, выраженное глаголом, можно охарактеризовать наречием; функция местоимения - заменять именные части речи и т. д. Матрица корреляции демонстрирует, что частота употребления слов одной части речи из этой группы во многом определяет частоту употребления остальных. Зная, например, долю существительных в тексте, мы можем делать достаточно точные прогнозы относительно доли прилагательных и глаголов. Это справедливо даже для текстов, сильно отличающихся по стилю.
Таблица 2
Матрица корреляции | |||||||||||||
№ п/п | Части речи | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
1 | Существительные | 1,00 | 0,85 | -0,87 | 0,21 | -0,85 | -0,88 | 0,77 | -0,03 | 0,00 | -0,72 | -0,86 | -0,54 |
2 | Прилагательные | 0,85 | 1,00 | -0,81 | 0,09 | -0,75 | -0,85 | 0,67 | -0,01 | -0,11 | -0,67 | -0,79 | -0,54 |
3 | Местоимения | -0,87 | -0,81 | 1,00 | -0,21 | 0,70 | 0,79 | -0,78 | -0,08 | -0,08 | 0,57 | 0,77 | 0,53 |
4 | Числительные | 0,21 | 0,09 | -0,21 | 1,00 | -0,15 | -0,18 | 0,21 | -0,07 | 0,09 | -0,11 | -0,20 | -0,25 |
5 | Наречия | -0,8 | -0,75 | 0,70 | -0,15 | 1,00 | 0,80 | -0,69 | 0,08 | 0,02 | 0,63 | 0,76 | 0,38 |
6 | Глаголы | -0,88 | -0,85 | 0,79 | -0,18 | 0,80 | 1,00 | -0,75 | 0,03 | 0,02 | 0,62 | 0,75 | 0,46 |
7 | Причастия | 0,77 | 0,67 | -0,78 | 0,21 | -0,69 | -0,75 | 1,00 | 0,04 | 0,13 | -0,50 | -0,77 | -0,50 |
8 | Деепричастия | -0,03 | -0,01 | -0,08 | -0,07 | 0,08 | 0,03 | 0,04 | 1,00 | 0,09 | 0,14 | -0,12 | -0,23 |
9 | Предлоги | 0,00 | -0,11 | -0,08 | 0,09 | 0,02 | 0,02 | 0,13 | 0,09 | 1,00 | 0,02 | -0,13 | -0,06 |
10 | Союзы | -0,72 | -0,67 | 0,57 | -0,11 | 0,63 | 0,62 | -0,50 | 0,14 | 0,02 | 1,00 | 0,63 | 0,39 |
11 | Частицы | -0,86 | -0,79 | 0,77 | -0,20 | 0,76 | 0,75 | -0,77 | -0,12 | -0,13 | 0,63 | 1,00 | 0,61 |
12 | Междометия | -0,54 | -0,54 | 0,53 | -0,25 | 0,38 | 0,46 | -0,50 | -0,23 | -0,06 | 0,39 | 0,61 | 1,00 |
Примечание
Полужирным шрифтом выделены коэффициенты корреляции, по модулю большие или равные 0,70.
Заключение
В качестве основных результатов исследования можно выделить следующие:
Морфологические параметры (частеречный спектр текста) принадлежат к важнейшим маркерам функционального стиля и поэтому могут быть использованы для автоматической классификации текстов по стилям.
Internet содержит текстовый материал всех функциональных стилей русской речи, что открывает новые перспективы для исследований общего и стилистико-сопоставительного характера. Полученные результаты говорят об эффективности метода, основанного на автоматической обработке больших объемов текстов.
Получены количественные характеристики морфологии частей речи функциональных стилей русской речи и проведена их статистическая обработка.
В заключение хочется выразить надежду, что представленные в статье результаты получат более содержательную интерпретацию с позиций стилистики.
* * *
Мы благодарим компанию "Агама" (www.agama.com) за предоставленный модуль морфологического анализа, а также Михаила Щекотилова за программную реализацию метода.
Список литературы
1 Андреев Н. Д. Статистико-комбинаторные методы в теоретическом и прикладном языковедении. Л., 1967.
2 Браславский П. И. Автоматическая классификация документов Internet по стилям: реализация макета [Электрон. ресурс]// Доклады V Рабочего совещания по электронным публикациям - EL-PUB-2000 / Новосибирск: ИВТ СО РАН. - Электрон. дан. - . - 21.06.2000.
3 Браславский П. И. Использование стилистических параметров документа при поиске информации в Internet [Электрон. ресурс]// Доклады VI Рабочего совещания по электронным публикациям - EL-PUB-2001 / Новосибирск: ИВТ СО РАН. - Электрон. дан. - . - 25.04.2001.
4 Браславский П. И. Распознавание стилей речи применительно к информационному поиску: постановка задачи // Математические структуры и моделирование: Сб. науч. тр. Вып. 3 / Под ред. А. К. Гуца. Омск: Омский гос. ун-т, 1999. С. 134-140.
5 Васильева А. Н. Курс лекций по стилистике русского языка. Научный стиль речи. М., 1976.
6 Головин Б. Н. Язык и статистика. М., 1970.
7 Изменения в языке научной прозы/ О. Б. Сиротинина, С. А. Бах, В. А. Богданова и др. // Вопр. стилистики. Вып. 3 Саратов: Изд-во Сарат. ун-та, 1969. С. 37-55.
8 Изменения в языке публицистики (на материале международных обзоров) / О. Б. Сиротинина, С. А. Бах, В. А. Богданова и др. // Там же. С. 5-36.
9 Кауфман С. И. Из курса лекций по статистической стилистике. М., 1970.