Статья: Морфологический строй функциональных стилей (на материале документов Internet)
Данная статья содержит результаты, полученные в рамках разработки процедуры автоматической классификации текстов по стилям. Стилистическая классификация, в свою очередь, рассматривается как одно из средств повышения эффективности поиска информации в Internet [2-4], при этом морфологические характеристики в процедуре классификации имеют ключевое значение.
Дополнительным стимулом в данной работе было желание продемонстрировать возможность использования наполнения Internet в лингвистических исследованиях. Обращаясь к сети, исследователь получает доступ к неограниченному объему самых разнообразных текстов в электронном виде. Так, например, масштабные исследования разговорной речи всегда сдерживались отсутствием достаточного количества опытного материала в форме, удобной для обработки. Сегодня чаты, гостевые книги, форумы, а также архивы личной переписки по электронной почте и общения по ICQ могут предоставить такой материал в избытке.
За основу мы взяли функционально-стилевую концепцию, которая хорошо разработана и обоснована в отечественном языкознании [11, 12, 14]. Исходным положением концепции является зависимость стиля речи от выполняемой им коммуникативно-общественной функции, от задач общения в соответствующей сфере. Обычно различают пять функциональных стилей речи (в порядке убывания "нормативности"): официально-деловой, научный, публицистический, художественный, разговорный (исходя из прикладного характера задачи, мы рассматриваем художественный стиль наряду с другими, не учитывая его особый статус в системе функциональных стилей).
Исследования функциональных стилей с использованием статистических методов проводились начиная с 60-х годов. В работах [1, 5-10, 12-17] можно найти количественные характеристики морфологии стилей речи разной степени детализации. Недостаток большинства этих источников - использование для анализа выборок небольшого объема (часто трех - пяти текстов). Кроме того, не всегда понятно, какие именно тексты послужили материалом для исследования и какая методика использовалась. Практически нигде не удается найти интегральную картину распределения классов слов по стилям: обычно одновременно рассматривается не более трех стилей. "Частотный словарь" [17] лишен этих минусов (общий объем обработанного материала - 1 056 382 слова), однако деление на стили (жанры) представляется не очень логичным: художественная проза, драматургия, газетно-журнальные и научно-публицистические тексты.
Речь является динамической системой, и значительные стилевые изменения могут происходить на относительно коротких временных промежутках (см. работы [7, 8, 13], посвященные исследованию динамики функциональных стилей). Определение стилистических особенностей "сетевых" текстов интересно еще и потому, что сегодня бумагу и ручку (печатную машинку) заменяет компьютер, а Internet - фактор не менее значительный, чем печатный станок пятьсот лет назад. Смена способа материальной фиксации текстов безусловно влияет на их стиль (можно вспомнить происхождение самого слова "стиль" - от лат. stilus, stylus - остроконечная палочка для письма).
Опытный массив текстов
Взятая за основу функционально-стилевая концепция определила наш подход к формированию массива текстов для анализа. В опытном массиве каждый стиль представлен наиболее типичным жанром; задача представления жанрового разнообразия в пределах функционального стиля не ставилась. Очевидно, что составить репрезентативную коллекцию всего стиля, которая учитывала бы количественные соотношения между различными жанрами, их вклад в "общую картину" стиля, весьма затруднительно. Такой переход (от стиля к жанру) вполне отвечает прикладным целям нашего исследования.
Официально-деловой стиль представлен в опытном массиве текстами 50 законов Российской Федерации. Эти документы были отобраны из юридической базы данных "Консультант Плюс" (www.consultant.ru). Дополнительным критерием отбора была длина текста. Например, были отсеяны законы о ратификации договоров, которые обычно содержат 2-3 строчки.
В коллекцию текстов научного стиля вошли 54 статьи по физике, математике, химии, биологии и инженерным наукам. Практически все электронные версии научных статей, размещенные в Internet, имеют печатные аналоги.
Публицистический стиль, напротив, представлен только Internet-журналистикой. В качестве представителей этого стиля мы взяли статьи на общественно-политические темы, опубликованные в период с декабря 1999 по февраль 2000 года на трех новостных веб-сайтах: Gazeta.ru (27), Vesti.ru (28) и Polit.ru (6) - всего 61 статья.
Художественный стиль в нашем исследовании представлен 79 рассказами участников конкурса сетевой литературы "Тенета-98" (www.teneta.rinet.ru/1998/rasskaz/). Нам представляется закономерным использовать для анализа произведения, которые увидели свет в Internet, а не литературную классику.
Основной объем текстов разговорного стиля принадлежит екатеринбургскому чату "На Плотинке" (www1.ekaterinburg.com/leisure/chat/) - 42 фрагмента, каждый из которых содержит ровно 100 сообщений. Кроме того, два фрагмента взято с чата "Сайберия" (www.son.ru/chat/) и четыре - с чата "В пещере у монстра" (cave.extrim.ru). В данном случае объем каждого фрагмента - примерно 2-3 экрана. Дополнили коллекцию образцов разговорного стиля 13 листингов диалогов (14 разных участников), которые велись с помощью программы ICQ ("аська"). Таким образом, всего был использован 61 фрагмент.
Все функциональные стили рассматриваются изолированно, поэтому некоторые различия в объемах текстов каждого стиля несущественны. При этом массив текстов достаточно представителен (как по отдельным стилям, так и в целом), чтобы вычисленные параметры были значимы. Общий объем массива - 305 текстов.
Методика обработки
Анализу подвергались текстовые документы (plain text) и документы HTML в Windows-кодировке. Документы Word и Adobe Acrobat (PDF) предварительно конвертировались в текстовые файлы.
Для автоматического определения грамматических характеристик слов использовался модуль морфологического анализа linguist компании "Агама" (www.agama.com). По информации разработчиков основной словарь модуля морфологического анализа и синтеза позволяет распознавать более четырех миллионов словоформ. Модуль выполнен в виде динамической библиотеки Windows.
По аналогии с предыдущими исследованиями морфологии функциональных стилей и в соответствии с возможностями модуля LINGUIST в качестве самостоятельных морфологических классов были выделены:
существительные,
прилагательные,
местоимения,
числительные,
наречия,
глаголы,
причастия,
деепричастия,
предлоги,
союзы,
частицы,
междометия,
прочие.
К существительным мы также относили следующие категории модуля морфологического анализа: имена собственные, отчества, фамилии, географические названия, аббревиатуры. В разряд "Прочие" попали слова, которые модуль морфологического анализа отнес к предикативам или вводным словам.
--> ЧИТАТЬ ПОЛНОСТЬЮ <--