Статья: Квантитативная лексикология романских языков: введение в проблематику
Суть квантитативной лексикологии видится в следующем.
Квантитативная лексикология - не самоцель, а средство обнаружения факторов порядка в лексике, способ ранжирования ее по системной и функциональной значимости. Большинство современных лингвистов признает полевую организацию языка, предполагающую наличие ядра и периферии. В связи с этим важнейшим аспектом квантитативной лингвистики является количественно и качественно обоснованная стратификация словаря на ядро и периферию.
Как показала в своей докторской диссертации А.И. Кузнецова [8], наиболее реалистичным подходом к лексике является многомерный, полипараметрический подход, при котором каждый из параметров позволяет выделить своё ядро и свою периферию. Количество же параметров, существенных для лексико-семантической системы, конечно и хорошо известно:
1) функциональная активность (употребительность),
2) деривационная активность (межсловная и внутрисловная продуктивность),
3) синтагматическая активность (широкая сочетаемость),
4) парадигматическая поддержан-ность (вхождение в многочленные синонимические ряды).
Функциональная активность может быть получена из частотных словарей конкретного языка. Впрочем, именно частотные словари и заставляют вспомнить горький афоризм, согласно которому "есть ложь, есть наглая ложь и есть статистика". Как установил на материале русского языка В.В. Морковкин, частотность значительной части лексики, представленной в частотных словарях, оказывается неподтвержденной - т.е. уникальной для того или иного частотного словаря и только взаимоналожение целой серии частотных словарей одного языка позволяет получить относительно взвешенную и правдоподобную картину. Как видим, и в отношении данного параметра "лобовой" подход не является оптимальным.
Между тем реалистичное и взвешенное представление о ФУНКЦИОНАЛЬНОЙ АКТИВНОСТИ единиц словаря можно получить значительно проще.
Со времен Дж. К. Ципфа известно, что употребительность (частотность) слов обратно пропорциональна их длине: чем короче слово, тем (при прочих равных) чаще оно употребляется и наоборот, чем
чаще слово употребляется, тем короче оно становится. Средняя длина слова возрастает по мере убывания его средней употребительности. Следовательно, для того, чтобы отобрать тысячу наиболее употребительных слов, достаточно обратиться к тысяче наиболее коротких слов данного языка. Погрешность будет невелика.
Общеизвестно и то, что самыми употребительными в языке являются служебные слова, выполняющие морфолого-синтаксические функции, следовательно, однобуквенные и двухбуквенные слова в своей массе можно исключить из рассмотрения, как не передающие лексического значения. Среди трёх- и четырехбуквенных слов количество служебных слов будет пренебрежимо малым.
Одно из возражений против предпринимаемого подхода может состоять в том, что мы исследуем романские языки в их письменной форме, которая, разумеется, не тождественна звуковой - истинному и первичному "телу" языка. Разумеется, для разных языков расхождение между звуками и буквами различно: в латинском оно минимально, во французском - максимально; и тем не менее погрешности, вносимые расхождением между звуковой (первичной) и зрительной (вторичной) субстанциями языка, не столь велики, а главное - не столь хаотичны, чтобы их нельзя было, так сказать, "вынести за скобки". Дело в том, что все романские языки имеют фонематично ориентированное письмо в том смысле, что корреляции между числом букв в слове и числом фонем в нем имеют устойчивый, если не сказать - непоколебимый - характер. А поскольку для нас важны не абсолютные числа, а ранги, порядки, рассматриваемые как веса, зазор между фонемами и буквами не способен повлиять на общие результаты исследования. Таким образом, мы - с учетом всех сделанных оговорок - можем утверждать, что между длиной слова в буквах и его употребительностью существует обратная зависимость.
Для того чтобы выделить наиболее употребительную лексику в данном языке (функционально активное ядро), достаточно определить среднюю длину слова в буквах и взять те слова, длина которых меньше средней длины слов, представленных в словаре данного языка (точнее -первую тысячу наиболее коротких слов).
ДЕРИВАЦИОННАЯ АКТИВНОСТЬ представляет собой второй параметр, по которому характеризуется ядерная (корневая) лексика данного языка.
Поскольку корни и корневые слова обладают планом содержания и планом выражения, продуктивностью обладают оба их плана: межсловная продуктивность - словообразование, аффиксация и внутрисловная продуктивность - многозначность, полисемия. Как показали, исследования, выполненные на материале русского языка, между той и другой имеются расхождения, которые, однако, вряд ли можно назвать принципиальными.
Иными словами, количество значений у слова в словаре может быть надежным показателем его деривационной активности. В случае необходимости, вызванной сомнениями или колебаниями, внутрисловная деривационная активность может быть подкреплена межсловной -количеством слов, содержащих ту или иную последовательность букв (равную корневой морфеме) в конкретном словаре данного языка.
Таким образом, чтобы выделить ядро словаря по признаку деривационной активности, достаточно определить среднее количество значений, приходящееся на слово в данном словаре, и взять те слова, у которых количество значений превышает среднее. Учитывая априорное ограничение лексического ядра 1000 единиц, для выделения продуктивного ядра словаря необходимо отобрать первую 1000 наиболее многозначных слов.
СИНТАГМАТИЧЕСКАЯ АКТИВНОСТЬ (широта сочетаемости) для лексики важна не сама по себе, а как показатель широты и простоты семантики, отличающей корневые, непроизводные слова, от производных.
Как известно, чем проще (абстрактней) семантика слова, тем шире его сочетаемость. Ср. у Д.Н. Шмелева: "степень парадигматичской закрепленности слова как лексико-семантической единицы находится в обратной зависимости от степени его синтагматической закрепленности" [18, 190]. На материале глаголов созидания и разрушения русского языка эта закономерность исследовалась О. Н. Анищевой [2].
Источником непосредственных, прямых данных о широте сочетаемости в языке являются словари сочетаемости. Между тем романская лексикография как целое пока не обеспечена словарями этого типа, или - выражаясь более дипломатично -обеспечена в недостаточной степени.
Это обстоятельство заставляет нас и в данном случае искать возможности косвенной оценки интересующего нас параметра.
Активность синтагматики по данным двуязычного словаря может быть оценена двумя способами.
Во-первых, количеством фразеосоче-таний с данным словом, т.к. известно: чем шире синтагматика слова, тем больше фра-зеосочетаний образуется с его участием. Кроме того, посредством богатства фразеологии маркируются концепты, значимые в культуре данного этноса. Таким образом, отбор 1000 слов, наиболее богатых фразеосочетаниями позволяет выделить ядро синтагматически активных (и притом культурно значимых) слов.
Во-вторых, мерой простоты семантики данного слова может выступать количество русских слов, употребляемых в толковании данного романского слова. Чем больше слов требуется для толкования значения, тем оно сложнее, уже, неэлементарнее. Чем меньше слов для этого требуется, тем проще и шире значение данного слова. Правда, при этом следует принимать во внимание специфику двуязычных словарей: в них количество слов в толковании одновременно является мерой национальной специфичности слов входного языка. Чем меньше слов выходного языка требуется для толкования, тем ниже национальная специфика семантики данного слова входного языка. И наоборот, чем больше слов выходного языка требуется для толкования значения входного слова, тем выше национальная специфика концепта, стоящего за словом входного языка.
Таким образом, отобрав первую тысячу романских слов, толкуемых одним русским словом, мы получим ядро слов не только с простейшей семантикой, но и обладающих наименьшей национальной спецификой относительно русского языка. Учитывая, что русский язык, как и романские, входит в семью индоевропейских языков, лексика, не имеющая национальной специфики, с необходимостью окажется связанной с понятиями, общими для романских и славянских языков и восходящими к праиндоевропейскому языку как языку-предку. Таким образом, в данной тысяче окажутся не просто слова с элементарной семантикой, а древнейшие слова, отражающие важнейшие и в силу этого -наиболее устойчивые, исконные для индоевропейцев понятия.
ПАРАДИГМАТИЧЕСКАЯ ПОДДЕРЖАННОСТЬ (вхождение в многочленные синонимические ряды) является важным системным показателем. Непосредственно эта информация могла бы быть получена в результате обработки словарей синонимов романских языков. Однако имеющиеся словари синонимов романских языков различаются многими весьма существенными параметрами: полнотой охвата лексики, типом и разнообразием информации о синонимах, содержащейся в словарях, и самое главное
- самим пониманием синонимии, отнюдь не единым на пространстве романской лексикографии. Всё это делает не просто невозможным, а нецелесообразным обращение к словарям синонимов романских языков в рамках данного исследования.
Информация о парадигматической поддержанности слов может быть извлечена из двуязычных словарей только в последнюю очередь, так сказать, постфактум. После того, как мы очертили круг в 1000 корневых слов, мы можем оценить их парадигматическую поддержанность и исключить те из слов, которые такой под-держанностью - на пространстве словаря -не обладают. Есть и более простой способ