Дипломная работа: Разработка подсистемы морфологического анализа информационной системы
Для успешного процесса коррекции важны эффективные алгоритмы диагностики грамматических ошибок. В общем случае все сводится к определению принадлежности последовательности символов (токена) к данному естественному языку.
Таким образом, исправление опечаток определенных классов, в том числе однобуквенных, является практически важной задачей. Алгоритмы исправления ошибок в русских словах должны учитывать особенности русского языка как высоко флективного.
2.6 Описание программной реализации
Для работы алгоритмов АМА необходимы следующие массивы:
1) Массив base (содержит основы слов),
2) Массив flex (содержит постфиксы),
3) Массив mrf (содержит морфологические признаки).
Данные массивы заполняются на основе словарей morphologi.dic
и rgramtab.dic
Для поиска по массивам и анализа ошибок используются следующие методы:
3) s_basean
4) s_flexan
5) s_mrf
6) first_err
7) sec_err
Массив base
Массив base – двумерный динамический массив содержащий основы слов и указатель на строку из массива flex.
Примеры строк из массива base:
ВЗ 519
В данном примере набор символов ВЗ является основой слова. Число 519 – указатель номера строки в массиве flex, содержащей набор окончаний ассоциированных с данной основой.
Массив flex
Массив flex – двумерный динамический массив, содержащий наборы окончаний. Данный массив является зависимым от массива base, также этот массив содержит указатель на строки массива mrf, идентифицирующие морфемные свойства слова.
Пример части строки из массива flex
%БИТЬСЯ*ка % БИЛСЯ*кз%
Набор символов «БИТЬСЯ» является формой постфикса, для определённой в массиве base основы. Набор символов «ка» является идентификатором строки с дескрипторами массива mrf.
Массив mrf
Массив mrf – двумерный динамический массив, содержащий наборы дескрипторов, которые описывают морфемные свойства анализируемого слова.
Пример строки из массива mrf:
ка a ИНФИНИТИВ дст
В данной строке указано, что словоформа является Инфинитивом (начальной формой глагола), и является действительным.
Набор частей речи массива mrf указан в таблице 3.2.
Таблица 3.2. Описание частей речи массива mrf
Часть речи в системе Диалинг |
К-во Просмотров: 573
Бесплатно скачать Дипломная работа: Разработка подсистемы морфологического анализа информационной системы
|