Реферат: Обзор методов обработки естественного языка в задачах дистанционного обучения
Последовательность
Частота
неопр.артикль + сущ.ед.ч
35983
неопр.артикль + сущ.мн.ч
7494
Опр.артикль + сущ.ед.ч
13838
неопр.артикль + сущ.мн.ч
47
Рис.3
В триграмной модели и квадриграмной модели используется соответственно информация о всех возможных последовательностях из 3-х и 4-х кодов.
Рассмотрим подробнее пример разбора предложения, представленного на рис.1. Прежде всего, определяются все возможные значения частей речи, входящих в предложение, словоформ. Так словоформа “The” может быть только AT; “man” - NN или VB; “still” - NN, VB или RB; “saw” - NN или VBD; “her”-PPO или PP$. Далее воспользовавшись таблицей частотности, присваиваем словоформам тот или иной лексико-грамматический класс. Пример таблицы частотности для нашего предложения приведен на рис. 4.
| NN | PPO | PP$ | RB | VB | VBD | . |
AT | 186 | 0 | 0 | 8 | 1 | 8 | 9 |
NN | 4 | 1 | 3 | 40 | 9 | 66 | 186 |
PPO | 7 | 3 | 16 | 164 | 109 | 16 | 313 |
PP$ | 176 | 0 | 0 | 5 | 1 | 1 | 2 |
RB | 5 | 3 | 16 | 164 | 109 | 16 | 313 |
VB | 22 | 694 | 146 | 98 | 9 | 1 | 59 |
VBD | 11 | 584 | 143 | 160 | 2 | 1 | 91 |
Рис.4
Например сочетание “The man” может быть либо (AT-NN) либо (AT-VB), c соответствующими вероятностями 186 и 1. Далее, аналогично, сравниваются вероятности p(AT-NN-NN)=744, p(AT-NN-VB)=1674 и p(AT-NN-RB)=7440 и т.д. В итоге мы получим следующую комбинацию: “AT-NN-RB-VBD-PPO”, что и будет являться результатом работы вероятностно-статистического алгоритма.
Представленная выше информация обрабатывается программой, использующей статистические алгоритмы, чаще всего алгоритм скрытых цепей Маркова /4/ для нахождения наиболее вероятного лексико-грамматического класса для каждого слова в предложении.
Алгоритмы, основанные на продукционных правилах, используют правила, собранные автоматически с корпуса текстов, либо подготовленные квалифицированными лингвистами. Примером могут быть следующие правила:
- Если словоформа может быть как глаголом, так и существительным, и перед ней стоит артикль, эта словоформа в данном случае является существительным.
- Если словоформа может быть как предлогом, так и подчинительным союзом, и если после нее до конца предложения нет глагола, эта словоформа в данном случае является предлогом.
Оба подхода дают примерно одинаковый результат. При их использовании раздельно либо в различных комбинациях точность лексико-грамматического анализа улучшается до 96-98 %. Поскольку точность при лексико-грамматическом анализе текста вручную также имеет определенную погрешность (0,5-2 %), можно считать, что автоматизация лексико-грамматического анализа достигла практически такой же точности.
Синтаксический анализ /8/. В отличие от лексико-грамматического анализа текста, синтаксический анализ — развивающаяся область прикладной лингвистики. Цель синтаксического анализа — автоматическое построение функционального дерева фразы, т.е. нахождение взаимозависимостей между разноуровневыми элементами предложения. Считается, что имея успешно построенное функциональное дерево фразы, можно выделить из предложения смысловые элементы: логический субъект, логический предикат, прямые и косвенные дополнения и различные виды обстоятельств. Существует большое количество различных подходов к синтаксическому анализу текстов, например система LTAG/8/. Главная особенность этой системы заключается в построении элементарных смысловых деревьев предложения. Каждое элементарное дерево содержит в себе всю синтаксическую и семантическую информацию о конкретном слове или группе слов. К этим деревьям могут быть применены операции примыкания и подстановки. Подстановка является простой операцией – подстановкой дерева к висящей вершине другого дерева. Примыкание является более сложной операцией – присоединение некоторого дерева к внутренним вершинам другого дерева. Данный алгоритм подробно описан в работе /8/. Ниже рассмотрен один из общих подходов синтаксического анализа предложения.
Синтаксический разбор предложения происходит путем набора последовательных преобразований:
- поиск грамматических идиом;
- лексико-грамматический анализ предложения с устранением неоднозначности в определении частей речи;
- нахождение именной группы объекта и субъекта;
- нахождение глагольной группы;
- выделение главных и придаточных предложений.
Приведем пример синтаксического разбора предложения рис.5.
[We] {have found} / that [subsequent addition] (of [the second inducer]) (of [either system]) <after {allowing} [single induction] {to proceed} +> (for [15 minutes]) (also) {results} (in [increased reproduction]) + \ + (of [both enzymes]).
Обозначения:
[…] – группа существительного;
(…) – группа дополнения;
{…} – глагольная группа;
/…\ и <…> - главные и придаточные предложения;
+ - окончание глагольного окружения.
Рис.5
В данной обзорной работе описаны лишь некоторые алгоритмы и наиболее общие подходы к проблеме автоматической обработки естественно-языковых текстов.