Реферат: Обзор методов обработки естественного языка в задачах дистанционного обучения
4. Возможность обучения в престижных зарубежных вузах, не покидая родного дома.
Из выше сказанного можно сделать вывод о необходимости и перспективности развития ДО. Важно сформулировать основные требования к создаваемым продуктам, ориентированным на применение для дистанционного обучения иностранному языку. Основные требования:
- организация знаний о языке в виде целостной модели;
- представление этой модели на ЭВМ в доступной для учащегося форме;
- использование алгоритмов и методов искусственного интеллекта (ИИ) с целью повышения эффективности обучаемого комплекса;
- обеспечение контроля знаний учащегося при помощи ЭВМ;
- обеспечение работы системы, как в локальной сети, так и в глобальной сети Internet;
- обеспечение открытости системы для удобства наполнения и корректировки базы знаний и тренажеров;
- обеспечение платформенной независимости системы;
- обеспечение модульности системы с целью быстрой замены, добавления или удаления приложений, используемых в обучении;
- обеспечение связи с преподавателем.
В данной работе уделяется особое внимание вопросу использования в такого рода проектах методов ИИ. Речь пойдет об алгоритмах работы с текстовой информацией.
Задача интеллектуальной обработки текстов на естественном языке впервые появилась на рубеже 60х—70х гг. /7/. С тех пор было предпринято множество различных попыток ее решения, созданы десятки экспериментальных программ, способных вести диалог с пользователем на естественном языке. Однако широкого распространения такие системы пока не получили — как правило, из-за невысокого качества распознавания фраз, жестких требований к синтаксису “естественного языка”, а также больших затрат машинного времени и ресурсов, необходимых для их работы. Практически во всех системах машинного понимания текста используется ограниченный естественный язык, поскольку полной и строгой формальной модели ни для одного естественного языка пока не создано.
Тем не менее естественно-языковые средства общения человека с ЭВМ постоянно развиваются, оставаясь одним из наиболее перспективных способов построения пользовательского интерфейса к сложным информационным системам.
Исследования этой области в Европе и США привлекают внимание крупнейших частных фирм и государственных организаций самого высокого уровня. Серьезная работа в направлении решении проблем автоматической обработки ЕЯ началась с основанных ARPA программ в 1980-х годах /7/, среди которых:
- программа распознавания речи ATIS;
- программа, направленная на решение задач понимания и извлечение информации из текстов IE (Information Extraction);
- программа TIPSTER, существовавшая с 1991 по 1998 год, основной целью которой было сравнение и оценка результатов работы различных поисковых систем и систем реферирования.
Необходимо отметить, что такие задачи как распознавание и генерации речи, создание поисковых систем и систем реферирования, до настоящего времени решаются с минимальным участием лингвистов. Это обусловлено использованием при решении вышеупомянутых задач в основном статистических методов.
Несмотря на это, за долгие годы четко определились области, в которых наиболее сильны позиции профессиональных лингвистов. Это лексико-грамматический анализ (Part of Speech tagging) предложения /4,5,6/, синтаксический анализ (Text Parsing) предложения, нахождение имен собственных в тексте и автоматическое реферирование.
Задача лексико-грамматического анализа — автоматически распознать, какой части речи принадлежит каждое слово тексте. На рис.1 показан пример предложения, в котором каждому слову поставлен в соответствие лексико-грамматический класс.
The/AT man/NN still/RB saw/VBD her/PPO./.
Обозначения
RB - наречие
AT - опр. артикль
NN - существительное
VB – глагол
VBD – глагол в прошедшем времени
PPO – объектное местоимение
PP$ - личное местоимение
. - точка
Рис.1
Данную задачу не трудно выполнить для русского языка благодаря его развитой морфологии практически со стопроцентной точностью. В английском языке простой алгоритм, присваивающий каждому слову в тексте наиболее вероятный для данного слова лексико-грамматический класс (часть речи) работает с точностью около 90%, что обусловлено лексической многозначностью английского языка.
Для улучшения точности лексико-грамматического анализа используются два типа алгоритмов: вероятностно-статистические и основанные на продукционных правилах, оперирующих словами и кодами.
Большинство вероятностно-статистических алгоритмов /4/ использует два источника информации:
1. Словарь словоформ языка /5/, в котором каждой словоформе соответствует множество лексико-грамматических классов, которые могут иметься у данной словоформы. Например, для словоформы well в словаре указано, что она может быть наречием, существительным, прилагательным и междометием. Для каждого лексико-грамматического класса словоформы указывается частота его встречаемости относительно других лексико-грамматических классов данной словоформы. Частота обычно подсчитывается на корпусе текстов, в котором предварительно вручную каждому слову приведен в соответствие лексико-грамматический класс. Таким образом, словоформа well в словаре будет представлена следующим образом (рис.2):
Словоформа | Часть речи | Частота |
Well | существительное | 4 |
Well | наречие | 1567 |
Well | прилагательное | 6 |
Well | междометие | 1 |
Рис.2