Реферат: Обзор методов обработки естественного языка в задачах дистанционного обучения

4. Возможность обучения в престижных зарубежных вузах, не покидая родного дома.

Из выше сказанного можно сделать вывод о необходимости и перспективности развития ДО. Важно сформулировать основные требования к создаваемым продуктам, ориентированным на применение для дистанционного обучения иностранному языку. Основные требования:

- организация знаний о языке в виде целостной модели;

- представление этой модели на ЭВМ в доступной для учащегося форме;

- использование алгоритмов и методов искусственного интеллекта (ИИ) с целью повышения эффективности обучаемого комплекса;

- обеспечение контроля знаний учащегося при помощи ЭВМ;

- обеспечение работы системы, как в локальной сети, так и в глобальной сети Internet;

- обеспечение открытости системы для удобства наполнения и корректировки базы знаний и тренажеров;

- обеспечение платформенной независимости системы;

- обеспечение модульности системы с целью быстрой замены, добавления или удаления приложений, используемых в обучении;

- обеспечение связи с преподавателем.

В данной работе уделяется особое внимание вопросу использования в такого рода проектах методов ИИ. Речь пойдет об алгоритмах работы с текстовой информацией.

Задача интеллектуальной обработки текстов на естественном языке впервые появилась на рубеже 60х—70х гг. /7/. С тех пор было предпринято множество различных попыток ее решения, созданы десятки экспериментальных программ, способных вести диалог с пользователем на естественном языке. Однако широкого распространения такие системы пока не получили — как правило, из-за невысокого качества распознавания фраз, жестких требований к синтаксису “естественного языка”, а также больших затрат машинного времени и ресурсов, необходимых для их работы. Практически во всех системах машинного понимания текста используется ограниченный естественный язык, поскольку полной и строгой формальной модели ни для одного естественного языка пока не создано.

Тем не менее естественно-языковые средства общения человека с ЭВМ постоянно развиваются, оставаясь одним из наиболее перспективных способов построения пользовательского интерфейса к сложным информационным системам.

Исследования этой области в Европе и США привлекают внимание крупнейших частных фирм и государственных организаций самого высокого уровня. Серьезная работа в направлении решении проблем автоматической обработки ЕЯ началась с основанных ARPA программ в 1980-х годах /7/, среди которых:

- программа распознавания речи ATIS;

- программа, направленная на решение задач понимания и извлечение информации из текстов IE (Information Extraction);

- программа TIPSTER, существовавшая с 1991 по 1998 год, основной целью которой было сравнение и оценка результатов работы различных поисковых систем и систем реферирования.

Необходимо отметить, что такие задачи как распознавание и генерации речи, создание поисковых систем и систем реферирования, до настоящего времени решаются с минимальным участием лингвистов. Это обусловлено использованием при решении вышеупомянутых задач в основном статистических методов.

Несмотря на это, за долгие годы четко определились области, в которых наиболее сильны позиции профессиональных лингвистов. Это лексико-грамматический анализ (Part of Speech tagging) предложения /4,5,6/, синтаксический анализ (Text Parsing) предложения, нахождение имен собственных в тексте и автоматическое реферирование.

Задача лексико-грамматического анализа — автоматически распознать, какой части речи принадлежит каждое слово тексте. На рис.1 показан пример предложения, в котором каждому слову поставлен в соответствие лексико-грамматический класс.

The/AT man/NN still/RB saw/VBD her/PPO./.

Обозначения

RB - наречие
AT - опр. артикль
NN - существительное
VB – глагол

VBD – глагол в прошедшем времени

PPO – объектное местоимение
PP$ - личное местоимение
. - точка

Рис.1

Данную задачу не трудно выполнить для русского языка благодаря его развитой морфологии практически со стопроцентной точностью. В английском языке простой алгоритм, присваивающий каждому слову в тексте наиболее вероятный для данного слова лексико-грамматический класс (часть речи) работает с точностью около 90%, что обусловлено лексической многозначностью английского языка.

Для улучшения точности лексико-грамматического анализа используются два типа алгоритмов: вероятностно-статистические и основанные на продукционных правилах, оперирующих словами и кодами.

Большинство вероятностно-статистических алгоритмов /4/ использует два источника информации:

1. Словарь словоформ языка /5/, в котором каждой словоформе соответствует множество лексико-грамматических классов, которые могут иметься у данной словоформы. Например, для словоформы well в словаре указано, что она может быть наречием, существительным, прилагательным и междометием. Для каждого лексико-грамматического класса словоформы указывается частота его встречаемости относительно других лексико-грамматических классов данной словоформы. Частота обычно подсчитывается на корпусе текстов, в котором предварительно вручную каждому слову приведен в соответствие лексико-грамматический класс. Таким образом, словоформа well в словаре будет представлена следующим образом (рис.2):

Словоформа Часть речи Частота
Well существительное 4
Well наречие 1567
Well прилагательное 6
Well междометие 1

Рис.2

К-во Просмотров: 169
Бесплатно скачать Реферат: Обзор методов обработки естественного языка в задачах дистанционного обучения