Дипломная работа: Разработка подсистемы морфологического анализа информационной системы

Corel WordPerfect 7.0/8.0

Все языки

Русский,
украинский

Corel WordPerfect 9.0

Все языки

QuarkXPress 4.x/5.x

Все языки

Русский,
украинский

ОРФО Редактор

Все языки

Русский

Русский

Русский,
украинский

Русский

ОРФО Агент

Все языки

В таблице 1.1 указано, в каких приложениях и для каких языков поддерживаются предлагаемые опции:

«Все языки» означает, что данная опция реализована для всех встроенных в ОРФО языков в зависимости от приобретенной версии;

«Русский» – для русского;

«Украинский» – для украинского.

1.2 Категория 2 (Наборы словарей)

К этой категории отнесены библиотеки для проверки орфографии.

Hunspell

Hunspell – это формат словарей Hunspell и файлов аффиксов.

Для проверки орфографии Hunspell требуется два файла. Первый файл – словарь, содержащий слова, второй – файл аффиксов, который определяет значения специальных меток (флагов) в словаре.

Файл словаря (.dic) содержит список слов, по одному слову в строке. В первой строке словарей (за исключением персональных словарей) указывается приблизительное количество слов в словаре (для оптимального распределения памяти). После каждого слова может следовать слэш («/») и один или более флагов, соответствующих аффиксам и атрибутам. Слова в словаре также могут содержать слэши, экранированные «». По умолчанию, флаг представляет собой один (обычно, алфавитный) символ. В файле словаря Hunspell также может существовать поле для морфологического описания, отделяемое табуляцией.

Формат морфологического описания определяется пользователем.

Файл аффиксов (.aff) может содержать необязательные атрибуты. Например, SET для определения кодировки символов файлов аффиксов и словаря. TRY определяет заменяемые символы для предлагаемых замен. REP определяет таблицу замен для исправлений нескольких символов. PFX и SFX определяют классы префиксов и суффиксов, обозначенных флагами аффиксов.

Следующий образец файла аффиксов определяет кодировку символов UTF-8. Предлагаемые замены TRY отличаются от неправильного слова на одну букву или апостроф. С помощью этих флагов REP, Hunspell предлагает правильное слово, если вместо f напечатано ph или наоборот.

SET UTF-8

TRY esianrtolcdugmphbyfvkwzESIANRTOLCDUGMPHBYFVKWZ’

К-во Просмотров: 566
Бесплатно скачать Дипломная работа: Разработка подсистемы морфологического анализа информационной системы