Реферат: Компьютерный анализ текста

Применение машинного перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных бродящих по Интернету шуток. Из пространных примеров наиболее известен текст "Гуртовщики Мыши" (перевод компьютерной документации программой Poliglossum на основе медицинского, коммерческого и юридического словарей); из кратких - фраза "My cat has given birth to four kittens, two yellow, one white and one black", которую переводчик компании ПРОМТ превращает в "Моя кошка родила четырёх котят, два желтых цвета, одного белого и одного афроамериканца". Главной причиной того, почему программа перевела именно так, было то, что после слова black нужно было добавить kitten, тогда программа переведёт правильно: "Моя кошка родила четырёх котят: двух жёлтых, одного белого и одного чёрного котёнка".

Чаще всего подобные шутки связаны с тем, что программа не распознаёт контекст фразы и переводит термины дословно, к тому же не отличая собственных имён от обычных слов. Тот же переводчик ПРОМТ превращает "bra-ket notation" в "примечание Кети лифчика", "Lie algebra" - в "алгебру Лжи", "eccentricity vector" - в "вектор оригинальности", "Shawnee Smith" в "индеец племени шони Смит".

Рассказав о качестве перевода, необходимо затронуть и статистический перевод.

Статистический машинный перевод - это разновидность машинного перевода текста, основанная на сравнении больших объёмов языковых пар. Языковые пары - тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком - носителем двух языков, так и набором предложений и их переводов, выполненных человеком. Таким образом, статистический машинный перевод обладает свойством "самообучения". Чем больше в распоряжении имеется языковых пар, и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода. Под понятием "статистического машинного перевода" подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчеты, которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчеты издаются в Канаде, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 11 языках; а Организация объединенных наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода.

3.2 Лингвистическое программное обеспечение

Лингвистическое программное обеспечение (англ. lingware = linguistic + software) - компьютерные программы и данные, обеспечивающие анализ, обработку, хранение и поиск аудиоданных, рисунков (OCR) и текстов на естественном языке.

Можно выделить следующие виды лингвистического программного обеспечения:

1) Обработка текста на естественном языке:

- Электронныесловари: Викисловарь, Multitrans, GoldenDict, Stardict, dict, ForceMem, ABBYY Lingvo.

- Орфокорректоры (илиспеллчекеры): MS Word, ispell, aspell, myspell.

- Поисковые системы

- Системы машинного перевода: PROMT, Socrat.

- Системы автоматизированного перевода, в т.ч. программы управления памятью переводов - OmegaT, Trados.

2) Системы распознавания символов OCR: Finereader, CuneiForm, Tesseract, OCRopus.

3) Речевые системы:

- Системы анализа речи: Dragon, IBM via voice.

- Системы синтеза речи: Агафон.

- Системы голосового перевода (распознавание и синтез): Speereo.

3.3 Программы для компьютерного анализа текста

1) Обработка текста на естественном языке :

1. 1. Электронные словари :

А) Викисловарь – свободно пополняемый многофункциональный многоязычный словарь и тезаурус, основанный на вики-движке.

В словаре содержатся грамматические описания, толкования и переводы слов. Кроме того, в статьях может отражаться информация об этимологии, фонетических свойствах и семантических связях слов. Таким образом, Викисловарь - попытка объединить в одном продукте грамматический, толковый, этимологический и многоязычный словари, а также тезаурус.

Б) GoldenDict - свободная оболочка для электронных словарей с открытым исходным кодом, поддерживающая многие форматы словарей ABBYY Lingvo, StarDict, Babylon, Dictd, а также произвольных словарных веб-сайтов (Википедия, Викисловарь).

Особенности:

1. Вывод отформатированных статей с ссылками и картинками с помощью движка WebKit.

2. При поиске слов с ошибками используется система морфологии на основе свободной программы для проверки орфографии Hunspell.

3. Индексирование директорий со звуковыми файлами для формирования словарей с произношением слов.

4. При поиске перевода пробелы, знаки пунктуации, диакритические знаки и регистр символов в поисковой фразе не играют роли.

К-во Просмотров: 490
Бесплатно скачать Реферат: Компьютерный анализ текста