Реферат: Речевые технологии

Лингвистические блоки совре­менных систем реализуют слож­ную модель естественного языка. Иногда она основана на математи­ческом аппарате скрытых цепей Маркова, иногда использует по­следние достижения технологии нейронных сетей либо других ноу-хау. Устройство же акустических блоков подобных систем держится в строгом секрете. По некоторым признакам можно догадаться, что акустический блок некоторых сис­тем пытается моделировать естест­венный слуховой аппарат.

Речевой вывод.

Речевой вывод информации из компьютера- проблема не ме­нее важная, чем речевой ввод. Это вторая часть речевого интерфей­са, без которой разговор с компь­ютером не может состояться. Я имею в виду прочтение вслух тек­стовой информации, а не проиг­рывание заранее записанных зву­ковых файлов. То есть выдачу в речевой форме заранее не из­вестной информации.

Фактически, благодаря синтезу речи по тексту открывается еще один канал передачи данных от компьютера к человеку, анало­гичный тому, какой мы имеем бла­годаря монитору. Конечно, труд­новато было бы передать рисунок голосом. Но вот услышать элек­тронную почту или результат по­иска в базе данных в ряде случаев было бы довольно удобно, осо­бенно если в это время взгляд за­нят чем-либо другим. Например, придя утром на работу в офис, вы могли бы поправлять галстуку зер­кала или возвращать на место при­ческу (может быть, даже подкра­шивать ногти ) в то время как ком­пьютер будет читать вслух по­следние известия или почту. Или. например, в середине рабочего дня он может привлечь ваше вни­мание сообщением, что прибли­жается время заранее назначен­ной деловой встречи.

С точки зрения пользователя, наиболее разумное решение про­блемы синтеза речи - это вклю­чение речевых функций (в перс­пективе - многоязычных, с воз­можностями перевода) в состав операционной системы. Компьютеры будут озву­чивать навигацию по меню, читать (дублировать голосом) экранные сообщения, каталоги файлов, и т. д. Важное замечанием пользо­ватель должен иметь достаточные возможности по настройке голоса компьютера, в частности, при же­лании, суметь выключить голос совсем.

Вышеупомянутые функции и сейчас были бы не лишними для лиц, имеющих проблемы со зре­нием. Для всех остальных они соз­дадут новое измерение удобства пользования компьютером и зна­чительно снизят нагрузку на нерв­ную систему и на зрение. По моему мнению, сейчас не стоит во­прос, нужны синтезаторы речи в персональных компьютерах или нет. Вопрос в другом - когда они будут установлены на каждом ком­пьютере. Осталось ждать, может быть, год или два.

Методы синтеза речи

Теперь, после оптимистического описания ближайшего будущего давайте обратимся собственно к тех­нологии синтеза речи. Рассмотрим какой-нибудь хотя бы минимально осмысленный текст, например, эту статью. Текст состоит из слов, раз­деленных пробелами и знаками препинания. Произнесение слов зависит от их расположения в пред­ложении, а интонация фразы - от знаков препинания. Более того, довольно часто и от типа приме­няемой грамматической конструк­ции: в ряде случаев при произне­сении текста слышится явная пауза, хотя какие-либо знаки препи­нания отсутствуют. Наконец, про­изнесение зависит и от смысла сло­ва! Сравните, например, выбор од­ного из вариантов за' мок» или «замо'к» для одного и того же слова «замок».

Обобщенная функциональная система синтеза

Структура идеализированной сис­темы автоматического синтеза ре­чи может быть представлена блок- схемой, изображенной на рис.1.


Ввод текста


Блоки лингвистической Определение Исправление

Обработки языка текста ошибок

Подготовка текста входного текста

к озвучиванию

Нормализация текста


Лингвистический анализ

Формирование Фонемный транскриптор

Просодических Приведение фонем

характеристик к единицам синтеза


Озвучивание Формирование управляющей информации

Получение звукового сигнала

Звук

Она не описывает ни одну из суще­ствующих реально систем, но со­держит компоненты, которые мож­но обнаружить во многих системах.

Модуль лингвистической обработки

Прежде всего, текст, подлежащий прочтению, поступает в модуль лингвистической обработки. В нем производится определение языка , а также отфильтровываются не подлежащие произнесению символы. В некоторых случаях ис­пользуются спелчекеры (модули исправления орфографических и пунктуационных ошибок). Затем происходит нормализация текста, то есть осуществляется разделе­ние введенного текста на слова и остальные последовательности символов.Все знаки пунктуации очень информатив­ны.

Для озвучивания цифр разра­батываются специальные подблоки. Преобразование цифр в по­следовательности слов является относительно легкой задачей, но цифры имеющие разное значение и функцию, про­износятся по-разному.

Лингвистический анализ

После процедуры нормализации каждому слову текста необходимо приписать сведения о его произношении, то есть превратить в цепочку фонем или, иначе говоря, создать его фо­немную транскрипцию. Во многих языках, в том числе и в русском, существуют достаточно регулярные правила чтения - правила со­ответствия между буквами и фоне­мами (звуками), которые, однако могут требовать предварительной расстановки словесных ударений. В английском языке правила чте­ния очень нерегулярны, и задача данного блока для английского синтеза тем самым усложняется. В любом случае при определении произношения имен собственных, заимствований, новых слов сокращений и аббревиатур возника­ют серьезные проблемы. Просто хранить транскрипцию для всех слов языка не представляется воз­можным из-за большого объема словаря и контекстных изменении произношения одного и того же слова во фразе.

Кроме того, следует корректно рассматривать случаи графиче­ской омонимии: одна и та же последовательность буквенных сим­волов в различных контекстах по­рой представляет два различных слова/словоформы и читается по- разному (ср. выше приведенный

пример слова «замок»). Часто удается решить проблему неод­нозначности такого рода путем грамматического анализа, однако иногда помогает только исполь­зование более широкой семанти­ческой информации.

Для языков с достаточно регу­лярными правилами чтения од­ним из продуктивных подходов к переводу слов в фонемы является система контекстных правил, пе­реводящих каждую букву/буква - сочетание в ту или иную фонему, то есть автоматический фонем­ный транскриптор. Однако чем больше в языке исключений из правил чтения, тем хуже работает этот метод. Стандартный способ улучшения произношения систе­мы состоит в занесении нескольких тысяч наиболее употребительных исключений в словарь. Аль­тернативное подходу «слово - буква-фонема» решение предпо­лагает морфемный анализ слова и перевод в фонемы морфов (то есть значимых частей слова: при­ставок, корней, суффиксов и окон­чаний). Однако в связи с разными пограничными явлениями на сты­ках морфов разложение на эти элементы представляет собой зна­чительные трудности. В то же вре­мя для языков с богатой морфо­логией, например, для русского. словарь морфов был бы компакт­нее. Морфемный анализ удобен еще и потому, что с его помощью можно определять принадлежность слов к частям речи, что очень важно для грамматического ана­лиза текста и задания его просодических характеристик. В английских системах синтеза морфем­ный анализ был реализован в сис­теме M iTalk, для которой процент ошибок транскриптора составляет 5%.

К-во Просмотров: 293
Бесплатно скачать Реферат: Речевые технологии