Реферат: Речевые технологии

Начнем с главного термина. Что есть речь?

Говоря о речи, мы должны раз­личать такие понятия, как «речь», «звуковая речь», «звуковой сиг­нал», «сообщение», «текст».

В нашем случае, в приложении к задаче распознавания такие поня­тия, как «речь» и «звуковая речь» означают одно и то же - некое генерируемое человеком звуковое сообщение, которое может быть объективно зарегистрировано, измерено, сохранено, обработано и, что важно, воспроизведено при по­мощи приборов и алгоритмов. То есть речь может быть представлена в виде некоего речевого сигнала, который в свою очередь может ис­пользоваться для обратного вос­произведения речи. То есть можно поставить знак эквивалентности ме­жду звуковой речью и ее представ­лением в виде речевого сигнала. При этом под понятием «сообщение» может скрываться любая по­лезная для получателя информа­ция, а не только текст. Например, если интересоваться не словами а интонациями, то сообщением будут просодические нюансы речи. Что же касается распознавания речи, то в нашем случае задача сводится к извлечению из речи текста.

Но здесь мы сталкиваемся с од­ним противоречием. Текст, как из­вестно, состоит из букв, слов, пред­ложений, - то есть он дискретен. Речь же в нормальных условиях звучит слитно. Человеческая речь, в отличие от текста, вовсе не состоит из букв. Если мы запишем на магнитофонную ленту или на диск ком­пьютера звучание каждой отдель­ной буквы, а потом попробуем ском­поновать из этих звуков речь, у нас ничего не получится.

Люди уже довольно давно дога­дались о том, что элементарные звуки, из которых состоит речь, не эквивалентны буквам. Поэтому придумали понятие фонемы для обозначения элементарных звуков речи. Хотя до сих пор специалисты никак не могут решить - сколько же всего различных фонем суще­ствует. Есть даже такой раздел лин­гвистики - фонетика. Большинство авторов даже для одного и того же языко­вого диалекта приводят разное ко­личество фонем. В русском языке по одним данным 43 фонемы, по другим - 64, по третьим - более сотни... Но так уж повелось, что есть миф о незыблемости понятия фонемы. И о том, что речевой сиг­нал состоит непосредственно из ку­сочков сигнала, каждый из которых является фонемой. К сожалению, все далеко не так просто.

Поначалу ученые рассматрива­ли речевой сигнал как набор неких универсалий, расположенных друг за другом на временной оси, и считали этими универсалиями фо­немы. Однако дальнейшие иссле­дования речевых сигналов ника­ких фонем не обнаружили.

Тогда одни исследователи спра­ведливо решили, что при генера­ции речевых сигналов наблюдает­ся коартикуляция, то есть взаимо­проникновение соседних звуков (мышцы лица, язык и челюсти об­ладают разной инерцией). Значит, речевой сигнал должен состоять не из фонем, а из аллофонов - комбинаций «слипшихся» фонем.

Другие исследователи, подобно физикам, атаковали идею элемен­тарности фонем и стали утвер­ждать, что фонемы надо поделить на еще более короткие кусочки или даже вообще отказаться от этого понятия и «расчленять» речевой сигнал как-то иначе. Так родились фоноиды и еще масса авторских названий элементарных звуков.

А дальше все многозначитель­но замолчали. Каждый принялся рассматривать речевой сигнал со своей позиции, сообщай об успе­хах весьма туманно. Последнее, весьма вероятно, можно объяснить желанием сохранить ноу-хау. Вот такая картина. Люди изобрели це­лую кучу претендентов на универ­сальность. Конечно, в их основу положено прежде всего человеческое ощущение звука. Возмож­но поэтому фонемы ничем не луч­ше букв. А фоноиды, аллофоны и прочая - лишь усовершенство­ванная версия звукового деления речи. Может быть, в них и есть какой-то смысл. Мы ведь услы­шим. А технически-то сигнал со­стоит не из наших, человеческих компонентов восприятия. Сигнал можно разложить, отфильтровать, как-то еще преобразовать. Задача не в этом. Необходимо найти некий эквивалент, построить модель ме­ханизма восприятия звуков речи. Большой интерес для ученых, работающих в облас­ти распознавания речи, представ­ляют различные разделы лингвистики, науки о языках. Возможно, удачный синтез достижений этих наук и теории обработки речевых сигналов приведут к ус­пешному созданию систем распознавания .

Главные трудности фонемного подхода

Темп речи варьируется в широ­ких пределах, часто в несколько раз. При этом различные звуки речи растягиваются или сжимают­ся не пропо-рционально. Напри­мер, гласные изменяются значи­тельно сильнее, чем полугласные и особенно смычные согласные. Для так называемых щелевых зву­ков есть свои закономерности. (По­лугласные - это звуки при гене­рации которых необходимо участие голосовых связок, как и для гласных звуков, но сами они в оби­ходе считаются согласными. На­пример, так обычно звучат «м», «н», «л» и «р». Смычные звуки образуются при резком смыкании и размыкании органов артикуляции. Например «б», «л», «д», «т». Образование щелевых звуков свя­зано с шипением и прочими эф­фектами турбулентности в органах артикуляции. Можно назвать «в», «ж», «с», а также «ш» и другие шипящие. В качестве примеров для простоты намеренно не приведе­ны звуки, не имеющие буквенных обозначений.) Эта свойство называется временной нестационарностью образцов речевого сигнала. Произнося одно и то же слово или фразу в разное время, под влиянием различных факторов (настроения, состояния здоровья и др.), мы генерируем заметно не совпадающие спектрально-вре­менные распределения энергии. Это справедливо даже для дваж­ды подряд произнесенного сло­ва. Намного сильнее этот эффект проявляется при сравнении спек­трограмм одной и той же фразы, произнесенной разными людьми. Обычно этот эффект называют спектральной нестационарной сетью образцов речевого сигнала (см. примеры спектрограмм). В Изменение темпа речи и четко­сти произношения является при­чиной коартикуляционной нестационарности, означающей изме­нение взаимовлияния соседних звуков от образца к образцу. Проблема кластеризации слит­ной речи. Из непрерывного рече­вого потока довольно непросто вы­делить какие-либо речевые еди­ницы. Многие звуки «слипаются» либо имеют нечеткие границы.

Многообразие видов

Существующие системы распо­знавания речи можно классифи­цировать по разным признакам.

По назначению:

1) командные системы

2) системы диктовки текста.

По потребительским качествам:

1) диктороориентированные (тре­нируемые на конкретного диктора)

2) дикторонезависимые (рискую предложить термин «омнивойс»)

3) распознающие отдельные слова

4) распознающие слитную речь.

По механизмам функциониро­вания:

1) простейшие (корреляционные) детекторы

2) экспертные системы с различ­ным способом формирования и обработки базы знаний

3) вероятностно-сетевые модели принятия решения, в том числе нейронные сети.

Довольно трудно выбрать удоб­ный показатель качества работы системы распознавания речи. Наи­более просто такой показатель ка­чества вводится для командных систем. При тестировании в слу­чайном порядке произносятся все возможные команды достаточно большое число раз. Подсчитыва­ется количество правильно распознанных команд и делится на об­щее количество произнесенных команд. В результате получается оценка вероятности правильного распознавания команды в задан­ной при эксперименте акустиче­ской обстановке. Для систем дик­товки похожий показатель качест­ва может вычисляться при диктов­ке некоторого тестового текста. Очевидно, что это не всегда удоб­ный показатель качества. В дейст­вительности мы сталкиваемся с са­мыми различными акустическими обстановками. Но как быть со сменой дикторов и сопутствующей ей тре­нировкой системы?

В качестве примера разрешите взять на рассмотрение вариант простейшей командной системы распознавания речи. Функционирование системы осно­вано на гипотезе о том, что спек­трально-временные характеристи­ки команд-слов для отдельно взя­того диктора изменяются слабо. Акустическая модель такой систе­мы представляет собой преобразователь из речевого сигналов спектрально-временную матрицу и мо­жет служить типичным примером изобретательского подхода. В са­мом простом случае команда ло­кализуется во времени по паузам в речевом сигнале. Лингвистический блок способен обнаружить огра­ниченное число команд плюс еще одну, которая означает все осталь­ные неизвестные системе слова. Как правило, лингвистическая мо­дель строится как алгоритм поиска максимума функционала от вход­ного образца и образцов всего «словарного запаса» системы. Часто это обычный двумерный коррелятор. Хотя выбор размер­ности пространства описания и его метрики может широко варьиро­ваться разработчиком.

Уже исходя из «конструкции» описанной системы понятно, что она представляет собой скорее игрушку, нежели полезный инструмент. В на­стоящее время на рынке представ­лено множество коммерческих сис­тем распознавания речи с гораздо большими возможностями:

- Voice Type Dictation , Voice Pilot , ViaVoice от IBM

- Voice Assist Creative от Techonology

- Listen for Windows от Verbex и многие другие.

К-во Просмотров: 295
Бесплатно скачать Реферат: Речевые технологии