Реферат: Машины, которые говорят и слушают
В более поздней работе этого же коллектива рассматриваются системы признаков, основанные на модеси линейного предсказания С 17] и психоакустическом эффекте маскировки более схабых составляющих речевого сигнала более сильными.При использовании данного подхода точность распознавания изолированных слов для одного диктора составила при лексиконе из 100 слов - 97%,а при лексиконе из 300 первых слов русского частотного словаря - 94^.
В Институте кибернетики АН УССР в 1977 г. разработана адаптивная система распознавания слов, работающая в реальном масштабе времени [1б] . Система создана на основе ЭВМ БЭСМ-6, но может быть реализована на других ЭВМ или в специализированном устройстве на микропроцессорах. В процессе предварительной обработки речевого сигнала вычисляется последовательность 48-разрядных двоичных кодов, каждый из которых определяет знак производной по частоте амплитудного спектра речи, вычисленных на участках в 15 мс. Обработка введенного речевого сигнала длительностью I с происходит за 0,3 с, время распознавания одного слова для словаря из 100 слов - не более I с. Точность распознавания словаря из 500 слов - 98%. Методика принятия решения в системе более подробно рассмотрена в С20].
В [21] описывается разработанная в ИК АН УССР система распознавания речи, настроенная на голос нескольких дикторов и обеспечивающая надежность распознавания изолированных слов около 98^ для словаря из 500 слов.
Интересная адаптивная система распознавания изолированных слов, использующая параметры клиппироваяного речевого сигнала, разработана Н.П.Бусленко, В.В. Деевым и Г.Д.Фроловым [8].В этой системе для формирования эталонов и автоматического распознавания предложен оригинальный математический подход к анализу последовательности чисел, соответствующей интервалам между нулевыми перечислениями сигнала. Обобщенные эталоны формируются после нескольких for 2 до Ь) произнесений слова. При распознавании происходит сравнение поступившего на вход слова с этими эталонами. В системе реализован речевой ответ, также основанный на формировании клиппированного речевого сигнала. Ццеи,рассмотренные в [в] , нашли свое дальнейшее развитие в системе, реализованной на мини-ЭВМ.
12
В ряде кибернетических систем массового пользования целесообразно использовать автоматический речевой ввод без предварительной настройки на голос оператора. В таких системах распознавание должно базироваться на универсальных фонологических правилах, а в дальнейшем - на использовании синтаксиса и семантики естественных языков. Другой путь построения неадаптивных систем распознавания речи - сбор эталонных реализации от большого (до 500) числа дикторов, кластеризация эталонов и использование того факта, что каждый новый диктор произносит слова так, как этр делал один из тех дикторов, который участвовал в обучении системы распознавания. В настоящее время не достигнуто высокой точности распознавания слов в неадаптивных системах (кроме системы Dialog Systems , где весьма небольшой словарь и используются эталоны, полученные от 500 дикторов). Однако исследования, проведенные в этой области, а также феномен человека, воспринимающего слитную речь произвольного диктора без предварительной настройки на его голос, доказывают, что технические средства,направленные на распознавание речи любого пользователя, несомненно, будут созданы.
Первой системой автоматического распознавания речи, выпускаемой нашей промышленностью, стала адаптивная микропроцессорная система распознавания изолированных слов,разработанная в НШЮчетмаше.Система содержит блок аналоговой обработки сигнала - предпроцессор (он включает микрофонный усилитель, 16-канальный спектроанализа-тор с рабочей полосой до Ь кГц, индикаторы уровня основного тона и огибающей, блоки клиппирования, наличия устной команды, вторичной обработки и управления), микропроцессор К580ИК80, специализированную подсистему для вычисления меры сходства между входной и эталонной реализациями слов, оперативное запоминающее устройство, интерфейсный блок и пульт инженера-оператора .Поток информации о речевом сигнаде (1250 байт в секунду) поступает с процессора для последующей обработки в микроЭВМ, которая одновременно управляет отдельными узламг и блоками всэй системы. Следует отметить, что система [72J по своей структуре и возможностям занимает промежуточное положение между коммерческими системами V IP-100 (США) и dp фирмы яёс (Япония).От VIP-IOO наши разработчики позаимствовали бинарное представление информации о слове на уровне вторичной обработки сигнала, а от системы нес - использование динамического программирования при нелинейном сравнении входной и эталонной реализации. Такой подход позволил производить распознавание в реальном масштабе времени и с высокой надежностью, используя отечественную элементную
13
базу. Для обучения новому словарю требуется однократное произнесение каждого слова. Надежность распознавания для группы из четырех дикторов, каждый из которых работал со своим словарем,превысила 96%; время распознавания для словаря из 200 слов - близкое к реальному (не превышающее 1с).
В [б33 описано автономное адаптивное устройство распознавания ограниченного набора слов, разработанное во Всесоюзном сельскохозяйственном институте заочного образования. Устройство выполнено на базе микросхем 155-й серии и состоит из 16 плат размером 140 х 150 мм. На вход устройства с аппаратуры первичного анализа подаются 16 бинарных признаков, один аналоговый, представленный четырехразряд очным двоичным кодом, и признак конца речевого сигнала. Память устройства вмещает до 256 отсчетов эталонов сигнала. Речевая информация поступает для последующей обработки с частотой 100 Гц, но в дальнейшем сжимается (в среднем до 16 отсчетов на слово) так, что в память можно записать лишь 16 эталонов. Нелинейное сравнение с эталоном осуществляется методом динамического программирования. Устройство [вз] может работать в двух режимах - обучения и распознавания.Точность распознавания (для одного диктора) зависит от словаря, объем которого не превышает 16 слов, и колеблется в пределах 96-99%.
Система [l] , разработанная в МВТУ им. Н.Э.Баумана и ориентированная на речевое управление движущимися объектами, была испытана десятью дикторами на словарях иг 32 слов и слитных словосочетаний на русском, английском и немецком языках ( каждый диктор имел свои эталоны).На материале 3200 реализации было получено 9Ё% правильных ответов, 1% отказов от распознавания и 1% ошибок. Система позволяла работать в трех режимах - обучения, распознавания и управления. В режиме речевого управления словарь включал всего 14 слов; надежность распознавания команд управления составила при этом 99,5№.
Интересная адаптивная система распознавания и синтеза речи была разработана на устройстве аналогового типа и ЭВМ ЕС-1030 М.Г.Демковым [35] . Словарь системы, работающей в близком к реальному времени, составлял 300 слов и словосочетаний. В результате аппаратной и программной обработки три обучающие реализации каждого слова преобразовались в эталонную последовательность длиной в 10 - 20 символов. Эксперименты по определению надежности системы проводились в условиях акустических шумов 75 -60 дБ на голосе одного оператора. При однократном произнесении словаря в объеме 300 слов точность распознавания составляла 97,2%,при одном повторении - 98,6%, при двух повторениях ошибочно
распознанного слова - 99,3%.
14
В [2b] сообщается, что фирма Dialog Systems (США) подготовила к коммерческому производству первую неадаптивную систему распознавания слов, построенную на бсль'"их интегральных схемах. Особенностью этой системы является метод сравнения, основанный на анализе большого статистического материала. Эталонные реализации формировались после изучения 500 образцов произнесения мужчинами и женщинами каждого словаря: статистика собиралась по всей территории США. Из каждого слова берется 12 выборок;на каждом отчете измеряется общая амплитуда сигнала и вычисляется спектр сигнала в диапазоне телефонного канала(300 - 3400 Гц) в 31 точке. Таким образом, каидому слову соответствует 384 числа. Обучающая выборка включала обработанные реализации 500 слов. Неизвестное слово, поступающее на вход системы, подвергается такой же обработке и сравнивается с эталонами. Система использует речевой ответ. Базовый словарь состоит из 12, слов - 10 цифр и слов "да" и "нет". Система позволяет добавлять специализированные словари. Например, для банковских работников предусмотрено включение 30 дополнительных слов, включая такие, как "баланс","итог", "взнос". В [52] сообщается, что эта фирма разработала систему продажи билетов на самодеты, откликающуюся на голос любого диктора. Однако для нее возможны и другие применения. С ее помощью служащий, находящийся в другом городе, легко может вызвать любого абонента внутренней сети. Для этого он набирает номер коммутатора фирмы, называет свой идентификационный номер и телефонный номер, который он хочет вызвать. Система обрабатывает устные команды с точностью, превышающей 95№.
В [102, 147, 146, 150, I6b - 168] описана экспериментальная система автоматического распознавания 127 слов, произносимых несколькими дикторами. Проблема особенностей произношения решается таким образом, что каждый диктор имеет набор своих эталонов, поэтому в строгом смысле слова систему Bell Laboratories нельзя считать неадаптивной. Словарь был выбран с учетом того, чтобы произвольный пользователь мог заказывать по телефону билеты на авиарейсы, используя ЭВМ с речевым вводом. Отмечается, что использование синтаксиса языка понижает ошибки распознавания слов с 11,7 до 0,4%/
В [170,172] рассматривается распознавание словаря, включающего название английских букв, цифры и три служебных слова редактирования ("стоп", "ошибк^.", "повторяю"). Словарь позволяет произносить произвольные слова, в частности фамилии,по буквам. При испытаниях системы, в которых участвовали шесть мужчин и четыре женщины, при средней точности распознавания слов словаря в
15
60% средняя точность распознавания слов, произносимых по буквам (50 случайных фамилий сотрудников Bell Laboratories ), составила 96%. Каждый диктор, как и в [25] , имел собственные эталоны. В [166,167] используется около 12 эталонов на каждое слово словаря, причем каждый эталон характеризует особенности некоторой группы дикторов. Эталоны получаются методом кластерного анализа;
при этом используется 100 обучающих реализации на каждое слово. Точность распознавания 10 цифр приближается к точности их распознавания в адаптивных системах и колеблется (для различных дикторов) от 97,5 до 100%.
В [125] предлагается для повышения точности распознавания слов ввести дополнительный уровень распознавания, который автоматически определяет пол диктора и уже дальнейшее распознавание производит с учетом этого. Введение предварительного автоматического распознавания пола диктора повысило точность распознавания цифр.
В СССР проблеме построения неадаптивных систем автоматического распознавания речи также уделяется большое внимание [10,13,33, 38, 57, 66, 76, 77, 87, йб] . Как правило, системы работают с проблемно-ориентированными языками, словарный запас которых составляет несколько десятков словоформ [40] . В [1.0,12] описана опытная эксплуатация одной из таких систем. Сейчас существуют некоторые промежуточные экспериментальные системы распознавания, работающие со множеством дикторов, часть из которых можно отнести к адаптивным, например систему МВТУ [l] .которая по своей идеологии и принципам близка к типичным настраивающимся на диктора системам - лишь память ЭВМ ограничивает число дикторов, каждый из которых имеет свою систему эталонов. Рассматриваемые же ниже системы обладают рядом особенностей, характеризующих именно неадаптивные системы: попытка пользоваться универсальными признаками фонем, использование синтаксиса и семантики рабочего языка, верификация диктора до того, как система обратилась к его эталонам, и т.д. В этом смысле к неадаптивным системам распознавания речи можно отнести две интересные системы распознавания фраз, произносимых с паузами между словами. Эти систрмы были созданы в Институте систем управления АН ГрузССР.
Одна из этих систем [ 77] была предназначена для оперативного управления объектами путем распознавания фраз-команд, произносимых предварительно верифицированными дикторами. Ьможество фраз, составленных из 134 слов,включало 75 типовых синтаксических конструкций. Каждая фраза содержала не более 14 слов и произносилась полным стилем с паузами между словами. Параметрами
16
первичного описания были: энергия с 6 полосовых фчльтров, дедек-торы плотности нулевых пересечений сигнала, общая энергия сигнала и признак звонкости - гдухости. (Параметры измерялись и вводились в память ЭВМ каждые 20 мс.) На первом этапе анализа определялась (по динамике параметров первичного описания) макро-временная структура фразы и слов. Полученная грубая структура кодировалась и вместе с данными о положении локальных максимумов скорости изменения значений параметров первичного описания сл?