Реферат: Кодеры речи

Упрощенная и развернутая струк­турные схемы декодера АДНКМ при­ведены на рис. 1.6,а и 1.7,б соответ­ственно. Декодер включает схему, идентичную цепи обратной связи коде­ра, преобразователь линейной ИКМ в сигнал по законам А или μ и устрой­ство установки синхронного кодирова­ния.

Устройство установки синхрон­ного кодирования предотвращает нако­пление искажений, имеющих место при синхронном последовательном кодиро­вании (АДИКМ-ИКМ-АДИКМ, дру­гие цифровые соединения). Установ­ка синхронного кодирования достига­ется путем подстройки проходного ко­да ИКМ таким образом, чтобы попы­таться устранить искажения квантова­ния в следующем каскаде кодирования АДИКМ.

Функции основных блоков декоде­ра и кодера совпадают и поэтому ниже не рассматриваются.


Вокодеры

Вокодер (от английских слов voice – голос и coder – кодировщик) пред­ставляет собой устройство, осуще­ствляющее параметрическое компандирование речевых сигналов. Ком­прессия речевых сигналов на переда­ющем конце канала связи производит­ся в анализаторе, выделяющем из ре­чевого сигнала медленно меняющиеся составляющие, которые передаются по каналу связи в виде кодовых посылок. На приемном конце с помощью мест­ных источников сигналов, управляе­мых принятыми параметрами, синте­зируется речевой сигнал.

Работа вокодеров основана на моделировании человеческой речи с учетом ее характерных особенностей. Вместо непосредственного измерения амплитуды вокодер преобразует вход­ной сигнал в некий другой, похожий на исходный. Причем измеряемые харак­теристики речевого сигнала использу­ются для подгонки параметров в при­нятой модели речевого сигнала. Имен­но эти параметры и передаются прием­нику, который по ним восстанавливает исходный речевой сигнал. По суще­ству, речь идет о синтезе речи. Есте­ственно, что измерение искажений от­ношения сигнал/шум бесполезно для вокодеров, и, следовательно, необхо­димы другие субъективные оценки, та­кие, как средняя экспертная оценка, диагностический рифмованный тест, диагностическая оценка приемлемости и др. Вокодеры можно разделить на два класса: речеэлементные и параметри­ческие.

В речеэлементных вокодерах при передаче распознаются произне­сенные элементы речи (например, фо­немы) и передаются только их но­мера. На приеме эти элементы со­здаются по правилам речеобразования или берутся из памяти устройства. Область применения фонемных воко­деров – линии командной связи, ре­чевое управление и говорящие автома­ты информационно-справочной служ­бы. Практически в таких вокодерах происходит автоматическое распозна­вание слуховых образов, а не опреде­ление параметров речи.

В параметрических вокодерах из речевого сигнала выделяют два ти­па параметров:

параметры, характеризующие оги­бающую спектра речевого сигнала, (фильтровую функцию);

параметры, характеризующие ис­точник речевых колебаний (генератор­ную функцию), – частота основного тона, ее изменение во времени, момен­ты появления и исчезновения основно­го тона, шумового сигнала.

По этим параметрам на приеме синтезируют речь.

По принципу определения параме­тров фильтровой функции речи разли­чают вокодеры:

• полосные канальные (channel);

• формантные;

• ортогональные;

• липредеры (с линейным предска­занием речи);

• гомоморфные.

В полосных вокодерах спектр речи делится на 7-20 полос (каналов) аналоговыми или цифровыми полосо­выми фильтрами. Большее число ка­налов в вокодере дает большую нату­ральность и разборчивость. С каждо­го полосового фильтра сигнал поступа­ет на детектор и фильтр низких частот с частотой среза Fcp . Таким образом, сигналы на выходе каждого канала из­меняются с частотой менее Fcp . Их пе­редача возможна в аналоговом или ци­фровом виде.

В формантных вокодерах оги­бающая спектра речи описывается комбинацией формант (резонансных частот голосового тракта). Основные параметры формант – центральная частота, амплитуда и ширина полосы частот.

В ортогональных вокодерах огибающая мгновенного спектра рас­кладывается в ряд по выбранной си­стеме ортогональных базисных функ­ций. Вычисленные коэффициенты это­го разложения передаются на прием­ную сторону. Распространение полу­чили гармонические вокодеры, исполь­зующие разложение в ряд Фурье.

Вокодеры с линейным пред­сказанием (LPC — Linear Prediction Coding, или липредеры, основаны на оригинальном математическом аппа­рате. Они получили наибольшее рас­пространение и будут ниже рассмотре­ны более подробно.

Гомоморфная обработка позво­ляет разделить генераторную и филь­тровую функции, образующие речевой сигнал.

Из-за сложности определения па­раметров генераторной функции по­явились полувокодеры (VE — Voice Excited Vocoder), в которых вместо сигналов основного тона и тон-шума используется полоса речевого сигна­ла. Полоса частот до 800. .. 1000 Гц кодируется АДИКМ, АДМ (адаптивная дельта модуляция) или с помощью линейного предсказания малого порядка, а в некоторых моделях передается в аналоговом виде. Известныразныетипыполувокодеров-липредеров: VELP — Voice Excite Linear Prediction; RELP — Residue Excited Linear Prediction.

Вокодеры VELP используют голосовое возбуждение и коэффициент линейного предсказания (КЛП). В вокодерах RELP по исходному сигнал также вычисляются КЛП. Так как КЛП описывает фильтровую функцию, то сигнал ошибки (остатка) предсказания содержит информацию о генераторной функции речи и передается на приемную сторону (возможно ее сжатие методами АДИКМ, АДМ или помощью линейного предсказания малого порядка).

Характеристики вокодеров. Качество речи вокодеров являет функцией скорости передачи, производительности и задержки обработки. Если вокодеры предназначены для телефонии по Интернет, разработчики продукции должны учитывать эти характеристики, между которыми существует строгая зависимость. Например, низкоскоростные вокодеры обычно имеют большую задержку и более низкое качество речи, чем высокоскоростные.

Скорость. Так как вокодер совместно использует канал связи и часто перегруженную сеть предприятия или Интернет с другими информационными потоками, максимальная скорость должна была бы быть как можно ниже, особенно для приложений малых офисов. В настоящее время большинство вокодеров работают на фиксированной скорости вне зависимости от характеристик входного сигнала, однако целью современных разработок являются вокодеры с переменной скоростью. Для приложений по одновременной передаче речи и дан­ных компромиссом является создание алгоритмов сжатия пауз в качестве части стандарта кодирова­ния. Общим решением является ис­пользование фиксированной скорости для речи и низкой скорости для фо­новых шумов. Способ выполнения ме­ханизма сжатия пауз важен для повы­шения качества передачи речи, одна­ко часто выигрыш от компрессии пауз не реализуется. Проблемой является то, что при больших фоновых шумах сложно провести различия между ре­чью и шумом. Другая проблема за­ключается в том, что если механизм сжатия пауз неправильно выявил состояние речи, начало речи может быть «отрезано», что значительно ухудшает разборчивость кодированной речи.

Алгоритм Описание

Детектор активности речи (VAD)

Определяет, является ли входной сигнал речью или фоновым шумом. Если сигнал считается речью, он кодируется на полной фиксированной скорости; если сигнал считается шумом, он кодируется на более низкой скорости

Генерация комфортного шума Механизм действует на стороне приемника для воссоздания основной характеристики фонового шума

Способ генерации комфортного пума должен быть таким, чтобы кодер и декодер оставались синхронизи­рованными, даже если в течение некоторого интервала времени передача данных не осуществляется. Это позволяет сгладить переходы между сегментами активной и неактивной речи.

К-во Просмотров: 449
Бесплатно скачать Реферат: Кодеры речи