Реферат: Кодеры речи
Увеличение производительности приводит к увеличению стоимости и большим затратам энергии. Энергетические затраты важны для приложений в портативной аппаратуре, так как при больших затратах энергии сокращается время между подзарядками батарей или возникает необходимость использовать батареи большей емкости, что, в свою очередь, приводит к большей цене и весу.
При синтезе и исследовании полосных вокодеров и полосных вокодеров с ЛПК используются различные модели речевого процесса. Наиболее точная модель речи представляет собой нестационарный случайный процесс с медленно меняющейся дисперсией и спектральной плотностью. При использовании подобной модели можно получить наиболее точный результат оценки качества вокодера.
Ортогональные вокодеры
Речевой сигнал можно промоделировать откликом на возбуждающий сигнал линейной системы с импульсной характеристикой
с переменными параметрами, так что выходной сигнал
равен свертке возбуждающего сигнала и импульсного отклика голосового тракта при условии, что форма голосового тракта неизменна.
Все разнообразие звуков получается путем изменения формы голосового тракта. Если форма голосового тракта изменяется медленно, то на коротких временных интервалах аппроксимация выходного сигнала сверткой возбуждающего сигнала и импульсного отклика голосового тракта справедлива. Если на коротком отрезке времени входной сигнал является периодическим, с постоянной входной частотой, то выходной сигнал также является периодическим. Такая модель справедлива для описания звонких звуков. Аналогично временному, преобразование речи может быть описано в частотной области, поскольку преобразование Фурье речевого сигнала равно произведению преобразований Фурье возбуждающего сигнала и импульсного отклика голосового тракта.
Частотная характеристика голосового тракта является гладкой функцией частоты и характеризуется акустическими резонансами, называемыми формантными частотами.
Поскольку при изменении различных звуков форма голосового тракта изменяется, то с течением времени будет изменяться и огибающая спектра речевого сигнала. Так, в частности, при изменении периода сигнала, возбуждающего звонкие звуки, частотный разнос между гармониками спектра будет также изменяться.
Таким образом, для адекватного описания речевого сигнала надо не только знать вид его спектра, но и то, как он изменяется во времени.
Основным параметром речевого сигнала, возбуждающего звонкий звук, является разнос гармоник основного тона, а характеристики голосового тракта достаточно полно определяются частотами формант.
Изложенное позволяет сделать вывод об удобстве частотного метода описания и преобразования речевых процессов на основе кратковременного спектрального анализа.
Рассмотрим основные принципы, положенные в основу построения ортогональных вокодеров.
Запишем кратковременное преобразование Фурье дискретизированного речевого процесса
в виде
(2.1)
Здесь весовая функция, сдвигаемая во времени.
Соотношение (2.1) может быть переписано в двух формах. Первая форма имеет вид свертки
(2.2)
где – обозначает свертку.
Реализация (2.2) может быть представлена в виде рис. 2.2,а и означает, что спектр речевого процесса соответствует свертке весовой функции с сигналом
, промодулированным колебанием
.
Другая форма записи (2.1) получается, если ее переписать в виде
(2.3)
Система (2.3) может быть реализована в виде, представленном на рис. 2.2,б и означает преобразование речевого сигнала полосовым фильтром центральной частотой ω и импульсной характеристикой
.
Реализации, представленные на рис. 2.2,а,б, отличаются тем, что первом случае используется цифровой фильтр нижних частот с импульсной характеристикой , а во втором – полосовой фильтр, что удобно при параллельном измерении
на нескольких частотах ω.
Используя алгоритмы БПФ, оценку кратковременного преобразования Фурье на равноотстоящих частотах можно записать в виде
(2.4)
где
Формулу (2.4) можно преобразовать к виду
где
(2.5)
можно рассматривать как характеристику комплексного ПФ с центральной частотой .