Дипломная работа: Разработка программного обеспечения для голосового управления трехмерными моделями функционирования промышленных роботов
1.3Особенности акустической фонетики и её* учёт при обработке речевых сигналов
1.4Обработка речевого сигнала во временной области
2. Реализация систем распознавания речи
2.1Гомоморфная обработка речи
2.2Кодирование речи на основе линейного предсказания
2.3Цифровая обработка речи в системах речевого общения человека с машиной
3. Разработка программного обеспечения для распознавания команд управления промышленным роботом
3.1 Реализация интерфейса записи и воспроизведения звукового сигнала в операционной системе Microsoft Windows
3.2 Реализация программного обеспечения для записи, воспроизведения и анализа звукового сигнала
3.3 Реализация функции распознавания голосовых команд голосового управления промышленным роботом
3.4 Реализация голосового управления трёхмерными моделями промышленного робота
Выводы
Перечень ссылок
Приложение А. Элементы текстов программы
Введение
Распознавание человеческой речи является одной из сложных научно-технических задач. В настоящее время пользователями вычислительных машин и средств, оснащенных вычислительными машинами, становятся люди, не являющиеся специалистами в области программирования. Проблема речевого управления возникла, кроме того, в связи с тем, что в некоторых областях применения речь стала единственно возможным средством общения с техникой (в условиях перегрузок, темноты или резкого изменения освещенности, при занятости рук, чрезвычайной сосредоточенности внимания на объекте, который не позволяет отвлечься ни на секунду, и т.д.). Хотя в этой области и достигнуты существенные успехи, тем не менее, системы распознавания еще весьма далеки по своим возможностям от человеческих.
Проблема реализации речевого диалога человека и технических средств - актуальная задача современной кибернетики.
Задача машинного распознавания речи привлекает внимание специалистов уже очень давно. Тем не менее, продвинуться далеко в этом направлении пока не удалось. Чисто формально процесс распознавания речи можно описать буквально в нескольких фразах. Аналоговый сигнал, генерируемый микрофоном, оцифровывается, и далее в речи выделяются так называемые фонемы, то есть элементарные фрагменты, из которых состоят все произносимые слова. Затем определяется, какое слово, какому сочетанию фонем соответствует, и строится соответствующий словарь. Распознать слово - значит найти его в этом словаре по произнесенному сочетанию фонем. По мере развития компьютерных систем становится все более очевидным, что использование этих систем намного расширится, если станет возможным использование человеческой речи при работе непосредственно с компьютером, и в частности станет возможным управление машиной обычным голосом в реальном времени, а также ввод и вывод информации в виде обычной человеческой речи.
В настоящее время всё более актуальным становится управление роботом при помощи голосовых команд. Однако создание программного обеспечения для голосового управления промышленным роботом предусматривает проведение экспериментов во время разработки программы на всех этапах разработки. Проведение таких экспериментов, обеспечивающих устранение недостатков, ошибок программы, является экономически невыгодным в условиях промышленного производства и приводит к повышению стоимости разработки и отладки программного обеспечения. Для уменьшения затрат на создание программного обеспечения целесообразно разработать программу, которая обеспечит трёхмерное моделирование голосового управления промышленным роботом, что приводит к необходимости проведения экспериментов в условиях производства лишь на последнем этапе разработки программного обеспечения.
Темой данного исследования является голосовое управление трёхмерными моделями функционирования промышленных роботов. Его задачами является анализ методов цифровой обработки звуковых сигналов, анализ систем распознавания речи, разработка программного обеспечения для распознавания команд управления промышленным роботом.
1. Цифровая обработка сигналов и её использование в системах распознавания речи
1.1 Дискретные сигналы и методы их преобразования
Акустическое колебание, формируемое в речевом тракте человека, является непрерывно изменяющимся процессом. С математической точки зрения его можно описать функцией непрерывного времени 1. Аналоговые (непрерывные во времени) сигналы будут обозначаться через ха (1). Речевой сигнал можно представить и последовательностью чисел. Последовательности обозначаются через х(п). Если последовательность чисел представляет собой последовательность мгновенных значений, аналогового сигнала, взятых периодически с интервалом Т, то эта операция дискретизации обозначается через ха (пТ). На рис. 1.1 показан пример речевого сигнала в аналоговой форме и в виде последовательности отсчетов, взятых с частотой дискретизации 8 кГц.
32 мс |
Г ____ ^ | ||||
.„...„.„ ... .!-«•-■- .............. и-1 "............... ".|||||11||||И..||| | |||||
...., 256 отсчё! |
|||| ■ гов | \ | ||| г | 1 | ----- ► |
Рис. 1.1 – Представление речевого сигнала
Для удобства даже при рассмотрении дискретных сигналов иногда на графике будет изображается непрерывная функция, которая может рассматриваться как огибающая последовательности отсчетов. При изучении систем цифровой обработки речи требуется несколько специальных последовательностей. Единичный отсчет или последовательность, состоящая из одного единичного импульса, определяется как