Курсовая работа: Створення синтезатора мови

Рисунок 3.5 – Фонема "Г" при гучності 100%

Як видно з малюнка 3.8, при гучності 250% фонема "Г" значно спотворюється і перетворюється на шум. Для різних фонем максимальна гучність різна, тому було прийнято рішення обмежити користувача максимальним рівнем 150%. Даних рівень підходить для всіх використовуваних фонем.

Рисунок 3.6 – Фонема “Г” при гучності 40%

Рисунок 3.7 – Фонема “Г” при гучності 150%

Потім відрегульований по гучності звук приводиться до необхідної швидкості. Для цього він розтягується на заданий користувачем коефіцієнт. Фактично для звуку змінюється частота дискретизації за часом. Коефіцієнт варіюється від 0.5 до 5. Але при підвищенні швидкості за позначку 2.0, мова перестає бути розбірливим. На малюнку 3.5 зображена фонема "Г" при швидкості 100%. На малюнках 3.9 - 3.11 наведена вона ж, але на різних швидкостях. За зовнішнім виглядом вони здаються однаковими, але з тимчасової шкалою помітно відмінність. На малюнку 3.11 також помітно що графік стає грубим через дуже малої частоти дискретизації.

Рисунок 3.8 – Фонема “Г” при гучності 250%

Рисунок 3.9 – Фонема “Г” при швидкості 50%


Рисунок 3.10 – Фонема “Г” при швидкості 200%

Рисунок 3.11 – Фонема “Г” при швидкості 500%

3.5 Аналіз результатів синтезування

Для аналізу якості синтезування звуків, найкращим методом буде порівняння синтезованої мови з оригінальною. Для цього візьмемо пару слів, запишемо їх і синтезуємо. Потім порівняємо графіки. В якості тестових слів візьмемо "Мурка" і "кактуси". Їхні зображення наведені на малюнках 3.12 - 3.15.


Рисунок 3.12 – Слово "мурка" (оригінал)

Рисунок 3.13 – Слово "мурка" (синтезоване)

Як видно з малюнків 3.12 і 3.13, графіки досить схожі, за винятком того, що в оригіналі, пере звуком "до", знаходиться пауза. Тривалість паузи приблизно 50 мкс. З'єднання "до" і "а" практично ідентичні, лише за винятком того, що звук "а" в оригіналі голосніше. Звуки "ма" в синтезованому слові є монолітними, тобто записаними відразу разом.

Щодо слова "кактуси" (Мал. 3.14 і 3.15) простежуються ті ж тенденції. Помічені 50 мілісекундного проміжки перед і після звуку "т". Отже між вибуховими звуками можна спробувати вставляти пази, що можливо призведе до поліпшення звучання.


Рисунок 3.14 – Слово "кактусы" (синтезоване)

Рисунок 3.15 – Слово "кактусы" (оригінал)


4. ІНСТРУКЦІЯ КОРИСТУВАЧА

К-во Просмотров: 401
Бесплатно скачать Курсовая работа: Створення синтезатора мови