Машины, которые говорят и слушаютРефераты >> Кибернетика >> Машины, которые говорят и слушают
- фильтра импульсов основного тона - двухполюсного фильтра, Делающего импульсы возбуждения более похожими на реальные импуль-^i поступающие с голосовых связок в полоогя речеобрааующего тракта;
55
Орфограф^еский текст I Трансляция "графема-фонема" фонетическая цепочка |
- фильтра, моделирующего влияние излучения речевого потока с губ (liP - radiation filter)!
- дополнительного фрикативного источника, который автоматически подключается при формировании звонких взрывных и фрикативных.
Ряд работ, связанных с повышением качества синтезированной речи, относится к проблеме формализации правил наложения на фонетическую цепочку интонационного контура. Они -Зудут подробно рассмотрены в п. 1.4.4.
1.4.3. Дифонный синтез речи. Одним из направлений, обеспечивших синтез более высококачественной речи, стало направление, связанное с выбором иной, чем фонема (или аллофон) структурной единицы, лежащей в основе формирования высказывания.Выяснилось, что основные неприятности, приводящие к ухудшению естественности и разборчивости речи, связаны с явлениями на стыках звуков. Поэтому в ряде последних работ по автоматическому синтезу речи в качестве опорного элемента выбирается участок речевого сигнала, включающий переход между звуками. Такие элементы называют "диадами", "дифонами", "транземами", парами фонем, машинными слогами .
В Ll433 описан диадный синтез французской речи. В памяти хранятся эталоны 1000 дифонов (пар фонем), представленных спектром, полученным с гребенки фильтров (отсчеты спектра брались каждые 13,3 мс) и частотой основного тона. Система предусматривает использование довольно простой грамматики для сцепления диад и автоматического определения просодии фразы. При обработке цепочки диад, соответствующей тексту для генерации синтезируемой волны, корректируются длительности звуков, микро- и макровариации частоты основного тона, контур интенсивности.
Дифонный синтез рассматривается и в [.1463 . Блок-схема этой системы "текст - речь" приводится на рис. 1.2.
Система юорвомйз (рис."1.2 ) превращает орфографическую запись предложения в звучащую речь. Скорость преобразования 0,1 с на предложение, состоящее из 70 символов. Система, включающая мини-компьютер, является полностью автономной.
Преобразование "текст - речь" в первом приближении не требует синтаксического анализа структуры предложения (во французском языке). Основным графическим понятием при преобразованиях является в этой системе слово, представляющее собой субцепочку графем между пробелами или знаками пунктуации. Слова сравниваются со списком предварительно записанных слов - исключений, произношение которых не соответствует стандартам. Если слова в спис-'
Ь6
Последовательность дифснов Словарь дифонов
Буфер
Синтезатор речи из 44 синусо- | _гт1 гх,.,. _идальных колебаний UJ -
рис. 1.2. Блок-схема системы "текст - речь" основанной на использовании дифонов
ке исключений нет, оно разделяется на множество буквенных символов, которые обрабатываются элементарными правилами типа
Р—[Р]/Н;
P—[f]/H, т.е. р произносится как [/?] , если за ней не следует Н, и как [/З.всли следует Н .
Числа, встречающиеся в тексте, также преобразуются в фонетическую цепочку по соответствующим правилам. Последняя гласная перед знаком пунктуации удваивает длительность. Общий объем памяти, которую использует этот алгоритм, 6 кбайт.
В память словаря должно быть записано для французской речи 627 дифонов. Однако если учесть, что для некоторых дифонов некоторые спектры в первом приближении можно считать симметричными, обв(ее число хранящихся в памяти дифонов уменьшается до 425 (при использовании параметров 8 временных отрезков каждого дифона). Ойций объем памяти после сильного сжатия информации о дифонах составил около 8 Кбайт. Средняя разборчивость слов в предложениях была около 96%. Система автоматически находила по тексту просодические характеристики. Для управления просодическими параметрами использовались различные уровни языка: акустический, фонетический, лексический, синтаксический и семантический. Несколько Дикторов читали один и тот же текст; при этом сравнивались кон-'Уры основного тона и длительности, полученные после нормализации. Несмотря на различие' в индивидуальных просодических характери.-^чках, удалось выявить общие закономерности, позволяющие форма-
Зак.480 57
дизовать просодику по фонетической цепочке. Так, для выявления динамики основного тона на всем высказывании учитывалось,что од, повременно накладываются друг на друга три явления. Первое обусловлено изменением основного тона на всем предложении, второе -контуром основного тона на двух соседних словах ( "элементарный контур") и третье - ыикроваризции основного тона на отдельных звуках.
Структура системы синтеза, основанного на объединении ди-фонов, рассмотрена также и для итальянского языка [160, 181].Ди-фоны представлены кодами lpc. Система проектируется с ориентацией на многоканальность и ответ в реально».' времени. Для каждого выходного канала этой системы автоматического речевого ответа выполняются действия: предварительная обработка входной цепочки символов, трансляция в соответствующую последовательность дифонов, порождение просодического контура и управление в реальном времени аппаратурой синтезатора.
Блокл речевого ответа, подключенные к телефонным линиям, могут обеспечивать пользователям получение информации в речевом виде. Основное применение такого оборудования - информационно-поисковые системы, читающие текст автоматические устройства для слепых, в связи с чем к системе предъявляются требования: неограниченный словарь, хорошее качество и естественность речи, возможность подключения систем речевого ответа к разным каналам.Матобе с-печение выполняет все действия, необходимые для преобразования входного текста в последовательность команд, необходимых для управления аппаратурой синтезатора, описанного в [160].
Система синтеза основывается на объединении коротких речевых элемэнтов (дифонов), которые включают переходный участок от согласного к последующему гласному CV , квазистационарный участок гласного V2 и начальный участок гласного звука в начале слова VI.
Элементарные дифоны, извлекаемые из естественной речи, кодировались в соответствии с акустической моделью речеобразова ния. Математическая модель состоит только из полюсного фильтра, представляющего вокальный тракт, и источника возбуждения. Параметры, описывающие вокальный тракт, - это коэффициенты отражения неоднородной акустической трубы, подученные использованием методе линейного предсказания.
При записи информации о дифонах в память используется следующая схема. Первый байт каждого дифона показывает число сре' зов, Используемых для кодирования втого дифона. После атог» каждый фрейм, кодирующий срез дифона, описывается 13 байтами;