Машины, которые говорят и слушают
Рефераты >> Кибернетика >> Машины, которые говорят и слушают

- фильтра импульсов основного тона - двухполюсного фильтра, Делающего импульсы возбуждения более похожими на реальные импуль-^i поступающие с голосовых связок в полоогя речеобрааующего тракта;

55

Орфограф^еский текст

I

Трансляция "графема-фонема"

фонетическая цепочка

- фильтра, моделирующего влияние излучения речевого потока с губ (liP - radiation filter)!

- дополнительного фрикативного источника, который автомати­чески подключается при формировании звонких взрывных и фрика­тивных.

Ряд работ, связанных с повышением качества синтезированной речи, относится к проблеме формализации правил наложения на фо­нетическую цепочку интонационного контура. Они -Зудут подробно рассмотрены в п. 1.4.4.

1.4.3. Дифонный синтез речи. Одним из направлений, обеспе­чивших синтез более высококачественной речи, стало направление, связанное с выбором иной, чем фонема (или аллофон) структурной единицы, лежащей в основе формирования высказывания.Выяснилось, что основные неприятности, приводящие к ухудшению естествен­ности и разборчивости речи, связаны с явлениями на стыках зву­ков. Поэтому в ряде последних работ по автоматическому синтезу речи в качестве опорного элемента выбирается участок речевого сигнала, включающий переход между звуками. Такие элементы назы­вают "диадами", "дифонами", "транземами", парами фонем, машин­ными слогами .

В Ll433 описан диадный синтез французской речи. В памяти хранятся эталоны 1000 дифонов (пар фонем), представленных спек­тром, полученным с гребенки фильтров (отсчеты спектра брались каждые 13,3 мс) и частотой основного тона. Система предусматри­вает использование довольно простой грамматики для сцепления диад и автоматического определения просодии фразы. При обработке це­почки диад, соответствующей тексту для генерации синтезируемой волны, корректируются длительности звуков, микро- и макровариа­ции частоты основного тона, контур интенсивности.

Дифонный синтез рассматривается и в [.1463 . Блок-схема этой системы "текст - речь" приводится на рис. 1.2.

Система юорвомйз (рис."1.2 ) превращает орфографическую за­пись предложения в звучащую речь. Скорость преобразования 0,1 с на предложение, состоящее из 70 символов. Система, включающая мини-компьютер, является полностью автономной.

Преобразование "текст - речь" в первом приближении не тре­бует синтаксического анализа структуры предложения (во француз­ском языке). Основным графическим понятием при преобразованиях яв­ляется в этой системе слово, представляющее собой субцепочку графем между пробелами или знаками пунктуации. Слова сравниваются со списком предварительно записанных слов - исключений, произ­ношение которых не соответствует стандартам. Если слова в спис-'

Ь6

Последовательность дифснов Словарь дифонов

Буфер

Синтезатор речи из 44 синусо- | _гт1 гх,.,. _идальных колебаний UJ -

рис. 1.2. Блок-схема системы "текст - речь" основанной на исполь­зовании дифонов

ке исключений нет, оно разделяется на множество буквенных сим­волов, которые обрабатываются элементарными правилами типа

Р—[Р]/Н;

P—[f]/H, т.е. р произносится как [/?] , если за ней не следует Н, и как [/З.всли следует Н .

Числа, встречающиеся в тексте, также преобразуются в фоне­тическую цепочку по соответствующим правилам. Последняя глас­ная перед знаком пунктуации удваивает длительность. Общий объем памяти, которую использует этот алгоритм, 6 кбайт.

В память словаря должно быть записано для французской речи 627 дифонов. Однако если учесть, что для некоторых дифонов неко­торые спектры в первом приближении можно считать симметричными, обв(ее число хранящихся в памяти дифонов уменьшается до 425 (при использовании параметров 8 временных отрезков каждого дифона). Ойций объем памяти после сильного сжатия информации о дифонах составил около 8 Кбайт. Средняя разборчивость слов в предложени­ях была около 96%. Система автоматически находила по тексту про­содические характеристики. Для управления просодическими парамет­рами использовались различные уровни языка: акустический, фонети­ческий, лексический, синтаксический и семантический. Несколько Дикторов читали один и тот же текст; при этом сравнивались кон-'Уры основного тона и длительности, полученные после нормализации. Несмотря на различие' в индивидуальных просодических характери.-^чках, удалось выявить общие закономерности, позволяющие форма-

Зак.480 57

дизовать просодику по фонетической цепочке. Так, для выявления динамики основного тона на всем высказывании учитывалось,что од, повременно накладываются друг на друга три явления. Первое обус­ловлено изменением основного тона на всем предложении, второе -контуром основного тона на двух соседних словах ( "элементарный контур") и третье - ыикроваризции основного тона на отдельных звуках.

Структура системы синтеза, основанного на объединении ди-фонов, рассмотрена также и для итальянского языка [160, 181].Ди-фоны представлены кодами lpc. Система проектируется с ориен­тацией на многоканальность и ответ в реально».' времени. Для каж­дого выходного канала этой системы автоматического речевого от­вета выполняются действия: предварительная обработка входной це­почки символов, трансляция в соответствующую последовательность дифонов, порождение просодического контура и управление в реаль­ном времени аппаратурой синтезатора.

Блокл речевого ответа, подключенные к телефонным линиям, могут обеспечивать пользователям получение информации в речевом виде. Основное применение такого оборудования - информационно-по­исковые системы, читающие текст автоматические устройства для сле­пых, в связи с чем к системе предъявляются требования: неогра­ниченный словарь, хорошее качество и естественность речи, возмож­ность подключения систем речевого ответа к разным каналам.Матобе с-печение выполняет все действия, необходимые для преобразования входного текста в последовательность команд, необходимых для уп­равления аппаратурой синтезатора, описанного в [160].

Система синтеза основывается на объединении коротких ре­чевых элемэнтов (дифонов), которые включают переходный участок от согласного к последующему гласному CV , квазистационарный участок гласного V2 и начальный участок гласного звука в на­чале слова VI.

Элементарные дифоны, извлекаемые из естественной речи, ко­дировались в соответствии с акустической моделью речеобразова ния. Математическая модель состоит только из полюсного фильтра, представляющего вокальный тракт, и источника возбуждения. Пара­метры, описывающие вокальный тракт, - это коэффициенты отражения неоднородной акустической трубы, подученные использованием методе линейного предсказания.

При записи информации о дифонах в память используется сле­дующая схема. Первый байт каждого дифона показывает число сре' зов, Используемых для кодирования втого дифона. После атог» каждый фрейм, кодирующий срез дифона, описывается 13 байтами;


Страница: