Машины, которые говорят и слушают
Рефераты >> Кибернетика >> Машины, которые говорят и слушают

Модифицированный текст и связанные с ним признаки далее обрабатываются С-оравмяаыи, которые формируют фонетическую це­почку из последовательности буке, полученных на предыдущем ваге. С-иравияо (рис. 1.Ь ), например, показывает, что буква "а" произносится, как "е", когда она предшествует одиночной согяас-ной, за которой сявдует эаканчиваиаая морфему буква "е". (Это

70

Оравию применяется к "а" в w»e Bathing,гд,» звуки " th " проиэ. косятся как один согяасный, но не к "а" в слове taxina , где •х'1 произносится как два согласных.) Результат применения всех оравил конверсии к сдову carinq позвояяет пожучить ояедующгю вались:

9

согл. взрывной,

подъема, альвеолярный велярный, передний звонкий

+ А- е г -+. I n согл. гдас. согя. глас. con. взрывной, среднего ретро- верхнего назальный, велярный, пид-ьеыа, Фявчсный подъема, гяухой передний

Если правила модификации текста изменяют текстовую цепочку не­посредственно, то С-правила формируют ноаую цепочку (фонем) на основе tm{iupuaiyiH. заключенной в текстовой цепочке, F/И-пра-

•ила модифицируют фонетическую цепочку, применяя прарила кон­текстной зависимости х матрице признаков и включая или устра­няя соот катет йущяв сегменты. Так. ГМ -правило устанавливает, что напряженный гласный становится напряженным перед ретрофлексными звуками. Другии /^"дравидом яуяяетая правило объединения п и д , когда произносится п . Все эти правила использовались сов­местно с английскими правилами порождения параметров, соответ­ствующих фонемам, для похучения речевой волны.

В [%] рассматривается математическое обеспечение одно­кристальной микроЭВМ модели <»20, преднааначенной для обработки сигналов. Благодаря наличию аналоговых входных и выходных схем М высокому быстродействию она легко может быть перестроена для синтеза речи. На атой микроЭВМ можно реализовывать различий способы синтеза речи. Описаны программы, моделирующие работу ге­нератора голосовых импульсов (программа формирует ряд асимметрич­ных треугольных импульсов), а также генератор шумового сигнала, который моделируется при помощи генератора псевдослучайных чи~ Св*. Для моделирования передаточных функций речеобразумаего тра-«»а разработаны программы модификации выходных значений сигна-

*ов, поступающих с выхода генератора голосовых импульсов и гене-Р»тора шумовых сигналов. Для втого применяют моделирование рекур­сивных фильтров с переменными временными параметрами и ыиогоавен-чах. В [96] приведена типичная программа для одного звена ччогозввнного фнютра, управляемого параметром, который иивет раз-чые значения для различных звеньев. Отмечается, что для пос-•Ровния типичного синтезатора речи требуется два микропроцессора ®20; первый обеспечивает работу генератора воабуадаицих сигна-

71

лов и моделирование нескольких первых звеньев многозвенного фидьтра, а второй - для остальных звеньев этого фильтра. Для построения форматного синтезатор»» достаточно воспользоваться од­ним микропроцессором 2920. Речевой тракт моделируется здесь пос­ледовательностью рекурсивных фильтров второго порядка (в [96] при» водится программа такого фильтра). Для удовлетворительного син­теза последовательно включают не менее трех звеньев,моделирую­щих три форманта.

1.4.6. Отечественные системы автоматического речевого вывода. Основные работы по автоматическому синтезу речи связаны с пос­троением параметрических синтезаторов [6,43, 48-50, 53, 70, 75]. Некоторые из систем речевого вывода информации из ЭВМ внедрены в опытную эксплуатацию [43,48] , другие - близки к внедрению [6, 70,78] , третьи - используются в экспериментальных установ­ках [50, 56] .

Развитие работ по построению систем автоматического рече­вого вывода ведется в нашей стране в широком диапазоне - от фо" немных синтезаторов до словесных и даже фразовых временных компиляторов.

Если в работах первого направления, при которых фонема рассматривается как набор заданной последовательности движения артикулятороа в артикулчторной программе, стремятся к компакт­ности представления генерируемого речевого сообщения и универсаль­ности, обеспечивающей речевое отображение произвольной текстовой информации, то в компилятивных временных синтезаторах второго направления делается упор на разборчивость и естественность скомпилированных высказываний (в ущерб универсальности и ком­пактности представления сигнала).

Одним из наиболее типичных синтезаторов параметрического типа является ортогональный синтезатор речи [48] . Синтезатор предназначен для выцачи голосом из ЭВЫ в телефонный канал сче­тов-справок о стоимости состоявшихся междугородных переговоров городской телефонной сети. Речевой сигнал (слово ограниченного по объему словаря) представлен временными изменениями параметров сигнала - логарифмов огибающей амплитудных спектров. Речевые от­веты (фразы) вначале формируются в виде списков номеров слоя, речевые эквиваленты которых затем посегментно объединяются и выво­дятся на синтезатор. Отмечается, что разборчивость синтезируе­мых фраз близка к 100%, скорость вывода речевого сигнала на син­тезатор равна 12 бит/с.

При артикуяяторно-форматном синтезе речи по печатному тек­сту L6.^] в качестве минимального артикуяяторного компдйкса

72

используется элементарный слог, представленный набором артикуля-торных команд способа и места образования входящих в него фонем. Процесс реализации слога делится на три основные фазы: переход­ная фаза от предыдущего слога к данному, фаза реализации соглас­ной фонемы и фаза реализации гласной. Синтезатор учитывает про­содические характеристики естественной речи, а также то обстоя­тельство. что в ней могут встретиться сочетания согласных и гласных фон-эы. Система синтеза в последнем случае вводит фик­тивные согласные и гласные, разбивая речевой поток не слоги,при­чем фиктивным звукам приписывается длительность, равная нулю. Для автоматического задания интонационных характеристик фраз в син­тезируемой текстовой информации выделяются ранжированные единицы:

фраза, синтагма, фонетическое слово, слог. При автоматической об­работке синтезируемого текста определяется число единиц ранга К в единице ранга K-I, номер логически выцеденной единицы ранга К, а также тип интонации.

Для моделирования алгоритмов синтеза использовалась универ­сальная мини-ЭВМ, обдацаищая быстродействием 200 тыс. операций в I с и оперативной памятью 16 кбайт. Объем программ нодедм синтеза речи составляет 1200 32-разрядных команд. В настоящее вре­мя принципы технической реализации артикуляционного синтезатора легли в основу разработки стандартного устройства речевого вы­вода с микропроцессорным управлением для ЕС ЭВМ [б] . Поя­вились первые синтезаторы, основанные на параметрах линейного предсказания [55,78].


Страница: