Машины, которые говорят и слушают
Рефераты >> Кибернетика >> Машины, которые говорят и слушают

Конструирование речи (программное формирование кодовой аллофонной цепочки)

Входное

Правила преобра­зования текста в аллофоны

 

Преобразова­ние аллофо­нов в данные для синтеза­тора

1 + 1

Цент­раль­ный Процес­сор

текст

 

 

Управ­ление

Память

 

Синте­затор речи

тае-

5200

Речь

 
 

. 1 {

Речевое постоян­ное за­поминаю­щее уст­ройство tm S-6100

 

Р и с. I.I. Блок-схема преобразователя "текст - речь'

47

вания связывает и сглаживав! переходы между ними. В результате формируется кодовая управляющая цепочка аллофонов, у которых сог­ласованы энергетические уровни и достигнута плавность огибающей, а сглаживание коэффициентов фильтра делает более плавными пере­ходы между звуками.

После объединения аллофонов и сглаживания переходов между ними в аллофонной цепочке должны быть расставлены ударения и указана интонация в соответствии с метками пользователя при ко­дировании входного текста. Алгоритм конструирования речи устанав­ливает частоту основного тона только для отмеченных слогов.Управ­ление интонацией основано на градиентном управлении частотой основного тона в ударных слогах. В нейтральных интонациях безу­дарным слогам соответствует среднее значение частоты основного тона, тогда как ударные будут располагаться несколько выше сред­ней линии тона. Наклон создается программой, а пользователь толь­ко помечает ударные слоги.

Как уже отмечалось, синтез речи в системе преобразования "текст - речь" системы Texas instruments основан на линейном пред-сказуемостном кодировании, являющемся математической моделью го­лосового тракта, реализованной в виде фильтра. Коэффициенты линей­ных уравнений фильтра, определяемые путем анализа естественной речи, используются в модели для управления "конфигурацией" го­лосового тракта при формировании речевого сигнала. В системе за­поминаются соответствующие различным аллофонам коэффициенты фильт­ра, коэффициент передачи фильтра, частота сигнала возбуждения,ис­пользуемого для управления фильтром. Система Texas Instruments обеспечивает [100] хорошее качество речи при использовании ЛПК со скоростью передачи информации от 1200 до 2400 бит/с.

В Cl40] отмечалось, что разработанная в 1976 г. система дискретного распознавания слов was, предназначенная для ввода речевых команд в ЭВМ управления огнем тактической артиллерии, использовала систему речевого ответа (обратной связи) YS фирмы Vo-fcrax. Блок речевс" о ответа повторял слова устного донесения, которые по радио или телефонному каналу поступали к корректиров­щику стрельбы. В случае, если устная команда распознавалась ма­шиной верно,корректировщик произносил ключевое слово, означающее, что команда может поступить в систему управления огнем.

В [30,129] рассматриваются новая интегральная схема синте­затора речи sc-OI и система для проектирования словаря cds-ii. Речевой интегральный синтезатор sg-oi реализует фонемный син­тез. Для преобразования фонем в параметры речи используется фо-

48

немный контроллер.Синтезатор работает с внешней памятью, где хра­нятся 6-разрядные коды фонем. В отличие от системы Texas Inntru-ments синтезатор sc-OI использует для моделирования голосо­вого тракта человека не кодирование, основанное на линейном пред­сказании, а более традиционный метод, основанный на применении аналоговых полосовых фильтров, на вход которых поступают сиг­налы возбуждения от генератора с регулируемой частотой, модели­рующего работу голосовых связок, и от генератора псевдослучайных сигналов, моделирующего шумовой источник.

На входе синтезатора SC-OI стоит фонемный контроллер, ко­торый преобразует код фонемы (их 64) в матрицу спектральных пара­метров. Контроллер же может изменять частоту основного тона;

что позволяет устранять монотонность звучания синтезированной ре­чи. Управление синтезатором осуществляет генератор синхронизирую­щих импульсов, находящийся в интегральной схеме. Управление час-'тотой основного тона производите"! внешним воздействием на источ­ник тонального сигнала.

После поступления кода фонем на фонемный контроллер послед­ний в соответствии с тем, какой звук должен быть порожден,управ­ляет моделью голосового тракта, воздействуя на цепи с переключае­мыми емкостями. Длительность каждой фонемы устанавливается в пре­делах 50 - 250 мс.

Фонемная информация, поступающая на вход, создается про­граммой преобразования, которая анализирует тексг, вводимый в па­мять из ведущей ЭВМ или с клавиатуры. В кодах фонетических сим-всдов, формируемых этой программой, содержатся числа, означающие длительность генерируемого звука, которая зависит от ударения.

Информация для синтезатора sc-OI вырабатывается системой для проектирования словаря типа cds -II, на входной клавиату­ре которой набираются слова или фразы, подлежащие синтезу. Сис­тема базируется на микропроцессоре типа 6У08 фирмы Motorola.Дд-горитм преобразования "текст-речь" и операционная система зани­мают 24 кбайта ПЯУ и рабочую часть оперативной памяти емкостью 2 кбайта. Выходная информация ciis-11 используется для программиро­вания памяти стираемого ПСУ, где хранятся данные для ИС синтезато­ра. Для программирования ПЗУ информация из cds-ii передается последовательным кодом в ведущую ЭВМ (которую можно использо­вать для перевода слов в фонемы), ленточный перфоратор или дру­гое устройство с целью последующей записи в ПЗУ. В систему про­ектирования словаря входят также печатающее устройство, позволяю­щей печатать речевую информацию в шестнадцатиричном коде (исполь-

зaк.480 49

ауя, как отмечено, 6 бит на фонему), а затем вручную вводить в программатор ПЗУ.


Страница: