Машины, которые говорят и слушают

Конструирование речи (программное формирование кодовой аллофонной цепочки)

Входное	Правила преобразования текста в аллофоны		Преобразование аллофонов в данные для синтезатора	1 + 1	Центральный Процессор
текст

Управление Память		Синтезатор речи тае- 5200	Речь

	. 1 {
	Речевое постоянное запоминающее устройство tm S-6100

Р и с. I.I. Блок-схема преобразователя "текст - речь'

47

вания связывает и сглаживав! переходы между ними. В результате формируется кодовая управляющая цепочка аллофонов, у которых согласованы энергетические уровни и достигнута плавность огибающей, а сглаживание коэффициентов фильтра делает более плавными переходы между звуками.

После объединения аллофонов и сглаживания переходов между ними в аллофонной цепочке должны быть расставлены ударения и указана интонация в соответствии с метками пользователя при кодировании входного текста. Алгоритм конструирования речи устанавливает частоту основного тона только для отмеченных слогов.Управление интонацией основано на градиентном управлении частотой основного тона в ударных слогах. В нейтральных интонациях безударным слогам соответствует среднее значение частоты основного тона, тогда как ударные будут располагаться несколько выше средней линии тона. Наклон создается программой, а пользователь только помечает ударные слоги.

Как уже отмечалось, синтез речи в системе преобразования "текст - речь" системы Texas instruments основан на линейном пред-сказуемостном кодировании, являющемся математической моделью голосового тракта, реализованной в виде фильтра. Коэффициенты линейных уравнений фильтра, определяемые путем анализа естественной речи, используются в модели для управления "конфигурацией" голосового тракта при формировании речевого сигнала. В системе запоминаются соответствующие различным аллофонам коэффициенты фильтра, коэффициент передачи фильтра, частота сигнала возбуждения,используемого для управления фильтром. Система Texas Instruments обеспечивает [100] хорошее качество речи при использовании ЛПК со скоростью передачи информации от 1200 до 2400 бит/с.

В Cl40] отмечалось, что разработанная в 1976 г. система дискретного распознавания слов was, предназначенная для ввода речевых команд в ЭВМ управления огнем тактической артиллерии, использовала систему речевого ответа (обратной связи) YS фирмы Vo-fcrax. Блок речевс" о ответа повторял слова устного донесения, которые по радио или телефонному каналу поступали к корректировщику стрельбы. В случае, если устная команда распознавалась машиной верно,корректировщик произносил ключевое слово, означающее, что команда может поступить в систему управления огнем.

В [30,129] рассматриваются новая интегральная схема синтезатора речи sc-OI и система для проектирования словаря cds-ii. Речевой интегральный синтезатор sg-oi реализует фонемный синтез. Для преобразования фонем в параметры речи используется фо-

48

немный контроллер.Синтезатор работает с внешней памятью, где хранятся 6-разрядные коды фонем. В отличие от системы Texas Inntru-ments синтезатор sc-OI использует для моделирования голосового тракта человека не кодирование, основанное на линейном предсказании, а более традиционный метод, основанный на применении аналоговых полосовых фильтров, на вход которых поступают сигналы возбуждения от генератора с регулируемой частотой, моделирующего работу голосовых связок, и от генератора псевдослучайных сигналов, моделирующего шумовой источник.

На входе синтезатора SC-OI стоит фонемный контроллер, который преобразует код фонемы (их 64) в матрицу спектральных параметров. Контроллер же может изменять частоту основного тона;

что позволяет устранять монотонность звучания синтезированной речи. Управление синтезатором осуществляет генератор синхронизирующих импульсов, находящийся в интегральной схеме. Управление час-'тотой основного тона производите"! внешним воздействием на источник тонального сигнала.

После поступления кода фонем на фонемный контроллер последний в соответствии с тем, какой звук должен быть порожден,управляет моделью голосового тракта, воздействуя на цепи с переключаемыми емкостями. Длительность каждой фонемы устанавливается в пределах 50 - 250 мс.

Фонемная информация, поступающая на вход, создается программой преобразования, которая анализирует тексг, вводимый в память из ведущей ЭВМ или с клавиатуры. В кодах фонетических сим-всдов, формируемых этой программой, содержатся числа, означающие длительность генерируемого звука, которая зависит от ударения.

Информация для синтезатора sc-OI вырабатывается системой для проектирования словаря типа cds -II, на входной клавиатуре которой набираются слова или фразы, подлежащие синтезу. Система базируется на микропроцессоре типа 6У08 фирмы Motorola.Дд-горитм преобразования "текст-речь" и операционная система занимают 24 кбайта ПЯУ и рабочую часть оперативной памяти емкостью 2 кбайта. Выходная информация ciis-11 используется для программирования памяти стираемого ПСУ, где хранятся данные для ИС синтезатора. Для программирования ПЗУ информация из cds-ii передается последовательным кодом в ведущую ЭВМ (которую можно использовать для перевода слов в фонемы), ленточный перфоратор или другое устройство с целью последующей записи в ПЗУ. В систему проектирования словаря входят также печатающее устройство, позволяющей печатать речевую информацию в шестнадцатиричном коде (исполь-

зaк.480 49

ауя, как отмечено, 6 бит на фонему), а затем вручную вводить в программатор ПЗУ.

Скачать реферат

Страница:

document.write('<p class="details">Страница<br />16</p>'); Машины, которые говорят и слушаютРефераты >> Кибернетика >> Машины, которые говорят и слушают

Последние рефераты

Машины, которые говорят и слушают
Рефераты >> Кибернетика >> Машины, которые говорят и слушают