Машины, которые говорят и слушают
Рефераты >> Кибернетика >> Машины, которые говорят и слушают

56

представляющими коэ^ициент усиления G ,10 ко-^ициентов отраже­ния К, . параметр озвонченности V/UV и длину D этого фрейма. В среднем для кодирования дифонов приходится около 7-6 фреймов. Общий объем памяти для запоминания 150 дифонов - около 15 кбайт.

Наиболее важным преимуществом дифонного синтеза, обеспечи­вающим довольно высокую естественность синтетической речи, явля­ется возможность отгэсительно легкой модификации просодических параметров. Просодический контур порождается правилами, которые используют знание фонетической природы дифонов и символы, вводи­мые модулями предварительной обработки.

В [I77J рассмотрен разработанный в США фирмой ВВЫ дифон" ный синтез для фонетического вокодера, работающего со скоростью 100 бит/с. С каждой финемой вокодер передает ее длительность и значение одного периода основного тона. Для синтеза необходи­мой фонемной цепочки использовался большой список дифонов. (Спи­сок дифонов отбирался таким образом, чтобы можно было различить предвокальные и пьствокзльные аллофоны сонорных согласных.) ду-фоны извлекались ис тщательно сконструированных бессмысленных коротких предложений и запоминались как последовательность LK3-параметров. Во время синтеза участки дифонов деформировались во времени, смыкались и сглаживались, формируя последовательную це­почку LPC- параметре в, которая использовалась при синтезе.

Дифон определялся как область от середины одной фонемы до середины следующей, что учитывает коартикучяционное влия­ние фонем, простирающееся, как правило, не более чем на поло­вину следующей фонемы. Для получения высококачественной речи потребовалось около 2000 дифонов. В некоторых случаях были за­писаны необходимые Трифоны (дифоны в контексте). Общий объем памяти, используемый при синтезе, менее 50 килобайт.

В Японии разработан кепстральный синтез речи из параметров слогов "согласный - гласный", которых в японском языке около 100 Cl38j . Каждый слог анализируется и запоминается в виде кепстра, соответствующего истинной (сглаженной) логарифмической спектральной огибающей (a true log spectral envelope ).Система речевого синтеза превращает цепочки символов в кепстральные пара­метры с плавным и динамическим переходом от одного слога к сле­дующему и порождает плавную картину изменения частоты основного тона. Основным узлом модели преобразования кепстральных парамет­ров в акустическую волну является специальный фильтр, порож­дающий акустическую волну из кепстра в реальном времечи.Экспе­риментальное матобеспечение для реализации автоматического син-

59

теза речи, основанного на подусдогах, описано в [184] . Ддя син­теза произвольного текста на немецком языке используется около 1300 подуслогов, включающих часть гласного и примыкающие ку­сочки согласного. Описаны эксперименты, которые помогли выбрать правила соединения полуслогов. Синтез выполнялся с помощью LPO-вокодера, использовавшего parcor- коэффициенты. Отмечается,что в немецком языке используется 47 начальных и 153 конечных звуко­сочетания согласных с 16 типами гласных. Уменьшение словаря по­дуслогов было осуществлено за счет уменьшения числа гласных (до 10) и конечных звукосочетаний с согласными (до 53). Прог­рамма синтеза автоматически контролирует амплитуду и длитель­ность полуслогов, формируя безударные слоги из эталонных ударных.

1.4.4. Просодика синтезированной речи. В [184] рассмот­рено управление просодическими параметрами для форматного синте­затора, основанного на соединении дифонов и разработанного для немецкого языка. Синтезатор используется в системе речевого от­вета sam', позволяющей формировать фразы, составленные из сло­варей большого объема. Используются параллельные форматные фильт­ры, которые возбуждаются независимо источниками тона или шума. Параметры управления фильтрами вырабатываются специальным блоком pcu , который является частью системы samt • Тексты, которые должны быть синтезированы, вводятся в pcu как звуковая после­довательность; каждый звук кодируется восьмью битами. Дальнейшая обработка в рои базируется на дифонах, чтобы наилучшим образом учесть влияние коартикуляций. Для управления просодическими пара­метрами синтезируемой речи необходимо, чтобы звуковая последова­тельность включала коды управления просодией. (Эти коды должны влиять на частоту основного тона, длительность звуков и интен­сивность.)

В [122] отмечается, что интонационная модель для немецко­го языка уже разработана. В соответствии с этой моделью каждое предложение разделяется на две или более синтетические группы (фразы), такие, как фраза существительного (не всегда совпадаю­щая с группой подлежащего), глагольная фраза и т.д. Изменение частоты основного тона первых г»-1 фраз завершается повыше­нием тона (нарастающей каденцией ffC ), а завершающая предложе­ние фразе - снижением частоты основного тона (финальная каден­ция FC ). Дня каждого слова фразы можно найти один ритмозадающий ударный слог, а для каждой фразы - одно слово, которое несет главное, смысловое ударение Ml . Позиция гласного в ударном слоге этого саова 1^,, , определяющем ударение, дает начальную точку двух различных типов частоты основного тона /д . Характер

60

affix Jfl к&чаственн0 определяется типом каденции ( /ус-тип или pC-isW) 1 количественно - другими факторами, такими, как длина г«всного или позиция главного ударения во фраае.

В доподнение к каденции, на изменение /^ влияют основное И вторичное ударения ( S и SS ). Во фразах слитной речи ударе-ijgg появляются тогда, когда необходимо выделить некоторые олова (дроиэнести их бояее выразительно) или когда в беглой речи о^вдиняютоя две последовательные фразы с нарастающей каденцией. Яде обоих типов ударений находится характер изменения основ­ного тона ( S-vw f^ ) на участках, начальные точки кото­рых определяются позицией гласных ударных слогов.

Естественная речь большинства дикторов характеризуется пос­тепенным снижением частоты основного тона (примерно, на полтона lie) от начала к концу фразы. (При формировании синтети­ческой речи это следует учитывать, так как речь с постоянной f, неприятна на слух, монотонна.) На этот основной тип нак-хддюаются НС-, FC- и Я-тилы основного тона. Нарастающая ка-данция характеризует возрастание f в конце гласного V^, , не-суцего основное ритмическое ударение ( the main ) • Для точной идентификации типа /д необходимо различать два случая)

а) V^i - последний звонкий звук фразы;

б) наличие других звонких между Ущ и концом фразы.

Исследования показали, что в обоих случаях частота основ­ного тона нарастает по синусоидальному закону, но ъ одучае а) время нарастания 120 мо, а в случае б) - 190 мо.

Частота fy возрастает от двух до четырех полутонов. Поо-ае того, как f, достигнет верхней границы (по синусоиде), она продолжает медленно возрастать по линейному закону оо скоростью оолтона в I о. Абсолютные отклонения частоты Af естественной речи сильно меняются от диктора к диктору. Ддя синтетической рв«р| однако эти отклонения не должны быть слишком велики. Если -ажду главным ритмическим ударением и концом фрааы содержится ЧНогосложное слово, то часто (например, в одучае ударения на червой части длинного составного слова) возникает вторичная каден-4W SC в ритмическом ударении последнего олова или части слова э»ов фразы. Начало и- длительность вторичной каденции соответот-вуеэ этим параметрам главной каденции, но отклонение частоты Никогда не превышает полутона.


Страница: