Машины, которые говорят и слушаютРефераты >> Кибернетика >> Машины, которые говорят и слушают
56
представляющими коэ^ициент усиления G ,10 ко-^ициентов отражения К, . параметр озвонченности V/UV и длину D этого фрейма. В среднем для кодирования дифонов приходится около 7-6 фреймов. Общий объем памяти для запоминания 150 дифонов - около 15 кбайт.
Наиболее важным преимуществом дифонного синтеза, обеспечивающим довольно высокую естественность синтетической речи, является возможность отгэсительно легкой модификации просодических параметров. Просодический контур порождается правилами, которые используют знание фонетической природы дифонов и символы, вводимые модулями предварительной обработки.
В [I77J рассмотрен разработанный в США фирмой ВВЫ дифон" ный синтез для фонетического вокодера, работающего со скоростью 100 бит/с. С каждой финемой вокодер передает ее длительность и значение одного периода основного тона. Для синтеза необходимой фонемной цепочки использовался большой список дифонов. (Список дифонов отбирался таким образом, чтобы можно было различить предвокальные и пьствокзльные аллофоны сонорных согласных.) ду-фоны извлекались ис тщательно сконструированных бессмысленных коротких предложений и запоминались как последовательность LK3-параметров. Во время синтеза участки дифонов деформировались во времени, смыкались и сглаживались, формируя последовательную цепочку LPC- параметре в, которая использовалась при синтезе.
Дифон определялся как область от середины одной фонемы до середины следующей, что учитывает коартикучяционное влияние фонем, простирающееся, как правило, не более чем на половину следующей фонемы. Для получения высококачественной речи потребовалось около 2000 дифонов. В некоторых случаях были записаны необходимые Трифоны (дифоны в контексте). Общий объем памяти, используемый при синтезе, менее 50 килобайт.
В Японии разработан кепстральный синтез речи из параметров слогов "согласный - гласный", которых в японском языке около 100 Cl38j . Каждый слог анализируется и запоминается в виде кепстра, соответствующего истинной (сглаженной) логарифмической спектральной огибающей (a true log spectral envelope ).Система речевого синтеза превращает цепочки символов в кепстральные параметры с плавным и динамическим переходом от одного слога к следующему и порождает плавную картину изменения частоты основного тона. Основным узлом модели преобразования кепстральных параметров в акустическую волну является специальный фильтр, порождающий акустическую волну из кепстра в реальном времечи.Экспериментальное матобеспечение для реализации автоматического син-
59
теза речи, основанного на подусдогах, описано в [184] . Ддя синтеза произвольного текста на немецком языке используется около 1300 подуслогов, включающих часть гласного и примыкающие кусочки согласного. Описаны эксперименты, которые помогли выбрать правила соединения полуслогов. Синтез выполнялся с помощью LPO-вокодера, использовавшего parcor- коэффициенты. Отмечается,что в немецком языке используется 47 начальных и 153 конечных звукосочетания согласных с 16 типами гласных. Уменьшение словаря подуслогов было осуществлено за счет уменьшения числа гласных (до 10) и конечных звукосочетаний с согласными (до 53). Программа синтеза автоматически контролирует амплитуду и длительность полуслогов, формируя безударные слоги из эталонных ударных.
1.4.4. Просодика синтезированной речи. В [184] рассмотрено управление просодическими параметрами для форматного синтезатора, основанного на соединении дифонов и разработанного для немецкого языка. Синтезатор используется в системе речевого ответа sam', позволяющей формировать фразы, составленные из словарей большого объема. Используются параллельные форматные фильтры, которые возбуждаются независимо источниками тона или шума. Параметры управления фильтрами вырабатываются специальным блоком pcu , который является частью системы samt • Тексты, которые должны быть синтезированы, вводятся в pcu как звуковая последовательность; каждый звук кодируется восьмью битами. Дальнейшая обработка в рои базируется на дифонах, чтобы наилучшим образом учесть влияние коартикуляций. Для управления просодическими параметрами синтезируемой речи необходимо, чтобы звуковая последовательность включала коды управления просодией. (Эти коды должны влиять на частоту основного тона, длительность звуков и интенсивность.)
В [122] отмечается, что интонационная модель для немецкого языка уже разработана. В соответствии с этой моделью каждое предложение разделяется на две или более синтетические группы (фразы), такие, как фраза существительного (не всегда совпадающая с группой подлежащего), глагольная фраза и т.д. Изменение частоты основного тона первых г»-1 фраз завершается повышением тона (нарастающей каденцией ffC ), а завершающая предложение фразе - снижением частоты основного тона (финальная каденция FC ). Дня каждого слова фразы можно найти один ритмозадающий ударный слог, а для каждой фразы - одно слово, которое несет главное, смысловое ударение Ml . Позиция гласного в ударном слоге этого саова 1^,, , определяющем ударение, дает начальную точку двух различных типов частоты основного тона /д . Характер
60
affix Jfl к&чаственн0 определяется типом каденции ( /ус-тип или pC-isW) 1 количественно - другими факторами, такими, как длина г«всного или позиция главного ударения во фраае.
В доподнение к каденции, на изменение /^ влияют основное И вторичное ударения ( S и SS ). Во фразах слитной речи ударе-ijgg появляются тогда, когда необходимо выделить некоторые олова (дроиэнести их бояее выразительно) или когда в беглой речи о^вдиняютоя две последовательные фразы с нарастающей каденцией. Яде обоих типов ударений находится характер изменения основного тона ( S-vw f^ ) на участках, начальные точки которых определяются позицией гласных ударных слогов.
Естественная речь большинства дикторов характеризуется постепенным снижением частоты основного тона (примерно, на полтона lie) от начала к концу фразы. (При формировании синтетической речи это следует учитывать, так как речь с постоянной f, неприятна на слух, монотонна.) На этот основной тип /д нак-хддюаются НС-, FC- и Я-тилы основного тона. Нарастающая ка-данция характеризует возрастание f в конце гласного V^, , не-суцего основное ритмическое ударение ( the main ) • Для точной идентификации типа /д необходимо различать два случая)
а) V^i - последний звонкий звук фразы;
б) наличие других звонких между Ущ и концом фразы.
Исследования показали, что в обоих случаях частота основного тона нарастает по синусоидальному закону, но ъ одучае а) время нарастания 120 мо, а в случае б) - 190 мо.
Частота fy возрастает от двух до четырех полутонов. Поо-ае того, как f, достигнет верхней границы (по синусоиде), она продолжает медленно возрастать по линейному закону оо скоростью оолтона в I о. Абсолютные отклонения частоты Af естественной речи сильно меняются от диктора к диктору. Ддя синтетической рв«р| однако эти отклонения не должны быть слишком велики. Если -ажду главным ритмическим ударением и концом фрааы содержится ЧНогосложное слово, то часто (например, в одучае ударения на червой части длинного составного слова) возникает вторичная каден-4W SC в ритмическом ударении последнего олова или части слова э»ов фразы. Начало и- длительность вторичной каденции соответот-вуеэ этим параметрам главной каденции, но отклонение частоты Никогда не превышает полутона.