Машины, которые говорят и слушаютРефераты >> Кибернетика >> Машины, которые говорят и слушают
В С89] рассмотрены и некоторые другие свойства просодии, положенные в о&нову правил преобразования "текст - речь" и обеспечивающие высокую разборчивость и естественность синтетической речи.
52
вГ2] подробно описана лингвистическая и фонетическая сторона паботы, которую необходимо выполнить при реализации качественного синтеза речи по произвольному тексту. Важнейшими этапами иссяедований здесь являются:
- создание более совершенной модели речевого тракта;
- определение более полного набора абстрактных правил лингвистического описания текста;
- разработка полного свода правил, позволяющих вывести фонетические описания по правилам лингвистического описания текста (дравид преобразования букв в звуки);
- формализация морфофонематичаских правил и правил лексического ударения, которые дают на уровне слов окончательную коррекцию цепочки фонем (аллофонов);
- грамматический анализ предложений, раскрывающий иерархическую природу их построения для определения правильности интонационного контура;
- более тщательное иосдедование просодических коррелят лингвистических структур.
Отметим особую важность создания хорошей модели речевого тракта, параметры которой изменяются в соответствии с правилами ре-чвобразования. Хорошая модель позволяет существенно онизить объем информации, описывающей форму речевого сигнала (вырабатываемого на Мходе модели из небольшого числа параметров), а также более глубоко и еотеотвенно описать речевые явления. При параметрическом синтезе информация о фонемах (аллофонах) запоминается в виде комплекса параметров и правил модификации отих параметров под влиянием различных ограничений. В связи о этим для повышения качества синтеза необходимы структурные модели, отражающие ащ ограничения на различных уровнях - артикуляторном, дистрибутивом, словообразовательном, синтаксическом и семантическом. Эти иодеди должны координироваться гибкой структурой управления,обео-почивающей их взаимодействие.
Для повышения естественности и разборчивости речи, генерируе-"ой форматными синтезаторами, в [176 ] предлагается использовать вычисление форматных параметров на более коротких интервалах, что позволяет улучшило синхронный с основным тоном анализ. 1домен-т^ смыкания голосовых связок характеризуются импульсным воабужде" нием. На первом этапе анализа оцифрованной волны такие точки воз-°Й<дения легко выделяются (со средней точностью) процедурой пи-Чового детектирования. (Во время шумового возбуждения эти точки ^определяются случайно, тогда как при возбуждении речевого сиг-
53
нала импульсами голосовых связок большинство таких точек соответствует моментам смыкания связок.) Даяее, для каждого отрезка волны длительностью 10 мс с помощью ДПФ вычисляется 33-точечный логарифмированный энергетический спектр. Временные отсчеты для получения спектра берутся, начиная с момента, соответствующего найденной точке возбуждения. Если десятимиллисекундный сегмент содержит одну точку возбуждения, то логарифмы энергетического спектра вычисляются по формуле
^ = '° Чю \ Ц, ^ ехр (-^тп/32 \ '•
где п = 0 - 32; Л„, - отсчеты речевой волны, следующие за моментом возбуждения; У - оценка (в дБ) логарифма энергетического спектра на частотах 156, 25 х п (в Гц).
Итеративный анализ составляющих этого спектра и позволяет оценить все требуемые для синтезатора формантные параметры. Процедура итеративного анали-а посредством синтеза (когда спектр, синтезированный по приближенным формантным параметрам речи, сравнивается с реальным спектром входной речевой волны, и если расхождения велики, производится уточнение формант) позволяет получать параметры качественной синтетической речи.
В ряде работ подчеркивается, что для повышения естественности синтезированной речи целесообразно разработать хорошие правила корректировки микро- и макровариаций частоты основного тона, длительности звуков и интенсивности. Полная модель генерации частоты основного тона, его микро- и макровариаций рассмотрена в Ll04] , где исследовались различные синтетические структуры, позволившие выявить, в частности, влияние модальности на контур основного тона в вопросо-ответных системах при перемещении центрального слова фразы (слово, на которое делается акцент при вопросе). (Формирование контура ochobhofj тона будет более подробно рассмотрено в п.1.4.4).
В [113'] предлагается для повышения качества синтезированной речи (полученной методом линейного предсказания), поступающей на наушники, использовать эффект бинауральной реверберации который можно смоделировать, подав синтезированную речь на громкоговоритель и записав (в условиях реальной комнаты) прошедшув через громкоговоритель речь в два канала через разнесенные микрофоны. Полученные таким способом сигналы поступают на правый и левый наушники, создавая у слушателя впечатление более естест' венной речи.
54
для повышения натуральности речи в [162] предлагается про-записывать на магнитный диск больший емкости сообщения в Siawe параметров, представляющих собой набор раноон -коэффициентов. Требуемые фразы считываются в буферную память. На стомегабайтном диске можно таким образом записать 5000 сообщений яжительностыо по 15 с каждое. Время выборки сообщения 0,1 с,мак-симвльное число возможных каналов, по которым может поступать информация, - 128.
Ряд работ, появившихся в последние годы, посвящен повыше-шф качества синтезированной речи за счет модернизации модели источников возбуждения. Модель смешанного источника возбуждения рассмотрена в [1523 . Смешение достигается делением речевого спектра на две области - низкочастотную, возбуждаемую импульс-нк« источником, и высокочастотную, которая возбуждается шумовым источником. Для определения степени оэвончения вводится параметр fc • показывающий частоту отсечки между звонкой и глухой областями. Для компрессии речи Fp может выцеляться автоматически из речевого спектра и передаваться в управляющие цепи. Эксперименты, при которых использовалась новая модель, показали ее эффективность при синтезе звонких фрикативных и помогли ис-кяючить характерное "жужжание" вокодерной речи.
8 [166 3 описана новая функция возбуждения для синтеза,использующего коэффициенты линейного предсказания. Эта функция за счет соответствующего сглаживания, инверсной фильтрации и усечения верхушки сохраняет фазовые характеристики импульсов возбуждения, Поступающих из голосовой щели. Отмечается, что качество речи при этом существенно улучшается, а между тем до последнего времени в lpg-синтезаторах слишком мало усилий было направлено на поиск более соответствующих реальным функций возбуждения рачаобразующего тракта из-за того, что не были установлены четкие соотношения между остатком линейного предсказания и формой возбуждающей волны.
В [137] описан LPU-синтеэатор речи, разработанный в Норвегии. По мнении авторов, он обеспечивает высококачественную речь (при высокой компрессии) за счет использования более совер-аенной модели смешанного возбуждения. В модели предусмотрено использование: