Машины, которые говорят и слушаютРефераты >> Кибернетика >> Машины, которые говорят и слушают
Ранее уже отмечалось, что каждому слову синтезируемого высказывания приписывается некое значение акцента в соответствии с его рангом по порядку важности. Контур изменения f. (подъем и падение) тем резче, чем важнее слово. Акцентирование слова снижается, если оно обнаруживается в магазинном запоминающем устройстве, т.е. оно уже недавно произнесено.
Система верхнего уровня снабжает каждое слово входного высказывания просодическими индикаторами (рис. 1.3), обеспечивающими получение просодического контура на нижнем уровне анализа.К таким
64
индикаторам относятся связанные с каждым словом числа, определяющие а) акцент, б) границу, указывающую позицию слова внутри йразы / предложения (положительное число определяет позицию относительно начала фразы, отрицательное - относительно конца; при этом большие числа соответствуют словам на границах, отмеченных знаком препинания, и на границах между большими и / иди важ-щдаи фразами); в) продолжительный подъем fg , т.е. число, показывающее величину подъема на границе слова, что отражает важность синтаксической границы, предшествующей этому слову; г) тип тона (А, В или нулевой^, показывающий, относится данное слово и конечному участку фразы с нарастанием или падением fg или не относится (при типе А падение Уд идет до более низкого уровня, чем в других случаях, а при типе В подъем fg продолжает расти после лексически ударного слога, что не характерно для других случаев).
Наряду с просодическими индикаторами каждого слова, система верхнего уровня вводит в систему низшего уровня число слогов, место лексически ударного слога, фонемную структуру, которая для каждого слога дополнительно указывает, начинается ли он или заканчивается взрывным звуком и не является ли этот взрывной глухим.
Рассмотрим далее работу системы нижнего уровня, формирующей контур основного тона. Алгоритм устанавливает на лексически ударных слогах каждого важного слова сначала пиковые уровни /д, после чего вокруг каждого пика строятся акцентированные подъемы и падения частоты основного тона. Затем добавляются участки общего контура, соответствующие участкам постепенного нарастания и конечным типам тона. Наконец, заполняются по соответствующим правилам и остальные участки; контур основного тона высказывания сформулирован.
Пики основного тона устанавливаются пропорционально величине акцента для каждого важного слова, однако по отношению к начальным словам высказывания пики имеют некую тенденцию к уменьшению. К ним добавляется наклонная линия, такая, что для слов равного .акцента каждое последующее значение частоты /„ на пике •^УДет уменьшаться пропорционально наклону этой кривой. Величина этого наклона для предложений, заканчивающихся тыом тона В, более полога по сравнению с другими предложениями. Каждое пред-^«ение получает свою линию наклона в зависимости от того,в ка-^ом месте общего высказывания находится предложение (и, естествен-н0» в зависимости от пда тона, которым заканчивается предложение) . Пики каждого предложения уменьшаются от начала к концу
Зак.480 65
всего высказывания, но при этом соблюдается тенденция.что начальный пик каждого предложения более высокий, чем последний пик частоты основного тона предыдущего предложения, но более низкий чем первый пик этого предыдущего предложения. Такие линии нак-жона являются в какой-то степени опорными при формировании контура, так что более длинные предложения начинаются с более высоких пиков fg .
Каждый лексически ударный слог значимого слова приобретает контур /о , характеризующийся подъемом и спадом» отношения меж. ду которыми определяются числами, характеризующими границы. Большие положительные числа ведут к значительному подъему, а большие отрицательные - к значительному спаду. Величины подъемов и спа-доа пропорциональны акценту, но зависят также и от числа соседних неакцентированных слогов. Большое временное разделение между акцентированными слогами ведет к большему отношению на этом участке, характеризующему провал.
Информация о продолжительных подъемах / кодируется в числе, стоящем после последнего слога каждого слова; это число характеризует и высоту подъема, и его длительность.Формирование контура /д на неакцентированных участках высказывания основано на том, что в высказываниях частота /д имеет тенденцию к понижению. Учет фонемической структуры слогов приводит к тому, что на участках высказываний, соответствующих глухим взрывным, контур основного тона отсутствует, а акцентированные слоги с начальными взрывными имеют более высокие пики f , чем слоги, начинающиеся со звонких. Изменение длительностей звуков синтетической речи рассмотрено ранее в п. 1.4.2. Не представляет особых проблем формирование контура интенсивности, в какой-то степени коррелированного с контуром основного тона; имеются известные соотношения между средней интенсивности ударных и безударных гласных, сонорных согласных,фрикативных и смычных согласных (включающих участки смычек), что позволяет автоматически формировать контур интенсивности по фонетической цепочке.
1.4.5. Алгоритмическое и программное обеспечение синтеза речи. Создание алгоритмического и программного обеспечения синтеза речи рассматривается в ряде публикаций. Разрабатываются его циализированные языки для перевода графем в фонемы CI26] , 8 также системы программных модулей, обеспечивающих автоматический анализ текста и синтеза речи [103, 133] . Системный подход к созданию программного обеспечения синтеза речи становится все более определяющим.
66
В CI26] рассматривается разработанный в0 Франции специализированный язык программирования ТОР, предназначенный для перевода гоафем французского текста в соответствующие фонемы. Язык ТОР ( Transcription Orthographlque Phonetique ) - это язык правил описания, применение которых зависит от контекста. Программы, написанные на языке ТОР, содержат три части:
1) описание используемых кодов;
2) описанир классов (необязательное);
3) правила.
Система правил основана на частичном упорядоченном множестве фонологических правил французского языка. Левая часть каждого правила указывает на графему, которую необходимо перекодировать в фонему (указанную в правой части) при условии, что известен буквенный контекст, в котором находится перекодируемая графема.
В С.ЮЗ] описана модульная система речевого ответа, представляющая собой большое количество программных модулей (по одному ^ля каждой структурной области), связанных между собой множеством информационных структур. Каждая структурная область (т.е. морфология, синтаксис, семантика, фонология) делает свой вклад в общую систему, но взаимоотношения этих областей с лингвистической структурой высказывания не всегда однозначны из-за индивидуальных акустических особенностей синтезируемой волны. Различные структурные области должны 1ыть представлены так, чтобы можно было обеспечить их оптимальное взаимодействие. Лишь таким образом можно установить сложные отношения между поверхностной речевой волной и лежащей в ее основе абстрактной лингвистической структурой, которая должна быть смоделирована глубоко и всесторонне .