Машины, которые говорят и слушают
Рефераты >> Кибернетика >> Машины, которые говорят и слушают

Наряду с системой cDy-II ^той же фирмой выпускается уни­версальный речевой модуль fYHtl), не обладающий возможностью пре­образования текста в речь. В памяти этого устройства в таблич­ном виде записаны коды 1300 слов, а также 25 суффиксов и префик­сов. Как и система проектирования словаря cds-ii, УРЫ вклю­чает в свой состав микропроцессор типа 6806. Он также содержит синтезатор типа ас-01, операционную систему, хранящуюся в ПЗУ ем­костью 2 кбайта, таблицу слов, записанную в перепрограммируемом ПЗУ емкостью 2 кбайта, и I кбайт рабочей области оперативного за­поминающего устройства. УРМ можно использовать в качестве рабоче­го модуля а различной аппаратуре. При этом модуль может управ­ляться внешним процессором или ведущей ЭВМ.

Некоторые сведения о других синтезаторах содержатся в [51, 52, 55, 142].

1.4.2. Повышение качества синтезируемой речи. Несмотря на появление коммерческих систем автоматического речевого ответа,син­тетическая речь еще ке качественна. Поэтому в лабораториях мира продолжают энергично работать над проблемой синтеза речи. В тру­дах ежегодных международных конференций по акустике речи и обра­ботке сигналов, которые проводятся Институтом инженеров по электро­технике и радиоэлектронике США с 1976 г., большинство докладов посвящено автоматическому синтезу. Работы относятся к самым раз­личным языкам.

В С 115] описана разрабатываемая для шведского языка сис­тема "текст-речь", базирующаяся на правилах перевода буквенной информации в фонетическую. Система синтеза состоит из последова­тельности преобразований, каждое из которых отражает часть знаний о речевое процессе. Отмечается, что для получения качественной речи целесообразно математизировать использование таких просоди­ческих параметров, как длительность звуков и интонация. При фор­мализации правил преобразования был использован опыт работ по созданию систем "текст-речь", проводимых в США, и учтен тот факт, что фонетическое представление высказываний в шведском языке бо-яее простое, чем в английском.

Наибольшие трудности вызывает поиск в неразмеченном знаками ударения тексте ударных слогов, а также слогов вторичного ударе­ния ( aecondary stressed syllable ). Во время этого поиска сле­дует использовать различные ключевые индикаторы, такие как сдво­енные гласные, некоторые окончания и комбинации гласных с соглас­ными, образующими ударные слоги.

50

разработаны основные правила преобразования фонетической це­почки в синтезированную акустическую волну.Эти правила, для фор­мализации которых создан специальный язык, работают на сегмент­ном уровне. Например, правило, определяющее длительность сегмента, запювется<"segment>—< DURATION - Т * ЙХР (-ЬОО(В)* 0,12 - LOG(A>*

« 0,35)> ,

где Т - номинальная длительность; А,В,С, - переменные, зависящие от позиции и длительности слова или фразы.

В [Иб] сообщается о системе речевого синтеза, разрабо­танной для английского языка в Bell Laboratories. Система обес­печивает более высокое качество синтезируемой речи за счет» I) более точных правил определения длительности звуков речи, осно­ванных на измерениях, которые продесаны на участках естествен­ной речи; 2) расширяющихся правил учета аллофонических изменений как функции словесных и других границ; 3) введения большого числа правил просодии нижнего уровня, учитывающих особенности речеобра-эования (ассимиляцию звуков, изменения внутри звукосочетания сог­ласных, контекстную зависимость гласных и т.д.); 4) правил, учиты­вающих медленные изменения параметров модели голосовых связок и шумового источника возбуждения. Многие особенности системы син­теза речи Bell Laboratories рассмотрены также в С75,Ь9].В [69], в частности, довольно подробно описаны свойства просодии англий­ского языка.Предполагается различать просодию высшего (собственна Просодические функции) и просодию низшего уровней (их акустичес­кие компоненты) и использовать правила просодии для повышения ка­чества синтезируемой речи.

При исследовании слитной речи выявилось, что в английском языке:

- главный фактор, определяющий длительность гласных, - пози­ция гласной в слове, а слова - в предложении (или в синтагме);

гяасная имеет наибольшую длительность, если она находится в пос­леднем слоге перед паузой; это объясняется особенностями кон­тура основного тона перед паузой, что значительно удлиняет глас­ный; различие длительности гласных в предпауэальной и непредпау-эальной позициях приблизительно находится в соотношении 2:1;

- последующие согласные укорачивают длительность гласного Ьо сравнению с некоторым средним значением), если за гласным сле­дует глухой взрывной (характеризуемый смычкой), и удлиняют, если за гласным следует звонкий фрикативный; наибольшее влияние на дли­тельность гласных согласные оказывают в предпаузальной позиции;

-.длительность безударных гласных, если они не находятся

в конце слова, составпяет около 40 мс; в конечных позициях они Содее длительны;

51

- дифтонгизация сильно удлиняет гласную;

- на длительность согласных основное влияние оказывают 2 фак­тора: положение согласной относительно ударного сдога и границ слова или предложения и консонантность окружения;

- длительности консонантных согласных (а именно глухих фри­кативных f,s,S) подчинены точному аддитивному правилу, ударение и границы слова действуют как факторы приращения, а согласные , смежные с фрикативными, действуют как фактор укорачивания;

- наибольшее непостоянство длительностей в зависимости от ударения и позиции проявляют переднеязычные согласные t , d, n ',

- звонкие Фрикативные в середине и конце счов значительно ко­роче глухих фрикативных, находящихся в такой же позиции;

- влияние окружающих согласных на длительность конкретной сог­ласной зависит от способа и места их артикуляции; длительность согласной зависит также от степени консонантности ее окружения;

- в связи с этим комбинации двух последовательных согласных, характеризующихся одним и тем же местом артикуляции, проявляют тенденцию к уменьшению длительности обеих, например, пй и nt;

звонкие фрикативные обычно удлиняют соседнкж. согласную;

- длительность плавных и носовых,согласных сильнее других подвергается воздействию смежных согласных с ослыпей степенью кон­сонантности, влияние которых проявляется даже через границы слов;

- начальная согласная функциональных слов (артикля и пред­логов) значительно короче, чем в случаях значимых слов;

- легко предсказуемые слова обычно состоят из более корот­ких гласных и согласных, чем непредсказуемые;

- в английском языке согласные в начале слова могут обла­дать другими акустическими характеристиками, чем те же согласные в конце слова (это явление называют селективной аллофонией в от­личие от позиционно обусловленной адлофонии, связанной с явле­нием коартикуляции);

- начальные аллофоны (по сравнению с конечными и средними) имеют более сильные консонантные признаки - большую прерывность, четкость интонационных составляющих (основного тона и гармоничес­кой структуры) в потоке рачи, более интенсивную шумовую состав­ляющую фрикативных, более сильный взрыв с явным участком аспира­ции в глухих взрывных и т.п.; эти свойства начальных аллофонов нвняются признаками начала сообщения, обычно слова.


Страница: