Машины, которые говорят и слушаютРефераты >> Кибернетика >> Машины, которые говорят и слушают
Наряду с системой cDy-II ^той же фирмой выпускается универсальный речевой модуль fYHtl), не обладающий возможностью преобразования текста в речь. В памяти этого устройства в табличном виде записаны коды 1300 слов, а также 25 суффиксов и префиксов. Как и система проектирования словаря cds-ii, УРЫ включает в свой состав микропроцессор типа 6806. Он также содержит синтезатор типа ас-01, операционную систему, хранящуюся в ПЗУ емкостью 2 кбайта, таблицу слов, записанную в перепрограммируемом ПЗУ емкостью 2 кбайта, и I кбайт рабочей области оперативного запоминающего устройства. УРМ можно использовать в качестве рабочего модуля а различной аппаратуре. При этом модуль может управляться внешним процессором или ведущей ЭВМ.
Некоторые сведения о других синтезаторах содержатся в [51, 52, 55, 142].
1.4.2. Повышение качества синтезируемой речи. Несмотря на появление коммерческих систем автоматического речевого ответа,синтетическая речь еще ке качественна. Поэтому в лабораториях мира продолжают энергично работать над проблемой синтеза речи. В трудах ежегодных международных конференций по акустике речи и обработке сигналов, которые проводятся Институтом инженеров по электротехнике и радиоэлектронике США с 1976 г., большинство докладов посвящено автоматическому синтезу. Работы относятся к самым различным языкам.
В С 115] описана разрабатываемая для шведского языка система "текст-речь", базирующаяся на правилах перевода буквенной информации в фонетическую. Система синтеза состоит из последовательности преобразований, каждое из которых отражает часть знаний о речевое процессе. Отмечается, что для получения качественной речи целесообразно математизировать использование таких просодических параметров, как длительность звуков и интонация. При формализации правил преобразования был использован опыт работ по созданию систем "текст-речь", проводимых в США, и учтен тот факт, что фонетическое представление высказываний в шведском языке бо-яее простое, чем в английском.
Наибольшие трудности вызывает поиск в неразмеченном знаками ударения тексте ударных слогов, а также слогов вторичного ударения ( aecondary stressed syllable ). Во время этого поиска следует использовать различные ключевые индикаторы, такие как сдвоенные гласные, некоторые окончания и комбинации гласных с согласными, образующими ударные слоги.
50
разработаны основные правила преобразования фонетической цепочки в синтезированную акустическую волну.Эти правила, для формализации которых создан специальный язык, работают на сегментном уровне. Например, правило, определяющее длительность сегмента, запювется<"segment>—< DURATION - Т * ЙХР (-ЬОО(В)* 0,12 - LOG(A>*
« 0,35)> ,
где Т - номинальная длительность; А,В,С, - переменные, зависящие от позиции и длительности слова или фразы.
В [Иб] сообщается о системе речевого синтеза, разработанной для английского языка в Bell Laboratories. Система обеспечивает более высокое качество синтезируемой речи за счет» I) более точных правил определения длительности звуков речи, основанных на измерениях, которые продесаны на участках естественной речи; 2) расширяющихся правил учета аллофонических изменений как функции словесных и других границ; 3) введения большого числа правил просодии нижнего уровня, учитывающих особенности речеобра-эования (ассимиляцию звуков, изменения внутри звукосочетания согласных, контекстную зависимость гласных и т.д.); 4) правил, учитывающих медленные изменения параметров модели голосовых связок и шумового источника возбуждения. Многие особенности системы синтеза речи Bell Laboratories рассмотрены также в С75,Ь9].В [69], в частности, довольно подробно описаны свойства просодии английского языка.Предполагается различать просодию высшего (собственна Просодические функции) и просодию низшего уровней (их акустические компоненты) и использовать правила просодии для повышения качества синтезируемой речи.
При исследовании слитной речи выявилось, что в английском языке:
- главный фактор, определяющий длительность гласных, - позиция гласной в слове, а слова - в предложении (или в синтагме);
гяасная имеет наибольшую длительность, если она находится в последнем слоге перед паузой; это объясняется особенностями контура основного тона перед паузой, что значительно удлиняет гласный; различие длительности гласных в предпауэальной и непредпау-эальной позициях приблизительно находится в соотношении 2:1;
- последующие согласные укорачивают длительность гласного Ьо сравнению с некоторым средним значением), если за гласным следует глухой взрывной (характеризуемый смычкой), и удлиняют, если за гласным следует звонкий фрикативный; наибольшее влияние на длительность гласных согласные оказывают в предпаузальной позиции;
-.длительность безударных гласных, если они не находятся
в конце слова, составпяет около 40 мс; в конечных позициях они Содее длительны;
51
- дифтонгизация сильно удлиняет гласную;
- на длительность согласных основное влияние оказывают 2 фактора: положение согласной относительно ударного сдога и границ слова или предложения и консонантность окружения;
- длительности консонантных согласных (а именно глухих фрикативных f,s,S) подчинены точному аддитивному правилу, ударение и границы слова действуют как факторы приращения, а согласные , смежные с фрикативными, действуют как фактор укорачивания;
- наибольшее непостоянство длительностей в зависимости от ударения и позиции проявляют переднеязычные согласные t , d, n ',
- звонкие Фрикативные в середине и конце счов значительно короче глухих фрикативных, находящихся в такой же позиции;
- влияние окружающих согласных на длительность конкретной согласной зависит от способа и места их артикуляции; длительность согласной зависит также от степени консонантности ее окружения;
- в связи с этим комбинации двух последовательных согласных, характеризующихся одним и тем же местом артикуляции, проявляют тенденцию к уменьшению длительности обеих, например, пй и nt;
звонкие фрикативные обычно удлиняют соседнкж. согласную;
- длительность плавных и носовых,согласных сильнее других подвергается воздействию смежных согласных с ослыпей степенью консонантности, влияние которых проявляется даже через границы слов;
- начальная согласная функциональных слов (артикля и предлогов) значительно короче, чем в случаях значимых слов;
- легко предсказуемые слова обычно состоят из более коротких гласных и согласных, чем непредсказуемые;
- в английском языке согласные в начале слова могут обладать другими акустическими характеристиками, чем те же согласные в конце слова (это явление называют селективной аллофонией в отличие от позиционно обусловленной адлофонии, связанной с явлением коартикуляции);
- начальные аллофоны (по сравнению с конечными и средними) имеют более сильные консонантные признаки - большую прерывность, четкость интонационных составляющих (основного тона и гармонической структуры) в потоке рачи, более интенсивную шумовую составляющую фрикативных, более сильный взрыв с явным участком аспирации в глухих взрывных и т.п.; эти свойства начальных аллофонов нвняются признаками начала сообщения, обычно слова.