Машины, которые говорят и слушают
Рефераты >> Кибернетика >> Машины, которые говорят и слушают

Дальнейшее совершенствование сантисенундного акустического процессора ( asAJ ) за счет использования 45 эталонных фонетических меток вместо 33 позволило повысить точность классификации (на языке со словарем из 250 слов) до 98,8% на контрольном материале 100 предложений [l07] . Следует отметить, что еще более совершенный процессор ( wbap ), на котором получены наилучшие результаты распознавания (0% ошибок), использует лишь пять параметров, один из котррых - кратковременные изменения общей энергии сигнала, а четыре - отражают параметры гласных и описаны ранее в [l4l] . Этот процессор осуществляет акустическое сравнение непосредственно, используч величины акустических параметров, а не фонетические метки, связанные с сантисекундными отрезками. Для каждого слова используется модель с конечным числом состояний, которая порождается алгоритмически из отображенного

23

произношения. Число состояний модели равно длине этого произнесения в сантисекундах. В модели обеспечиваются переходы из состояния к этому же состоянию, к соседнему и через одно.С каждым переходом связано пятимерное гауссовское распределение в пространстве первичных параметров. Средние значения и дисперсии выходных распределений, а также переходные вероятности формируются автоматически при обучении на дополнительных реализациях слов при формировании обобщенных эталонов с помощью алгоритма Вктер-би [39].

В процессоре wbap используемая статистика основана скорее на особенности слов, чем на особенности звуков.

Следует отметить, что за I976-I978 гг. предпринимались попытки увеличить объем используемого в СРСР фирмы IBh словаря до 1000 слов (тезаурус лазерных патентов). Предварительные результаты испытаний этой системы описаны в [106} . На тестовом множестве фраз, куда входило 486 слов, ошибка распознавания слов составила 33,1%, причем ни одна из й0 контрольных фраз не была определена правильно - программа распознавания делала ошибку хотя бы в одном слове каждой фразы. Развитие этой системы [107] позволило за счет увеличения числа фонетических меток до 52 снизить ошибки в распознавании слов до 20%.

В [108,109] рассмотрены дальнейшие улучшения этой системы, позволившие уменьшить число ошибок при распознавании слов за счет использования более совершенного сантисекундного акустического процессора сзар-зоо, в котором число эталонных фонетических меток было расширено до двухсот. При распознавании 50 п"едл°жений, включающих 980 слов, неверно распознано 87 слов, в числе которых 34 слова, составившие односложные слова типа "of", " а ", " are ","as" и др. Переход к работе этой системы с множеством дикторов описан в [l59]. Работа с новыми дикторами реализована за счет использования автоматической селекции акустических эталонов, выполняющейся двумя различными способами.Один из методов, в основе которого лежит процедура Витерби С 39], реализован с помощью сантисекундного акустического процессора TPIVIAI [l07], а другой, основанный на алгоритме кластеризации, использует акустический процессор autociust. (В первом методе использовалось 85 эталонов, во втором - 20D.) Точность распознавания слов составила при использовании первого алгоритма 65%, а второго - 90%. В 1983 г. была публикация одной фирмы о распознавании словаря деловой переписки общим объемом 5000 слов.

Над проблемами распознавания слитной речи продолжает работать фирма Sperry Univas, участвовавшая в проекте АЙРА. Эта

24

фирма разработала с"стему автоматического распозньвания слов,словосочетаний и естественных предложений {l74] . На основе спектрального анализа и линейного предсказания в спектральной об-дасти звуки классифицировались по способу и месту образования. Система была испытана на словаре из 31 слова двумя дикторами. Точность распознавания изолированных слов при использовании синтаксиса задачи составила 95%. Предварительные результаты по распознаванию слитной последовательности слов, произносимые тремя дикторами, составили от 54 до 74% для задачи с ограничечным порядком следования слов. Предполагалось, что в дальнейшем будут использованы акустико-фонетичзские и фонологические правила, нормализация дикторских произношений, просодические характеристики речи. Предполагалось также, что будут использованы более сложные процедуры для синтаксического и семантического анализа. В 1977 г. система работала с двумя словарями - из 36 (алфавит-но-цифровой словарь) и 64 слов (словарь речевого управления) [123, 153] . Для обоих словарей точность распознавания составила 95^, а средней точности распознавания слитялс словосочетаний - 88%.Дальнейшие разработки включали расширение словарного состава системы, числа типов предложений, использование правил фонетической и словесной верификации.

В [l54] сообщается, что система Sperry Univac. была модернизирована для поиска и верификации ключевых слов в потоке слитной речи. В этой системе использовались измеряемые на деся-тимиллисекундных интервалах параметры речевого сигнала, проведшего через телефонный канал. Исследователями был выбран достаточно мощный набор параметров- Непосредственно по речевой волне определилась частота основного тона. Спектральный анализ с помощью быстрого преобраэозания Фурье (БПД) позволял получить следующие признаки речевых отрезков: общую энергию в полосе 100 -8600 Гц, энергию сонорных (100 - 3000 Гц), высокочастотную энергию сонорных (650 - 3000 Гц), низкочастотную энергию (JOO - 600 Гц), разность энергий низких и высоких частот <100 - 900 Гц) - (3000 - 3600 Гц), частоту максимума спектральной амплитуды в полосе 100 - 3600 Гц, спектральную производную на этой частоте и энергии в 15 полосах частот телефонного канала. Кроме того, линейное предсказание в спектрадьной области давило возможность получить и использовать коэффициенты линейного предсказания и частоты первой и третьей формант.

Система содержит компоненты просодического и фонетического анализа, которые обеспечивают последующее сегментное структурирование высказывания (получение цепочки кваэифонетическюс сегментов)

Зак.480 26

для лексического сравнения. Сравнение осуществляется с помощью блоков словесного гипотезирования и верификации. Верификация слов производится методом динамического программирования. При построении системы обнаружения ключевых слов была использована обучающая выборка - разговорная речь, продолжительностью 13 мин. Предложения произносили 8 дикторов. Контрольная выборка составляла II мин разговорной речи 10 дикторов (из которых двое участвовали в обучении).

При контрольном эксперименте точность обнаружения 10 ключевых слов была невысока, но все же испытания следует считать обнадеживающими. В [124] отмечается, что в течение 1978 г. отдел речевой связи Jperry nnivac работал над созданием более совершенного блока фонетического анализа, который фактически стал лексически-управляемым фонетическим верификатором (а не автономным фонетическим анализатором, как раньше ),что лучше учитывает коартакуля-циокные эффекты внутри слова. Модернизация счстемы позволила [I55J получить более удовлетворительные результаты по обнаружению и верификации ключевых слов в потоке слитной речи. На тестовых предложениях (16,7 мин разговорной речи 14 дикторов, не принимавших участия в обучении системы) ключевые слова были обнаружены в 30% случаев.


Страница: