Машины, которые говорят и слушаютРефераты >> Кибернетика >> Машины, которые говорят и слушают
При построении систем понимания речи необходимо в большей степени, чем при создании систем распознавания слитной речи, использовать опыт специалистов по искусственному интеллекту, а также привлекать специальные знания о синтаксисе, семантике и прагматике языка общения. В то же время отметим, что деление на системы автоматического распознавания и понимания является 20
достаточно условным и фактически определяется коэффициентом ветвления, который показывает, сколько возможных слов допускается после каждого слова высказывания. В современных системах распознавания слитной речи средний коэффициент не превышает,как правило, 30 (в системе Nac-ISQ), а в системах понимания этот коэффициент достигает 200-300 (бессмысленные звукосочетания типа цмм . , эээ . и т.д., а также паузы и междометия можно рассматривать в СПР как возможные варианты слов).
Так как автоматическое распознавание 300 - 300 слов в непрерывном речевом потоке - сложная задача, веди использовать обычные математические методы распознавания, то для ее решения и привлекаются высшие уровни знания о языке (синтаксис, сематика и прагматика), а также другие способы, обеспечивающие сужение числа альтернатив на каждом шаге принятия решения о слове, используемые обычно в задачах искусственного интеллекта (ИИ). В связи с этим в системах понимания говорят о семантической точности распознавания смысла фразы, когда не все составляющие (слова) могут быть распознаны правильно.
Перейдем к рассмотрению систем распознавания слитной речи. Как правило, такие системы работают по принципу фонемного распознавания, от точности которого зависит общая надежность работы системы. Одной из наиболее интересных отечественных систем с обучением на конкретного диктора и словарь является система, построенная в Институте кибернетики АН УССР им. В.М.Гяуи-кова [l9,20] , развитием которой стала кооперативная система распознавания рвчи[213.
В основу этой системы положена математическая модель речевого сигнала, в которой каждой фонеме соответствует полученный алгоритмически (на основе анализа текущей автокорреляции сигнала, параметров линейного предсказания и текущего энергетического спектра) определенный набор бинарных признаков ( двоичный код). Модель учитывает коартикуляционныв эффекты, изменение длительности фонем и динамику интенсивности сигнала. Модель автоматического распознавания Института кибернетики АН СССР использует анализ сигнала посредством синтеза.
Некоторый процеср порождает из элементарных эталонных сигналов по определенным правилам эталонную слитную речь (общий для всех слов алфавит эталонных элементов содержит около 80 элементов кодов). Распознавание слитной рччи сводится к необходимости нахождения наиболее правдоподобного эталонного сигнала слитной речи.
21
В этой модели автоматически находятся границы отдельных фонем, паузы, тип и общее количество фонем в распознаваемой последовательности о учетом априорной вероятности частоты встречаемости фонем. Эталонный сигнал слитной речи формируется из эталонных сигналов отдельных слов путем нелинейного преобразования исходных словесных эталонов. При этом эталонные сигналы слов складывались в эталонную слитную речь так, что паузы между словами имели различную длительность (в том чис/ie и нулевую),а длительность элементов фразы изменялась плавно. Параметрами грамматики, порождающей эталонные фразы, являлись: алфавит эталонных элементов, акустике-фонетические транскрипции слов, правила стыковки слов во фразе, правила нелинейной деформации сигналов вдоль оси времени и некоторые другие параметры.
Для экспериментов по распознаванию слитной речи ( словарь включал 200 слов) были получены 1000 реализации этих слов, произнесенных одним диктором (обучающая выборка). При испытаниях система дала 0,5% ошибок и 3% отказов при распознавании слов в слитном потоке. Расширение словаря до 300 слов увеличило количество ошибок до 1%, причем отказов было 3,5%. При экспериментах со словарем из 100 слов удалось получить время распознавания (на ЭВМ БЭСМ-6), равное I с на I слово [193 • Отметим, что близкий к этому метод используется в системах распознавания слитной речи (СРСР), разработанных в Отделе вычислительной науки исследовательского центра фирмы 1УЫ. В связи с тем, что данная фирна (так же, как и фирма Sperry Univac ) активно занимается исследованиями по распознаванию слитной речи после завершения проекта arpa , рассмотрим эти работы более подробно.
В С39] описана СРСР, в основе которой лежит модель акустического канала, обеспечивающая автоматическое порождение всех возможных поверхностных форм предполагаемого высказывания совместно с вероятностями их порождения. Это порождение осуществляется с помощью акустико-фонологических правил (АФП).приложенных к базовой цепочке высказывания. АФП учитывают в слитной речи такие фонологические явления, как пропуски, вставки и замены отдельных фонем внутри слов, повышенный тон речи, диалектные особенности, изменения на стыках слов и т.д.
Удобной структурой для выражения поверхностных форд высказывания явился направленный граф, дуги которого помечены возможными звуками. Каждому узлу графа соответствует распределение вероятностей, указанных на выходящих дугах. Дуги на концах графа, соответствующего совокупности всех поверхностных форм произнесен-
22
ного слова, имеют связанные с начальными и конечными состояни-яни условия соединения, определяемые фонологическими явлениями на стыках слов.
Язык системы определяется автоматной грамматикой, представленной графом и включающей 250 слов. Для распознавания использовался лингвистический декодер-алгоритм последовательного декодирования, обеспечивающий нахождение предложения о максимальной апостериорной вероятностью по последовательности цепочки фонем, поступающих с выхода специального акустического процессора. Точность декодирования высказываний на контрольной выборке составила (по данным на август 1977 г.) 95% при 6% ошибочной интерпретации, которые были вызваны 0,6% ошибок неправильного распознавания слов. Следует отметить, что рассматриваемая система была сияьно модифицирована за последние три года: упрощен акустический процессор, с которого быви сняты функции фонемной сегментации и маркировки. Сказалось возможным, используя алфавит из 33 фонем, маркировать ими десятимиллисвкундные отрезки речевого сигнала непосредственно по акустическим данным.Преимущество такого представления авторы работы [Ю5Д видят в том, что, во-первых, информация о звуке,распределенная по длине фонем, оказывается более полезной для распознавания, так как при этом возрастает количество информации, поступающей от акустического процессора к лингвистическоу декодеру. Во-вторых, сегментация и маркировка (принятие решения о звуке) разнесены во времени, и лингвистический декодер может, основываясь на структуре отдельных слов, во время сравнения решить, представляет ли короткая маркированная цепочка десятимиллисекунцных сегментов истинный звук или же это - ошибочная ложная ставка.