Машины, которые говорят и слушаютРефераты >> Кибернетика >> Машины, которые говорят и слушают
Если система не в состоянии сформировать правильную гипотезу о фразе или если исчерпаны ресурсы, то считается,что система не смогла интерпретировать высказывание. При расширении гипотезы блок управления вызывает синтаксическую компоненту, которая дает возможность оценить гипотезу и предсказать новые слова. Синтаксическая компонента помечает каждое слово словесной решетки, которое можно использовать для расширения гипотезь', и устанавливает, какие еще слова требуются для подтверждения этой гипотезы ("подсказка" сверху). В связи с последним могут быть произведены дополнительные сравнения с эталонами для проверки, нет ли в текущей реализации высказывания необходимых слов.
После того, как синтаксическая компонента ("прагматическая грамматика") сделала свои предположения слов слева направо, она вызывает процедуру лексического поиска для проверки новых гипотез о словах. Оценки слов, оценки гипотез об отрезках фразы и оценки фраз ("событий", как их называют разработчики Wi'iu ) влияют на общую стратегию интерпретации высказывания. Событиям присваиваются очки, приблизительно равные сумме очков слов подтвержденной гипотезы и слов, требуемых для расширения этой гипотезы,
Попробуем рассмотреть пример, из которого станет ясно, как работает механизм анализа предположения, основанный на так называемой "островковой стратегии". Пусть на вход системы поступила фраза:
"What Is the total budget figure ?"(Какова общая сумма бюджета?). При просмотре фразы справа налево процедура лексического поиска формирует таблицу:
17 17
24
22 11
182
178 174
-38
-10
-R
-d
-R
1. FIGURE
2. FIGURE
3. TOTAL
38
4. FIGURE1723169-535. YEAR2023107-23б. УСУ2022100-317. IS3596-318. ABOVE10149409. BUDGET111781-1610. IT6880-1611. IS2576-3112, ТО7973-4613^ WOULD0372-3114. -34572015, FIGURE172169-38Слева направо16. TOTAL - ED71?1971017. FIGURE1724182018. WHAT03178019. PIOURE1722178-3820. TOTAL711174-1021, FIGURE1723169-5322. HJDGET1117154-1623. VKAH2023107-2324. YOU2022100-3125. IS3596-3126. FIGURE - ED172389-3827. FIGURE172883028. BUDGET111781-1629. IT6880-1630. HIS2576-31
Список представляет 30 возможных слов при сканировании справа и слева, позиции правой и левой конечных сегментов слова, очков, которые получило данное слово при сравнении эталонов с участками входной реализации на местах между начальной и конечной точками гипотезируемого слова, логарифма вероятности произнесения данного слова. Список может описывать некие специфические свойства, связанные с произношением (здесь всюду пропуски - -), а также показывать, справа или слева производилось сравнение с эталоном (здесь показатели R и L).
Анализ списка гипотезируемых слов показывает, что больше всего очков набрало слово totaled (при сканировании слева направо). Бто слово занимает в словесной решетке позицию от сегмента 7 до сегмента 12 и имеет вес 197. Для этого слова соа-
39
дается однословная гипотеза, которую должна расширить синтаксическая процедура. Но прагматическая грамматика не позволяет формировать фразу с этим словом в прошедшем времени. Следовательно, никакого предсказания о возможном контексте с этим словом сделано Сыть не может. Следует перейти к следующему (по оцен. не в очках) слову figure . Отметим, что существует семь различных сравнений с этим словом примерно в гом же месте высказывания, немного отличающихся очками.(Это объясняется различными фонологическими эффектами на концах слова, возможностями различной сегментации в сегментной решетке и различными возможными произнесениями этого слова, отраженными в эталонном фонетическом графе; в кашем случае все связано с неопределенностями сегментации этого слова в конце.) Вообще говоря, то, что одно слово встречается в списке вероятных кандидатов несколько раз, является хорошим признаком того, что это слово действительно присутствует в высказывании,
Чтобы избежать избыточной обработки, авторы вводят понятие "нечеткого словесного сравнения", которое обобщает сравнение с эталоном одного и того же слова, появившегося примерно в том же месте. Всегда, когда слово-кандидат подобно figure встречалось несколько раз, при расширении гипотезы используются нечеткие границы. Итак, для слова figure предлагается расширить гипотезу.
При обработке предложенного слова (с примерно известными границами) процедура Syntax подбирает слово виос-зт, заканчивающееся позицией 17. В прагматической грамматике hwim слово budget может использоваться лишь в словосочетании budget figure и, так как это словосочетание находится в конце предложения, никаких слов справа больше не будет. Блок управления использует далее найденное словосочетание в качестве расширенного "островка надежности" для поиска слов от позиции II до начала высказывания.
Обращаясь к синтаксической процедуре, блок управления обнаруживает, что прагматическая грамматика допускает еще несколько слов, кроме слов из списка, рассмотренного ранее, для расширения этой гипотезы. 9то связано с тем, что служебные слова,которые могут стоять перед словосочетанием budget. figure , имеют слишком небольшой вес (очки). В результате сравнения сегментов, расположенных слева от слова budget , и эталонов слов, допускаемых прагматической грамматикой, получают новый список, расширяющий предыдущий (в списке остаются лишь слова, оценки которых превышают <DU очков):
40
33. OF 10 11 4 , - 16 - - Н
34. А 10 11 4 - 16 - - R
35. THE 911 -105 - 16 - - R
36. THE 9 11 -105 - 16 - - R
37. OUR 10 11 -123 - 31 - - R 3°. THE 9 11 -135 - 16 - - R
39. - S 10 11 -140 0 - - R
40. ANO 9 11 -163 - 26 - - R
41. OUR 911 -169 - 46 - - R
42. ME 9 11 -189 - 46 - - R
Каждое из этих слов может расширить гипотезу budget figure слева. Посмотрим, что выберет блок управления. Наиболее подходящим (см. позиции 3 и ЯО) оказывается слово total ,которое используется лишь с определенным артиклем THE. Таким образом, -удалось объединить уже четыре слова THE TOTAL budget figure, для которых синтаксическая процедура в словесной решетке отмечает слова "is" и " s ", найденные при первоначальном сканировании ( - s- укороченный глагол-связка, допускаемый правилами произношения). Синтаксис также предлагает и некоторые другие слова, но их оценки (очки) меньше 100, тогда как is имеет вео 96 (см. позицию 7). Поэтому переходим к новой гипотезе IS the total budget figure и пытаемся ее расширить. При расширении гипотезы синтаксическая процедура "подсказывает" слова what и но'.'? ыасн. Процедура лексического поиска выбирает для начального участка высказывания слово v/hat с оценкой 176 очков и формирует окончательную гипотезу what IS the total budget figure. Процедура "синтаксис" производит в заключение полный грамматический разбор этой фразы.
Описанная "островковая" стратегия интерпретации высказывания одна из нескольких, реализованных в системе hwim . Другие стратегии используют словесную верификацию на параметрическом Уровне, предсказание слов на уровне диалога, просодическую информацию и т.д.