Машины, которые говорят и слушаютРефераты >> Кибернетика >> Машины, которые говорят и слушают
УДК 621.391
Рассмотрены современныэ тенденции развития систем автоматического распознавания и синтеза речевых сигналов. Освещены проблемы построения алгоритмов распознавания в неадаптивных системах речевого управления. Описаны эксперименты по созданию систем автоматического речевого запроса экономической информации с элементами автоматического обучения.
Книга рассчитана на научных работников, инженеров и студентов, специализирующихся по технической кибернетике и теории информации.
Работу рецензировали и рекомендовали к изданию:
академик АН СССР А.А.Дородницын кандидат физико-математических наук М.Н.Маричук© Издательство "Штиинца",1985 г.
О I5Q3000000 - 62 39-85 M755(I2) - 85
ВВЕДЕНИЕ
Проблема реализации речевого диалога человека и технических средств - актуальная задача современной кибернетики. В настоящее время пользователями вычислительных машин и средств, оснащенных вычислительными машинами, становятся люди, не являющиеся специалистами в области программирования. Особенно актуальной стала задача общения человека и ЭВМ с появлением микропроцессоров и больших интегральных схем. Новая технология оказала прогрессивное влияние на психологию как разработчиков современных многопроцессорных ЭВМ .так и неспециалистов-пользователей,не подготовленных к тому, чтобы пользоваться сложной функциональной клавиатурой, языком программирования, комплексными средствами управления техникой. Проблема речевого управления возникла, кроме того,в связи с тем, что в некоторых областях применения речь стада единственно возможным средством оощения с техникой (в условиях перегрузок, темноты или резкого изменения освещенности,при занятости рук, чрезвычайной сосредоточенности внимания на объекте, который не позволяет отвлечься ни на секунду, и т.д.).
Массовое внедрение различных бытовых технических средств, содержащих микропроцессоры и другие большие интегральные схемы, в частности, сложных микрокалькуляторов, пег-зональных ЭВМ, также требует упрощения, "демократизации" систем управления такими средствами. Мы должны пользоваться новой сложной техникой так же, как пользуемся часами, радиоприемником, стиральной машиной.Приближается время, когда будут созданы "механические слуги" человека - роботы, помогающие в быту, выполняющие работу по уборке помещения, оказывающие помощь в сельскохозяйственных и строительных работах и т.д. Безусловно, человек будет заинтересован в голосовом управлении сложной бытовой техникой и в конечном счете такими роботами.
Ближайшие перспективы развития вычислительной техники, создание высокопроизводительных ЭВМ пятого поколения, надеденных способностью анализировать зрительные и звуковые образы, также
3
требуют того, чтобы задачи автоматического распознавания и синтеза речевых сигналов не оставались без внимания. Невозможно предположить, чтобы вычислительные системы обладали производительностью в десятки и сотни миллионов операций в секунду и в качестве вводных устройств использовали традиционную клавиатуру дисплея, перфоленты или перфокарты.
В первой главе рассматривается современное состояние автоматического распознавания и синтеза речевых сигналов (по публикациям до 1981 г. включительно). Отмечается возрастающий поток публикаций по этим проблемам, причем многие работы посвящены вопросам практического построения систем распознавания и синтеза речи на специализированных микроЭВМ. В настоящей монографии не нашли отражение работы, опубликованные после 1981 г., так как материалы к публикации готовились в основном до бтого времени. (южно лишь отметить, что за 1982 и 1983 гг. практическое направление работ в области автоматического распознавания и синтеза речи интенсифицировалось. В нашей стране появились первые промышленные системы автоматического ввода/вывода речевой информации - "ИКАР", разработанная в НИИСчетмаше (г.Москва), СРД-1,изготовленная в ОКБ Института кибернетики АН УССР им. В.М.Глушко-ва, и Марс, созданная Минским отделением ЦНИИС. Эти системы,широко демонстрировавшиеся на ВДНХ и других промышленных выставках, обладают примерно сходными техническими характеристиками -они обучаются, настраиваются на голос конкретного пользователя и словарь, достигающий йОО слов, и обеспечивают точность распознавания около 95& и реальное время распознавания. В качестве метода, обеспечивающего нелинейное сравнение входных реализации и эталонов, используется динамическое программирование. Большие успехи в области создания систем такого рода достигнуты также в QUA и Японии. В США с 1982 г. начал выходить специальный журнал Speech Technology (Речевая технология), в котором описываются области применения промыиленных систем распознавания и синтеза речи, их тестирование, технические характеристики и технологические особенности.
В монографии основное внимание уделяется описанию систем распознавания речи, работающих без предварительной настройки на диктора. Авторы в течение ряда лет совместно работали над этой проблемой в Вычислительном центре Академии наук СССР.Идеология неадаптивных систем распознавания сложилась еще в 60-е гг.-в совместных разработках Вычислительного центра и Института проблем передачи информации АН СССР. Но основные результаты, описанные в книге, получены авторами в конце 70-х - начале 80-х гг.
Глава 1
СОВРЕМЕННЫЕ ТЕНДЕНЦИИ РАЗВИТИЯ ПРОБЛЕМЫ РЕЧЕВОГО ВЗАИМОДЕЙСТВИЯ «ЧЕЛС ВЕК - ЭВМ»
§ I.I. Некоторые аспекты исследования речевых сигналов на современном этапе
В 70-х гг. повысился интерес к проблемам исследования речи. Это связано с возросшими успехами дискретной обработки сигналов на современной микроэлектронной технике и широким распространением микроЭВМ и мультимикроцессорньк систем, появление которых означало революцию в информатике. Научные достижения в области автоматического распознавания и синтеза речи поставили вопрос о практическом общении человека с миром мощных по своей производительности и возможностям микроЭВМ на языке, близком к естественному. Сложнейшая техника приблизилась к пользователю-неспециалисту, и пользователь "потребовал", чтобы общение о ЭВМ (в частности, с информационными и управляющими ЭВМ) производилось на более привычном ему естественном языке.
В связи с этим привлекли внимание работы по созданию первых промышленных устройств ограниченного речевого ввода и вывода информации, а также достаточно широко разрекламированных систем автоматического понимания естественной, слитной речи, над которыми работали в ОДА в течение I972-I976 гг. по проекту айра.
Следует отметить, что автоматическое распознавание и синтез речи - не единственное в речевых исследованиях, что привлекает внимание специалистов и возможных потребителей.
Наряду с автоматическим распознаванием смысла сообщения и синтезом речи (проблемами, которым в основном и посвящена настоящая монография), исследователи речевых сигналов успешно решают задачи: автоматического распознавания личности говорящего (т.е. решают задачу, кто это сказал), автоматической верификации говорящего (подтверждение, тот ли конкретный человек произнес эту фразу), оценки по голосу эмоционального состояния оператора,распознавания речи, произносимой в другой воздушной среде (гелиевая речь), определения по речевому сигналу патологии органов речеобразования, разработки более совершенных методов преподавания иностранных языков (выработка правильного акцента и интонации по картине "эталонных" параметров речевого сигнала ), помощи лицам