Проектирование систем управления документами
Рефераты >> Делопроизводство >> Проектирование систем управления документами

невозможности автоматической индексации и низкой производительности при

определении ключевых слов вручную;

- предполагается, что пользователи будут осуществлять поиск информации

предсказуемым способом, используя предопределенные ключевые слова;

- поиск по ключевым словам - это четкий поиск, - пользователь точно должен

знать, что он ищет. Если сделана ошибка при написании ключевого слова в

запросе для поиска, система никогда не найдет нужную информацию;

- ключевые слова могут со временем меняться (понятия, которые были

"ключевыми" вчера, вовсе не обязательно будут столь же важны через год).

В силу вышеперечисленных причин данный класс систем имеет

ограниченное применение для хранения и поиска документов в

специализированных архивах конкретных организаций или используется для

хранения и поиска книг в библиотеках различного типа.

Простейшие средства поиска документов по содержанию входят в

состав текстового процессора Microsoft Word. Как и большинство других

стандартных средств, эта функция ищет заданный текст только буквально, т. е.

требует полного соответствия текста запросу и при этом ничего не знает о

большом разнообразии u1092 форм русских слов. Если, например, проводится поиск

по фразе из пяти слов, то будут найдены только тексты, содержащие каждое из

них, причем именно в заданной форме. Поэтому в случае, когда пользователь

помнит содержание нужного документа только в общем (а так чаще всего и

бывает), подобные средства поиска малоэффективны.

Аналогичные проблемы возникают при поиске текстовой информации в

Internet, которая располагает большим количеством поисковых систем

(например, AltaVista, HotBot, InfoSeek и др.), обеспечивающих доступ к

десяткам миллионов документов. Возможности поиска здесь, конечно, намного

более развитые, чем в Microsoft Word, однако говорить о высокой

эффективности также не приходится. Можно отметить следующие основные

недостатки стандартных поисковых средств и поисковых систем Internet:

1. отсутствие поиска на частичное совпадение - так называемого нечеткого

поиска (находятся только документы, содержащие все слова запроса,

поэтому достаточно одно слова запроса заменить на синоним, и нужный

документ не будет обнаружен);

2. отсутствие так называемого морфологического анализа (например, слова

bond и bonds при поиске считаются разными);

3. низкое качество ранжирования (упорядочивания) документов по убыванию

степени соответствия запросу - в начале списка часто оказываются

документы, не отвечающие запросу, а нужные документы выдаются после

них;

4. высокий уровень шума: случается, пользователю предлагаются документы,

не содержащие ни одного слова запроса;

5. при выдаче документов никак не выделяются вхождения слов запроса в

просматриваемый документ, что в совокупности с низким качеством

ранжирования приводит к большим затратам времени при анализе

найденных документов.

В настоящее время получили массовое применение системы второй

категории, опирающиеся на автоматизированный полнотекстовый ввод,

загрузку документов в архив и осуществляющие поиск по полнотекстовому

индексу. Технология работы этих систем основана на автоматизированном

вводе документов и чтении их с помощью сканера, преобразовании

графических образов в текстовые файлы. Поиск информации в таких системах

происходит с использованием семантических, статистических методов и с

применением механизмов полнотекстового поиска (Full Text Retrieval.).


Страница: