Проектирование систем управления документамиРефераты >> Делопроизводство >> Проектирование систем управления документами
невозможности автоматической индексации и низкой производительности при
определении ключевых слов вручную;
- предполагается, что пользователи будут осуществлять поиск информации
предсказуемым способом, используя предопределенные ключевые слова;
- поиск по ключевым словам - это четкий поиск, - пользователь точно должен
знать, что он ищет. Если сделана ошибка при написании ключевого слова в
запросе для поиска, система никогда не найдет нужную информацию;
- ключевые слова могут со временем меняться (понятия, которые были
"ключевыми" вчера, вовсе не обязательно будут столь же важны через год).
В силу вышеперечисленных причин данный класс систем имеет
ограниченное применение для хранения и поиска документов в
специализированных архивах конкретных организаций или используется для
хранения и поиска книг в библиотеках различного типа.
Простейшие средства поиска документов по содержанию входят в
состав текстового процессора Microsoft Word. Как и большинство других
стандартных средств, эта функция ищет заданный текст только буквально, т. е.
требует полного соответствия текста запросу и при этом ничего не знает о
большом разнообразии u1092 форм русских слов. Если, например, проводится поиск
по фразе из пяти слов, то будут найдены только тексты, содержащие каждое из
них, причем именно в заданной форме. Поэтому в случае, когда пользователь
помнит содержание нужного документа только в общем (а так чаще всего и
бывает), подобные средства поиска малоэффективны.
Аналогичные проблемы возникают при поиске текстовой информации в
Internet, которая располагает большим количеством поисковых систем
(например, AltaVista, HotBot, InfoSeek и др.), обеспечивающих доступ к
десяткам миллионов документов. Возможности поиска здесь, конечно, намного
более развитые, чем в Microsoft Word, однако говорить о высокой
эффективности также не приходится. Можно отметить следующие основные
недостатки стандартных поисковых средств и поисковых систем Internet:
1. отсутствие поиска на частичное совпадение - так называемого нечеткого
поиска (находятся только документы, содержащие все слова запроса,
поэтому достаточно одно слова запроса заменить на синоним, и нужный
документ не будет обнаружен);
2. отсутствие так называемого морфологического анализа (например, слова
bond и bonds при поиске считаются разными);
3. низкое качество ранжирования (упорядочивания) документов по убыванию
степени соответствия запросу - в начале списка часто оказываются
документы, не отвечающие запросу, а нужные документы выдаются после
них;
4. высокий уровень шума: случается, пользователю предлагаются документы,
не содержащие ни одного слова запроса;
5. при выдаче документов никак не выделяются вхождения слов запроса в
просматриваемый документ, что в совокупности с низким качеством
ранжирования приводит к большим затратам времени при анализе
найденных документов.
В настоящее время получили массовое применение системы второй
категории, опирающиеся на автоматизированный полнотекстовый ввод,
загрузку документов в архив и осуществляющие поиск по полнотекстовому
индексу. Технология работы этих систем основана на автоматизированном
вводе документов и чтении их с помощью сканера, преобразовании
графических образов в текстовые файлы. Поиск информации в таких системах
происходит с использованием семантических, статистических методов и с
применением механизмов полнотекстового поиска (Full Text Retrieval.).