Проектирование систем управления документамиРефераты >> Делопроизводство >> Проектирование систем управления документами
количестве релевантных документов, т.е. характеризуется соотношением между
всей релевантной информацией, имеющейся в базе, и той ее частью, которая
включена в ответ и рассчитывается по формуле:
Если в области поиска на самом деле имеется 100 документов,
содержащих нужную информацию, а по запросу найдено из них всего 30, то
полнота поиска равна 30%.
Кроме этого при оценке поисковых систем учитывается, с какими
типами данных может работать та или иная система, в какой форме
представляются результаты поиска и какой уровень подготовки пользователей
необходим для работы в этой системе.
Следует отметить, что точность поиска и его полнота зависят не только
от свойств поисковой системы, но и от правильности построения конкретного
запроса, а также от субъективного представления пользователя о том, какая
нужна ему информация. Если стоит проблема оценки нескольких систем и
выбора наиболее эффективной, можно вычислить средние значения полноты и
точности рассматриваемых конкретных систем, протестировав их на эталонной
базе документов.
Индексация документов (т.е. составление ПОД), которая означает
предварительную подготовку текстов для поиска и применяется главным
образом для ускорения поиска; как правило, текстовые базы данных,
предназначенные для многократного поиска, обрабатывают заранее, составляя
так называемый индекс (ПОД). При индексации поисковая система составляет
списки слов, встречающихся в тексте, и приписывает каждому слову его код -
координаты в тексте (чаще всего номер документа и номер слова в документе).
При поиске слово ищется в индексе, и по найденным координатам выдаются
нужные документы. Если слов в запросе несколько, над их координатами
производится операция пересечения. В том случае, если множество документов
пополняется, приходится пополнять и индекс.
Единица поиска - это квант текста, в пределах которого в данной
поисковой системе осуществляется поиск, от величины которого зависит
показатель точности поиска, величина шума и время ответа на запрос.
Единицей поиска может быть документ, предложение или абзац.
В технологии использования ИПС можно выделить три группы операций:
- операции, связанные с получением поисковых образов документов (ПОД),
описывающих содержание документов и загрузкой их в базу данных (БД
ПОД), а также загрузкой самих документов или их адресов хранения в
БДДок и БДАдр.;
- операции составления поисковых образов запроса (ПОЗ) с использованием
тезауруса, поиска и выдачи результатов на просмотр и отбор или файл или
на печать найденных документов или списка адресов;
- операции ведения информационно-поисковой системы, включающие
актуализацию БД ПОД, БДДок., БДАдр. и тезауруса вследствие
возникновения и необходимости пополнения памяти системы новыми
документами или ключевыми словами.
В состав операций ведения ИПС входит также процедура выдачи
справок о работе системы, о ее структуре, методах поиска и классах и видах
хранимых u1076 документах.
6.3. Классификация и характеристика методов поиска
Одной из проблем организации СУД является выбор метода поиска и
разработка или выбор программного обеспечения, что в значительной степени
зависит от применяемых методов индексирования. Как было сказано выше,
индексирование загружаемой на хранение информации может осуществляться
по ключевым словам, по атрибутам документа либо путем создания
полнотекстового индекса. Суть последнего подхода заключается в том, что при
создании индексного файла (индексированной матрицы) в него вносятся все
значимые слова (без союзов, предлогов и т. п.) из всех документов в
алфавитном порядке, которые затем объединяются в пары с указателями на
документы, содержащие эти слова.
Задача поиска нужного документа формулируется так: зная примерные
характеристики документа, нужно найти его, где бы он ни хранился.
Характеристики документа могут быть как внешние (атрибуты документа):
название, время создания, автор, размер документа, местонахождение и др., так
и внутренние (содержание документа): заголовок, текст документа. Как
правило, осуществляют поиск документов по совокупности внешних и
внутренних характеристик, но если документов много, и если необходимо
осуществлять поиск документов, согласно ситуации, то нужный документ
отыскивают по его содержанию (тексту), а не по реквизитам (атрибутам).
Существует несколько методов поиска документов по содержанию.
Традиционные подходы к организации поиска информации можно разделить на
три группы: методы индексного (или двоичного) поиска, статистические
методы и семантические методы, основанные на базах знаний. Рассмотрим
некоторые из них.
Индексный, или двоичный, поиск применятся главным образом со
структурированными базами данных. В таких методах слова
интерпретируются как последовательности закодированных символов.
Используя формальный синтаксис, или язык запросов, система двоичного
поиска выбирает точное соответствие для отдельного слова или цепочки слов.
Это самый простой вид поиска документа по содержанию, но и самый
слабый вид поиска, что выражается в малой полноте (это означает, что редко
удается найти нужный документ).
Недостатки. Системы двоичного поиска имеют ограничения по
точности, влияющие на возможность нахождения всей относящейся к запросу
информации. В методах двоичного поиска не учитываются различные формы
значения слов; пользователю непросто угадать точные слова и фразы, которые
были использованы авторами в документах. Системы двоичного поиска не
могут также ранжировать документы по степени соответствия запросу,
поэтому пользователь вынужден читать каждый документ, чтобы определить,
на сколько он соответствует запросу.
Повышению полноты поиска по строке служат такие стандартные
средства, как отождествление заглавных и малых букв и использование
метасимволов, наподобие * (что означает любое количество каких-либо
символов).
Другим способом повышения полноты поиска служит поиск слов в
разных грамматических формах. Почти любое русское слово — это набор из
нескольких словоформ. Для среднего русского существительного таких форм
двенадцать — одна основная и 11 косвенных (6 падежей единственного и 6 —
множественного числа). У русского глагола косвенных форм — порядка 100 (а
если считать причастия, то и все 180). В процессе словоизменения общий
смысл слова остается тем же, изменяется только форма и роль слова в
предложении. Нужен так называемый морфологический поиск, то есть поиск,
опирающийся на знание морфологии языка, поскольку в языке есть еще и
процессы словообразования, в ходе которых образуются «родственники» слова