Анализ Internet-ресурсов по вопросам
Рефераты >> Программирование и компьютеры >> Анализ Internet-ресурсов по вопросам

По каждому запросу проводился поиск во всех сравниваемых поисковых машинах. Решение о релевантности или нерелевантности документа принимается после просмотра его полного текста, а не аннотации, выдаваемой в результатах поиска по запросу.

На основе полученных оценок релевантности применительно к каждой машине формируется характеристическое множество запроса - значения точности, полученные при разном количестве документов из начальной части списка найденных документов.

Пример. Характеристическое множество содержит 5 элементов - значения точности при 10, 30, 50, 70, 100 документах из начальной части списка найденных документов. При такой структуре характеристического множества эксперт должен принять решение о релевантности первых 100 из найденных документов. Предположим, что для одной из сравниваемых поисковых машин число документов - 10, из них релевантных 8, точность 8/10, первый член характеристического множества запроса - 0,8. Релевантность поиска по запросу вычисляется с учетом весовых коэффициентов. Задан следующий набор весов элементов характеристического множества запроса: (5, 4, 3, 2, 1). И пусть запрос имеет характеристическое множество (0,8; 0,5; 0,46; 0,43; 0,4). Тогда средняя релевантность равна: 0,8*5/15 + 0,5*4/15 + 0,46*3/15 + 0,43*2/15 + 0,4*1/15 = 0,267 + 0,133 + 0,092 + 0,057 + 0,027 = 0,576. Далее происходит вычисление средней релевантности поиска по всем запросам, которая и представлена в таблице выше.

Об исследовании других характеристик поисковых машин.

Небезынтересны оценки (http://www.metabot.ru/engines.html) роботов-пауков ведущих поисковиков от создателей Metabot.ru, особенно в той части, где "Апорт" и "Рамблер" они относят к "локальным системам, со схемой выборочной индексации".

Исследования полноты поисковых систем заведомы неточны. Совершенно очевидно, что при том объеме базы, что имеется у "Яндекса", он является самой полной системой, независимо от того, как отслеживаются дубли в разных поисковиках. Определение полноты индексирования путем поиска некоторых образцовых документов в каждой из сравниваемых поисковых машин (еще одна очень сложная методика Харина) привело к следующим результатам.

"Апорт"

"Рамблер"

"Яндекс"

Google

0,40

0,53

0,60

0,47

Полнота 0,53 для "Рамблера" означает, что из 15 документов, отобранных "Яндексом", "Апортом" и Google, "Рамблер" находит 8 документов.

Поскольку данная методика выглядит отчасти "от лукавого", предлагаю читателю ориентироваться на методику Сегаловича. Она заключается в том, что наугад берется N редких слов, настолько редких, чтобы было легко проверить весь результат их поиска. Потом сравнивается количество найденных релевантных документов по каждому слову. Усредненные результаты представлены в таблице. Надо отметить, что подобные оценки проводятся с конца прошлого года (первоначально самим Ильей Сегаловичем, главным разработчиком "Яндекса"), однако соотношения получаются практически идентичными.

"Апорт"

"Рамблер"

"Яндекс"

Google

Fast

50%

30%

100%

31%

30%

Google вычисляет ранг матрицы 400 млн x 400 млн, причем последовательно. Российские поисковые машины еще не обладают такими вычислительными мощностями.

Пример. Для оценки корректности вычисления Page Rank можно использовать тест Носика: при запросе "Мастер и Маргарита" первой в выдаче должна получаться начальная страница названного романа в "Библиотеке Мошкова" (как это и происходит в Google). В "Апорте" тест выполняется правильно, в "Яндексе" искомый результат получается в выдаче шестым (тест давал устойчивый результат в промежутке 24.05 - 19.06). Кстати, нарцисстический тест (то есть запрос "Андрей Травин") давал в "Апорте" почти правильный ответ (вторым в выдаче "Апорта" идет первый ответ из Google, и это незначительное искажение имеет очевидные причины), в "Яндексе" получается неправильный, по сравнению с Google результат.

Отечественные поисковые машины на пьедестале почета

В нынешнем положении российских поисковиков стоит отметить две оптимистические для них тенденции. Первая - поисковики в Рунете популярнее каталогов-классификаторов. Согласно исследованиею "SpyLOG - Глобальная статистика", для средних и малых сайтов вклад поисковых систем уже в 2 раза превышает суммарный вклад каталогов и рейтингов.

Вторая (по порядку, а не по значению) - порог выхода на рынок поисковых систем довольно высок, значительно выше, чем на рынок счетчиков, и сравним с порогом выхода на рынок развесистых электроных энциклопедий. Иллюстрацией этого тезиса может служить новичок - Lupa.ru, напоминающий поисковую машину только издали.

Почему важна вторая тенденция? Любой потенциально массовый рынок осваивают первые компании-лидеры. Предположим, что среди них есть три, которые совместно держат 80 процентов этого рынка. В абсолютных величинах они пока охватывают всего 2-5 процентов населения. Вероятность, что эти три компании удержатся в лидерах, к тому моменту, когда рынок будет размером хотя бы в 30 процентов населения, прямо зависит от базовой характеристики рынка. Если рынок невысокотехнологичный, шансы у первопроходцев задавать тон в своей нише не очень высоки. Если высокотехнологичный, то шансы весомы (пример - Intel). В целом Интернет не является высокотехнологичным рынком и поэтому на нем будет постоянно происходить смена главных игроков. Поисковые системы одна из высокотехнологичных ниш в отрасли. Лидерство поисковых машин определяется сравнительно сложными технологиями, полнотой базы, большим парком компьютеров и привычками пользователей. В настоящее время в России разрабатывается или уже разработано около 10 поисковых машин, некоторые из них (к примеру, Punto.ru) стартовали. Их база такова, что найти ими практически ничего нельзя. Поскольку колонка эксперта пишется без учета журналистских принципов спортивной справедливости, а только о тех аспектах, что определяют погоду на рынке, перечислять всех крошечных конкурентов трех ведущих поисковиков я не буду: герои настоящего обзора еще продолжительное время побудут на воображаемом пьедестале почета.

Однако важно отметить, что наиболее вероятные перспективы "Апорта" - быть затоптанным слоновьей поступью Golden Telecom, как это случилось с Infoart, Atrus, Emedia и множеством других сайтов.


Страница: