Яндекс - основные сведения по популярному индексуРефераты >> Коммуникации и связь >> Яндекс - основные сведения по популярному индексу
Проверяйте, проиндексирован ли ресурс, не сразу, а через несколько дней после добавления в базу Яндекса.
Как добавить свою страницу или сайт?
Как Яндекс узнает о новых страницах и серверах? Есть два способа - или владельцы ресурсов сами добавляют сайты (заполнив форму AddURL на http://yandex.ru/addurl.html или послав письмо на addurl@yandex.ru), или робот сам находит новые ссылки в уже проиндексированных страницах. Обычно робот берет со страницы сервера ссылки на последующие страницы и таким образом перебирает все ссылки.
Яндекс индексирует российскую сеть, поэтому в поисковую машину вносятся сервера в доменах su, ru, am, az, by, ge, kg, kz, md, ua, uz. Остальные сервера вносятся, только если на них найден текст на русском языке, или если владельцы ресурсов убедят администрацию поисковой машины в том, что их сервер интересен пользователям русскоязычного Интернета (это обычно делается письмом на addurl@yandex.ru).
Как быстро моя страница появится в Яндексе?
Обычно страницы появляются в поисковой базе в течение недели после их появления или изменения. Новые страницы, внесенные в базу с помощью AddURL, появятся быстрее (если они находятся в русскоязычной части сети и не требуют ручной проверки). Сотрудники Яндекса не могут ускорить добавление страницы в поисковую базу.
Если вы не находите свою страницу, пожалуйста, проверьте в AddURL, включена ли она в базу Яндекса. Для этого надо попробовать добавить ее еще раз.
Если вы получили сообщение, что «Ваш URL url был только что внесен в нашу базу данных.», это значит, что ваш URL ранее не был добавлен. Теперь он добавлен и будет проиндексирован в ближайшее время.
Если вы получили сообщение «Ваш URL url уже известен роботу Яндекса. Данный ресурс будет проиндексирован в ближайшее время.», то подождите еще пару дней.
Если вы получили сообщение «Ваш URL url уже проиндексирован. Вы можете посмотреть, какие страницы вашего сайта проиндексированы в Яндексе к настоящему времени», то, нажав на ссылку со слов «проиндексированы в Яндексе», вы получите весь список документов вашего ресурса, проиндексированных в нашей поисковой машине.
В дальнейшем робот будет самостоятельно (автоматически) находить новые и измененные документы. Причем частота обхода конкретного сервера зависит от зафиксированной роботом частоты изменения его страниц.
Моя страница «переехала» или сайт поменял структуру — как внести изменения?
Если у вашей страницы изменился адрес, то достаточно внести ее новый адрес в Яндексе на странице AddURL. Изменения уже проиндексированных страниц Яндекс отследит самостоятельно, ничего специально делать не требуется. Старые страницы (даже если они уже удалены на самом сервере) будут находиться в базе вплоть до очередной переиндексации и вручную сотрудниками Яндекса не удаляются. Вы можете ускорить процесс удаления их из базы, воспользовавшись формой на странице http://www.yandex.ru/removeurl.html
Страница описана неверно, как это исправить?
Мы часто получаем письма вроде «Я не заносил в вашу систему мой ресурс, и он описан неправильно. Как мне исправить положение?». Или «Зарегистрируйте, пожалуйста, мой сайт (URL) со следующими ключевыми словами .».
Обратите внимание на то, что Яндекс — это и поисковая система, и каталог. Поэтому уточняйте, какое описание вы имеете в виду.
Если речь идет о поисковой системе, то она полнотекстовая, то есть в индекс попадают (и становятся доступными для поиска) те и только те слова, которые написаны на страницах вашего сайта.
Поэтому описание страницы не может быть внесено неправильно, так как оно берется из самого документа. Поэтому же не имеет смысла присылать нам список ключевых слов.
В списке результатов поиска после адреса страницы выводится текст, который состоит из заголовка (тэг <title>), описания (тэг <meta name="Description" content="">) или начала документа (если этого тэга нет) и контекстов - фрагментов вашего текста, содержащих слова запроса. Если страница не находится по тем словам, по которым вам бы хотелось, или находится не в первых рядах списка, обратите внимание на нижеследующие советы.
Если же речь идет о каталоге Яндекса, то все описания в нем делаются составителями (гидами) по строгим инструкциям. Так, например, запрещены тексты рекламного характера, слова «самый», «главный», «уникальный», прилагательные в превосходных степенях и т.дю
13. Индексирование
Когда Яндекс обнаруживает новую или измененную страницу, он ее индексирует. В процессе этого страница разбивается на элементы (текст, заголовки, подписи к картинкам, ссылки и так далее), содержание которых заносится в индекс. При этом учитываются позиции слов, то есть их положение в документе или его элементе. Сам документ в базе не хранится.
Яндекс создает очень компактный индекс.
Индексирование документов
Правила индексации в машине Яндекс
Яндекс индексирует страницы по их истинным адресам. Это значит, что, если на странице стоит redirect, робот воспримет его как ссылку на новый адрес и внесет ее в очередь на индексирование (если она удовлетворяет описанным выше правилам). То же самое произойдет, если в одном из фреймов будет стоять ссылка на другой сервер. В частности, если эта ссылка находится вне доменов, разрешенных по умолчанию, страница НЕ будет проиндексирована. Робот Яндекс хранит дату последнего обхода каждой страницы, дату ее изменения (присланную Web-сервером) и дату внесения последних изменений в базу поиска (дату индексации). Он оптимизирует обход Сети таким образом, чтобы чаще посещать наиболее изменяемые сервера. Робот Яндекс работает автоматически и обычно переиндексация происходит раз в две-три недели.
Изменения уже проиндексированных страниц робот Яндекс отслеживает самостоятельно при следующем заходе на сайт. У робота свой график работы и изменить его, к сожалению, невозможно, в том числе применяя такие тэги, как
<META NAME="REVISIT-AFTER" CONTENT=" DAYS">.
Яндекс индексирует документ полностью: текст, заголовок, подписи к картинкам, описание (description), ключевые слова и некоторую другую информацию.
Как запретить индексацию определенных страниц?
Разрешения и запрещения на индексацию берутся всеми поисковыми системами из файла robots.txt, находящегося в корневом каталоге сервера. Запрет на индексацию ряда страниц может появиться, например, из соображений секретности или из желания не индексировать одинаковые документы в разных кодировках. Чем меньше ваш сервер, тем быстрее робот его обойдет. Поэтому запретите в файле robots.txt все документы, которые не имеет смысла индексировать (например, файлы статистики или списки файлов в директориях). Обратите особое внимание на CGI или ISAPI скрипты - наш робот индексирует их наравне с другими документами.
В простейшем виде (разрешено все, кроме директории скриптов) файл robots.txt выглядит следующим образом:
User-Agent: *
Disallow: /cgi-bin/
Детальное описание спецификации файла можно прочитать на странице: «Стандарт исключений для роботов».