директивы robots.txt

Про файл robots.txt в интернете много написано.. несмотря на наличие “стандарта” (http://www.w3.org/TR/REC-html40/appendix/notes.html#h-B.4.1.1 - приложение к HTML40), некоторые поисковые боты используют дополнительные недокументированные возможности - директивы robots.txt

Про “основную” (всё-таки стандарт исключений роботов) директиву Disallow:

# Для яндекса
User-agent: Yandex
# запрещаем индексацию каталога /en/ -
Disallow: /en/
# для всех остальных роботов
User-agent: *
# запрещаем индексацию каталога /cgi-bin/ (от корня)
Disallow: /cgi-bin/
# ИЛИ! разрешаем индексировать весь сайт - оставляем директиву пустой
Disallow:

Также поисковикам (в частности, Яндексу) можно указать, какую часть страницы не индексировать, используя валидный тэг noindex

Директивы, которые не входят в стандарт, но поддерживаются некоторыми поисковыми ботами (точную информацию о поддержке той или иной директивы robots.txt лучше узнавать в разделе помощи документации к соответствующему поисковому сервису.. Для яндекса - это раздел help в сервисе webmaster


###################
# SEO-директивы, склейки адресов/зеркал
# намекаем поисковым роботам, что у сайта есть sitemap
Sitemap: http://site.ru/my_sitemap1.xml
# и ещё второй, т.к. в первый всё не влезло
Sitemap: http://site.ru/my_sitemap2.xml
# убираем незначимый параметр ref (реферер) в разделе catalog/
Clean-param: ref /catalog/
# убираем незначимый параметр from для всего сайта
Clean-param: from
# указываем основное зеркало
Host: www.main-mirror.ru
###################
# управляем нагрузкой от поисковиков
# пауза в 5 секунд между запросами от поискового робота
Crawl-delay: 5
# директивы из расширенного стандарта Robots.txt - работают ли(?)
# http://www.conman.org/people/spc/robots2.html
# загружать не более одной страницы за пять секунд
Request-rate: 1/5
# загружать страницы только в промежуток с часу ночи до 8:00 по Гринвичу.
Visit-time: 0100-0800
###################

Следует помнить, что редирект со скрытием реферера может не индексироваться поисковиками. И вообще, некоторые редиректы лучше скрывать от поисковиков.

Директивы файла robots.txt иногда добавляются отдельными поисковиками, поэтому скорее всего, список далеко не полный. Однако, по мере возможности и интереса буду поддерживать информацию в актуальном состоянии.. Если есть пожелания - сообщайте в комментариях, буду дополнять…

Автор будет признателен, если Вы поделитесь ссылкой на статью, которая Вам помогла:
BB-код (для вставки на форум)

html-код (для вставки в ЖЖ, WP, blogger и на страницы сайта)

ссылка (для отправки по почте)

Добавить комментарий