вторник, 23 июня 2009 г.

Теория и практика работы с robots.txt

Иногда веб-мастеру может потребоваться закрыть от индексации часть сайта. Эта задача легко решаема, так как большинство Web Роботов позволяют администраторам сайтов ограничить свое поведение на сайте. Это можно сделать несколькими способами:
  • Можно указать, какие части сайта не должны посещаться роботами, разместив специально отформатированный файл в корне сайта – http://www.site-name.ru/robots.txt

  • Администратор может указать, может страница быть проиндексирована или нет, или проанализирована на наличие ссылок, используя специальный HTML META тег.

  • Использовать нестандартные приемы, работающие для конкретных роботов. Например запретить роботу следовать по ссылке при помощи rel="nofollow"(Google, MSN, Yahoo) или запретить индексацию части страницы при помощи тега (Yandex, Rambler).
Следует отметить, что все эти методы не дают стопроцентной гарантии. Некоторые роботы могут попросту не обращать на них внимание.
Стандарт исключений для Роботов

Стандарт исключений для роботов был принят в 1994 году и с тех пор не менялся. Стандарт описывает общие принципы написания robots.txt. Вкратце – при заходе на сайт робот запрашивает файл robots.txt, чтобы посмотреть, какие разделы и документы на сайте запрещены для него.

Важно помнить, что стандарт является необязательным, и его придерживаются только «вежливые и культурные» роботы. Вряд ли вы сможете при помощи него запретить, например, доступ для роботов, ворующих у вас контент.

Руководство по использованию robots.txt

Подробнее о написании robots.txt и о том, что означают различные правила, можно узнать из руководства по использованию robots.txt.
МЕТА-тег “Robots”

МЕТА-тег “Robots” позволяет создателям страниц указывать Роботам, можно ли индексировать данную страницу и можно ли использовать ссылки, приведенные на странице. Этот тег указывается на каждой конкретной странице, доступ к которой требуется ограничить.
Нестандартные методы ограничения доступа

Не предусмотренные стандартом средства ограничения доступа к содержимому сайта. В первую очередь тег и аттрибут rel="nofollow".