вторник, 23 июня 2009 г.

Как правильно подбирать ключевые слова?

Объявления Яндекс.Директа показываются по всем запросам, целиком содержащим заданные вами ключевые слова или словосочетания. Например, если вы задали словосочетание «дизайн интерьера», то ваше объявление будет показано по запросам «дизайн интерьера», «дизайн интерьера квартиры», «журнал интерьер и дизайн», «обучение дизайну интерьера» и т.п., но не будет показано по запросам «дизайн» или «интерьер».

Как подбирать ключевые слова?
  • Представьте себе, что могут искать те люди, которые хотят найти ваш товар или предлагаемую услугу.
  • Не забывайте о синонимах. Например, к словосочетанию «продажа автомобилей» имеет смысл добавить «продажа машин», а к фразе «отдых в Турции» – названия городов «Анталия», «Кемер», «Мармарис», «Бодрум» и др. Некоторые популярные синонимы можно найти в словаре русских синонимов и сходных по смыслу выражений, а также в кратком словаре синонимов.
  • Не забудьте учесть профессиональные термины (сленг). Например, «наружная реклама» и «наружка», «сувенирная продукция» и «сувенирка», «выделенная линия» и «выделенка».
  • Используйте разные части речи с одним корнем. Например, к словосочетанию «магазин мебели» может быть целесообразным добавить «мебельный магазин».
  • Помните о популярных опечатках. Например, слово «риэлтор» запрашивается в Яндексе в 21 варианте его написания: «риэлтер», «риелтор», «риелтер», «реэлтор», «реелтор», «риэлтр», «rielter», «rieltor», «hb knjh» («риэлтор» в английской раскладке), «hbtknjh» («риелтор» в английской раскладке) и др.
  • Учтите сложносоставные слова. Например, слово «металлочерепица» можно написать с пробелом посередине: «металло черепица».
  • Не используйте общие слова, такие как «ремонт», «реклама», «аренда», «доставка» и т. п., поскольку это снижает эффективность рекламной кампании. Вместо них имеет смысл использовать словосочетания, например: «ремонт принтеров», «наружная реклама», «аренда грузовиков».
  • Воспользуйтесь сервисом подбора слов для получения широкого списка запросов пользователей Яндекса. Правый столбец в результатах статистики запросов «что еще искали люди» (если он есть) может дать вам интересные идеи о том, какие еще ключевые слова используют ваши потенциальные клиенты. Цифра рядом с каждым запросом представляет собой предварительный прогноз числа показов в месяц, которое вы получите, выбрав этот запрос в качестве ключевого слова.
Обратите внимание:
  • Ключевые слова и словосочетания перечисляются через запятую.
  • Ключевые слова должны соответствовать теме объявления. (Не используйте ключевое слово "оргтехника", если вы продаете туристические путевки).
  • Регистр букв и порядок слов в словосочетании не важны.
  • Каждое ключевое словосочетание не должно включать более пяти слов, включая союзы и предлоги.
  • В ключевых словах допустимы только буквы, цифры и знак минус (-).

Раскрутка сайта

Услуги по раскрутке и поисковой оптимизации

Главная цель любого коммерческого сайта - получение прибыли. Получение прибыли возможно только от привлеченных клиентов, заказчиков. Клиентами становятся посетители сайта, заинтересованные в приобретении товаров и услуг, представленных на сайте. Чтобы иметь много клиентов, надо иметь на сайте много посетителей. Причем высокая посещаемость должна создаваться людьми, которые составляют целевую аудиторию сайта, то есть потенциальными клиентами.

Если не заниматься привлечением целевой аудитории, то сайт будут просматривать ежедневно несколько человек в лучшем случае. Конечно, если ваш сайт содержит нечто очень интересное и привлекательное, то он рано или поздно наберет достаточное количество посетителей самостоятельно. В случае обычного интернет представительства коммерческой компании рассчитывать на огромный интерес посетителей обычно не приходится.

Некоторые приемы по расрукте сайта

Для увеличения посещаемости сайта (раскрутки сайта) существуют различные методы. Мы предлагаем только легальные способы раскрутки. Чаще всего прибегают к:
  • указанию адреса сайта на обычных оффлайновых рекламных площадках;
  • регулярным публикациям объявлений со ссылками на сайт в популярных досках объявлений;
  • указанию адреса сайта во всей почтовой переписке;
  • размещению баннеров на рекламных сайтах и в баннерообменных сетях;
  • регистрации сайта в поисковых системах и каталогах;
  • участию в рейтингах;
  • обмену ссылками с сайтами одинаковой тематической направленности.
Продуктивные методы раскрутки сайта

Не отрицая полезности и необходимости всего вышесказанного, можно смело утверждать, что в настоящее время наиболее эффективным способом повышения посещаемости сайта целевой аудиторией является продвижение сайта в верхние строки результатов поиска по ключевым словам в поисковых системах. Процесс продвижения сайта в поисковых системах называют поисковой оптимизацией сайта. Для обозначения поисковой оптимизации часто используется англоязычная аббревиатура SEO.

Для раскрутки сайта средствами поисковой оптимизации очень важно правильно составить список ключевых слов и поисковых фраз, по которым проводится продвижение сайта. Cписок поисковых фраз, составляемый на начальном этапе поисковой оптимизации, представляет собой семантическое ядро сайта. Формирование семантического ядра сайта осуществляется с использованием различных источников информации, к которым относится контент раскручиваемого сайта, контент сайтов конкурентов, некоторые инструменты, предоставляемые поисковыми системмами.

Кроме того, чрезвычайно важно обеспечить корректное использование языка HTML для верстки страниц сайта. В этом смысле поисковую оптимизацию следует начинать уже тогда, когда речь только идет о проектировании сайта. Неправильно спроектированный сайт часто невозможно подвергать SEO. В таких случаях может потребоваться реконструкция сайта.

Стоимость раскрутки сайта

При планировании продвижения сайта в интернете надо четко себе представлять, что быстрая и дешёвая раскрутка сайта существует только в воображении некоторых владельцев сайтов и в обещаниях проходимцев от интернета. Можно только быть уверенным в том, что поскольку процедуры поисковой оптимизации связаны с регулярным обновлением и изменением контента сайта, постольку существенно проще и дешевле продвигать сайт, если он построен на основе правильно спроектированной и удобной в использовании системы управления контентом сайта.

Этапы оптимизации сайта

Без контента нет оптимизации

Любая задача по оптимизации интернет-сайта для поисковых систем начинается с анализа содержимого данного сайта. Это может прозвучать банально, но для оптимизации необходимо исходное наполнение, которое можно подвергнуть оптимизации. Это наполнение, называемое также контентом - информационная ценность сайта. И ценность, в первую очередь, с точки зрения поисковых систем (которые, в свою очередь, считают это ценностью для своих пользователей). Поисковые системы отвечают на запросы пользователей, предоставляя сайты, представляющие, на их взгляд, наибольшую информационную ценность по тем или иным запросам.

Такая ценность по какой-то конкретной тематике называется релевантностью, то есть степенью соответствия тематике, заданной в поисковом запросе. Поисковые системы стараются предложить наиболее ценные ресурсы, то есть сайты с наиболее полной, оригинальной и пользующейся спросом информацией.

1-й этап оптимизации - оценка

Соответственно, на первом этапе оптимизации требуется удостовериться, что сайт готов "дать достойный ответ" по темам, в которых он хочет продвинуться в поисковых системах. Критерии этого "достоинства" разные, это, в частности, насыщенность информационного материала соответствующими теме ключевыми словами, но во всех них важно одно - наличие соответствующей информации. Это первоочередное условие.

Сайт поставщика некой продукции - допустим, оргтехники - имеет оригинальную и полную информацию в виде самой этой продукции (перечня, описаний), и по своему наполнению лучше всего приспособлен для продвижения по наименованию этой продукции. Более того, если цель поисковой оптимизации - привлечение пользователей поисковых систем, ищущих именно эту продукцию, то это и есть именно то, что нужно этому сайту. Но такой сайт мало приспособлен для продвижения по общим темам - например, настольные издательские системы - если на нем есть материалы по принтерам, но нет материалов конкретно по тематике издательских систем.

Поэтому первый этап оптимизации - оценка, по каким направлениям сайт готов продвигаться в поисковых системах, и насколько это соответствует исходным планам. Дается оценка того, по каким тематическим запросам сайт способен дать тот самый "достойный ответ" - то есть по каким направлениям он может продвинуться, а по каким попытка будет малоэффективной. Но также на данном этапе, если это необходимо, намечаются пути, которыми тематические возможности сайта можно будет привести в соответствие с желаниями. То есть какими и какого рода информационными материалами необходимо обогатить сайт, прежде чем о сможет рассчитывать на соответствие нужным поисковым запросам.

2-й этап оптимизации - идеализация

Второй этап оптимизации сайта включает в себя приведение структуры и вида представленной на сайте тематической информации в соответствие с представлениями поисковых систем об идеале. Действительно, хотя поисковые системы и стараются оценивать сайты так, как это делал бы "умнейший человек в мире", их критерии, все же, несколько отличаются от человеческих критериев. Необходимость специфической поисковой оптимизации обязана своим существованием именно этому отличию и этой специфике оценки поисковых систем. Вкратце, задача этого этапа - представить поисковым системам сайт как максимально соответствующий - релевантный - заявленной тематике, то есть соответствующим запросам.

3-й этап оптимизации - работа над ссылками

Третий этап - это работа со ссылками. Это может показаться странным, но по своей важности этот последний этап соперничает с первым. Парадоксально, но факт - ссылки даже важнее реального содержимого сайта. Почему это так? Для этого нужно рассмотреть принципы оценки релевантности сайта запросу. На данный момент большинство поисковых систем оценивает релевантность страницы запросу, в самом упрощенном виде, как произведение авторитетности страницы и суммы релевантности текста страницы и релевантности текста ссылок запросу.

Из этих составляющих релевантность текста страницы запросу - объект второго этапа оптимизации. Это то, насколько контент соответствует запросу. Величина эта не бесконечна, т.к. определяется процентными величинами - относительным содержанием ключевых слов в тексте, близостью ключевых слов к началу страницы и т.п. Именно поэтому оптимизация содержимого страниц сайта имеет свой "потолок" эффективности.

Оптимизация методом "розового кролика"

В отличие от этого, авторитетность страницы опирается на количество и качество внешних ссылок на сайт. Нетрудно сделать вывод, что этот фактор может увеличивать свое влияние практически бесконечно - вплоть до, теоретически, количества абсолютно всех страниц интернета (которое, в свою очередь, тоже теоретически не ограничено). Именно поэтому работа со внешними ссылками (и ссылками с правильным текстом - релевантным нужному поисковому запросу) - это, практически, бесконечная возможность по продвижению сайта. По крайней мере, при текущих алгоритмах поисковых систем. Когда релевантность страниц, грубо говоря, доведена до предела и ничего уже не улучшить, ссылки "продолжают работать, работать, работать", как розовый кролик из известной рекламы батареек.

Потенциал внешних ссылок можно проиллюстрировать тем фактом, что ими можно продвигать страницы даже по тем запросам, по которым на самой странице не содержится контента. Так известен пример, когда таким образом хулиганы продвинули сайт Microsoft по нецензурным запросам.

И если это возможно даже с нулевым контентом, то есть за счет исключительно третьего этапа продвижения, то можно себе представить, насколько эффективным будет полноценное сочетание всех трех этапов продвижения сайта.

Семантическое ядро сайта

"Семантическое ядро" и поиск сайта

Семантическое ядро - множество поисковых выражений (слов и словосочетаний), на которые ориентирован Ваш сайт. Поисковыми выражениями из семантического ядра оперирует целевая аудитория сайта, по ним она будет находить страницы сайта в поисковых системах. При проведении поисковой оптимизации требуется адаптировать страницы сайта к словам и словосочетаниям из семантического ядра. Каким образом это делать - отдельный разговор. В данный момент нас будут интересовать только методы составления семантического ядра сайта.

Откуда взять поисковые запросы для ядра?

Для начала нужно определить слова, по которым пользователи поисковых систем могут и должны найти Ваш сайт. Анализируя содержание сайта следует составить примерный список этих слов (словосочетаний) вместе с их синонимами.

Далее используя возможности Яндекс.Директ определяется частотность каждого из поисковых запросов и дополнительные поисковые словосочетания. Поисковые слова (словосочетания), на которые будут ориентированы страницы сайта, выбираются исходя из сайтов ваших конкурентов. Если по отдельно взятому словосочетанию, в результате поиска по нему, появляются сайты, с хорошо оптимизированными под него страницами (т.е. словосочетание находится в заголовке страниц и достаточно часто встречается просто в тексте и дополнительно в тегах a h b) и сайты имеют высокий тематический индекс цитируемости (по Яндексу), то конкурировать по такому запросу не очень «продвинутому» сайту не стоит. Значит для начала следует выбирать слова (словосочетания) из середины списка: со средней частотностью по запросам в месяц и незначительным количеством конкурентов по этому слову (словосочетанию).

«hfcrhenrf cfqnf» или полезные «очепятки»

Одним из важных моментов при составлении семантического ядра является выявление неправильных написаний для высокочастотных запросов. Если большое количество пользователей поисковой системы неправильно пишет в строке поиска слово (словосочетание), причем то, по которому Ваш сайт можно найти, то именно на это слово нужно ориентировать одну или несколько страниц. Иногда будет достаточно один раз использовать это слово (словосочетание) в контенте страницы (например как обозначенную опечатку). Дело в том, что обычно по опечаткам для поисковых слов конкуренции среди сайтов нет, поэтому пользователи, набрав в строке поиска слово с грамматической ошибкой или написанное латинскими буквами, обязательно попадут на Ваш сайт.

Семантическое ядро сайта с иноязычные словами

Часто в состав семантического ядра сайта включаются термины, названия товаров, услуг и другие иноязычные слова и выражения. В этом случае необходимо тщательно проверять наличие для этих слов транскрипций, записанных кириллицей. Есть примеры, когда частота поисковых запросов по русским транскрипциям превосходит или приближается к частоте поисковых запросов по словам в оригинальном написании.

Надо еще учитывать, что существует множество вариантов написания иностранных слов русскими буквами.

Кроме того, при подготовке семантического ядра сайта надо учитывать ошибки в написании иностранных слов и их сокращения.

Например, для слова "volkswagen" встречаются такие варианты написания, как "folksvagen", "фольксваген", "фольцваген", "вольксваген", "wolkswagen", "wolksvagen", "volks wagen", "vw", "ww", "wv", "folkswagon" и множество других. Причем некоторые из них довольно популярны.
Составление семантического ядра - Итоги

Составление семантического ядра сайта – достаточно непростая задача. Человек, составляющий список поисковых запросов, должен уметь здраво оценить конкурентов сайта, оправданность усилий по оптимизации контента страницы под конкретное поисковое слово и не должен перегибать, прибегая к «черным» методам, например оптимизируя страницы к поисковым запросам, не относящимся к содержанию сайта.

Низкобюджетное продвижение сайтов

Что мы называем «низкобюджетным продвижением»?
Во время кризиса вопрос о «низкобюджетном» продвижении сайтов становится как никогда более актуальным. Однако в понятие «низко-бюджетное продвижение» каждый вкладывает свое значение.

Мы для простоты будем понимать под термином «низкобюджетное продвижения» (НП) все, что не входит в понятие «высокобюджетное продвижение» (ВП - продвижение конкурентных частотных запросов с выделением серьезных бюджетов для покупки большого количества, в том числе и дорогих ссылок).

Возможны исключения и особые случаи, однако в данном докладе мы примем следующее определение:
«Низкобюджетное продвижение - продвижение сайта в поисковых системах по списку целевых средне- и низкочастотных запросов без ежемесячных крупных прямых затрат на покупку ссылок, с использованием альтернативных способов получения внешних ссылок на постоянной или долгосрочной основе».

Таким образом мы различаем НП и ВП по следующим признакам:
· конкурентности запросов (НП ведется, как правило, по «длинному хвосту» средне- и низкочастотных запросов, при этом сайт получает более дешевый трафик при меньших затратах)
· способу получения и качеству ссылок (при НП в первую очередь используются не биржи, а внутренние резервы сайта, одновременно ищутся все возможные способы получения ссылок, не связанные с их дальнейшей ежемесячной оплатой, хотя для получения таких ссылок часто приходится затратить больше усилий)

Рассмотрим эти признаки подробней.
Продвижение по низкочастотным запросам
Для начала отметим несколько важных тезисов:
· Продвижением своих сайтов по НЧ-запросам занимаются далеко не все владельцы сайтов (конкуренция в ряде тематик не очень высокая)
· Если на сайте есть оптимизированная страница с ответом на НЧ-запрос, для ее попадания в топ-10 поисковой системы часто достаточно факта индексации данной страницы, для чуть более частотных – достаточно добавить одну-две внешние ссылки
· По статистике, данные которой публикует компания «Яндекс», лишь три процента пользователей задают частотные вопросы, большая часть пользователей (77%) задают низкочастотные запросы (см. рисунок из информационного бюллетеня Яндекса). Средний запрос состоит из 2,5 слов.
· При одинаковых затратах продвижение по низкочастотным запросам в большинстве тем дает большую целевую посещаемость и более низкую себестоимость посетителя (и покупателя).
Проблемы при продвижении «длинного хвоста»
Чаще всего проблемы продвижения по длинному списку НЧ запросов сводятся к следующему короткому списку:

· Удалить из индекса поисковых машин все лишние страницы (дубли, служебные и мусорные страницы)
· Оптимизировать страницы с полезным контентом
· Разработать стратегию продвижения - составить большой (сотни или тысячи) список запросов, понять, какие страницы по каким запросам будем продвигать
· Грамотной внутренней перелинковкой (внутреннее ссылочное ранжирование) получить начальные позиции по выбранным запросам
· Внешними ссылками (см. ниже раздел «Альтернативные способы получения ссылок») вывести сайт в ТОП по остальным запросам
Прежде чем описать способы получения ссылок, кратко остановимся на проблемах индексации сайта.
Причины появления дублей
Дубли – это одинаковые или очень похожие страницы сайта, которые появляются в поисковом индексе из-за несовершенства CMS сайта или ее неверной настройки. Часто, проиндексировав очередную сотню или тысячу «дублей» поисковик «теряет интерес» к сайту и не доходит до страниц с полезными материалами, новостями, товарами и т.п. Основные причины появления дублей:

· Зеркала сайта ( с WWW и без WWW)
· Дубль главной страницы форума вида /index.php
· Сессии в URL
· Относительная адресация
· Страницы переходов 1,2,3,4 с одинаковым описанием
· Некорректная обработка 404 ошибки
· 302 редирект (вместо 301)
· Выдача при наборе несуществующего адреса 200 ОК (www.site.ru/?abrakadabra)
· Результаты сортировок (по цене, названию)
· Страницы «для печати»

Причины появления мусора
Помимо дублей причиной потери интереса к сайту служит индексация поисковиком большого количества служебных страниц, ниже приводится типичный список проблемных мест на сайтах:

· Профили зарегистрированных пользователей
· Страницу результатов поиска
· Страницу создания новых тем на форумах
· Страницу аутентификации и личного кабинета
· Cлужебные страницы перемещения тем и сообщений
· Cтраницу создания новой темы
· Cтраницы личных сообщений

Оптимизация документов
При всей очевидности этих правил повторим кратко внутренние факторы, которые влияют на ранжирование документа в поисковой машине по определенному запросу. Большая часть НЧ запросов может попасть в ТОП-10 поисковиков уже за счет качественной внутренней оптимизации. Мы не считаем правильным «оптимизировать» только те факторы, которые «рулят» сегодня. Комплексная оптимизация документа позволяет вам спокойно встречать очередные «апдейты» в поисковых машинах.

· Упоминаем несколько раз в тексте документа формулировки запросов
· Выделим одно или несколько вхождений в документе тегами b, strongи- или em
· Поместим в тексте документа заголовки h1 или h2, соответствующий запросу
· Приведем в соответствие с запросом мета-теги title, description и keyword
· Поставим в тексте документа гиперссылки на похожие страницы
· Поставим на других страницах сайта гиперссылки на данный документ с текстами, соответствующими целевым для документа запросам

Внутренняя перелинковка
Первые пять методов перелинковки помогают более глубокой индексации сайта и равномерному распределению веса (пресловутого вИЦ и PR) по всем продвигаемым страницам. Однако частое повторение таких ссылок на многих страницах приводит к так называемому эффекту «сквозных» ссылок. Они практически перестают учитываться в «ссылочном ранжировании», например в Яндексе. Поэтому стоит проводить постоянные эксперименты с последними тремя способами, разнообразя тексты ссылок, повторяя одинаковые ссылки не более нескольких раз – и проверять полученный эффект.

1. Меню разделов
2. Карта сайта
3. Навигационная строка
4. Календарь публикаций
5. Тегирование - ссылки на теги в тексте страниц
6. Ссылки на близкие по теме товары, аксессуары
7. Хиты продаж
8. Случайные ссылки
Альтернативные способы получения ссылок
Невозможно использовать все предлагаемые ниже методы получения ссылок, однако знать о них будет полезно, каждый может выбирать те способы, которые больше подходят к его обстоятельствам и возможностям.
Использование собственных ресурсов
Это действительно резерв, который следует использовать в первую очередь, получить первый эффект и уже после этого «дотягивать» остальные целевые запросы внешними ссылками.

· Внутренняя перелинковка страниц сайта
· Перелинковка поддоменов
· Перелинковка других ваших сайтов

Регистрация и обмен ссылками
Эти способы характерны тем, что не требуется дополнительные усилия редактора по написанию текстов или созданию других типов контента. Как правило, работа сводится к составлению вариантов описаний сайта и текстов ссылок, после чего ведутся действия по обмену ссылками или регистрациям.

· Тематический обмен ссылками
· Объявления на тематических досках
· Рекламные посты на тематических форумах или гостевых книгах
· Регистрация в тематических каталогах
· Регистрация на профайлов на популярных сайтах (JOB, сервисы, форумы)

Экспорт контента со ссылками
Эти способы требуют определенных затрат на подготовку разнообразного текстового контента, написание статей, новостей, пресс-релизов и т.п.

· Размещение статей в каталогах
· Обмен статьями
· Пресс-релизы
· Публикация новостей в СМИ-2.0
· Публикация
· RSS
· Лента новостей с экспортом в новостные сервисы
· Ведение корпоративной тематической рассылки
· Ведение корпоративного блога с кросспостингом в популярные сервисы блогов

Инициация проставления ссылок
Эти способы получения ссылок предполагают дополнительные усилия по написанию и оформлению контента на сайте, в результате чего для посетителей появляются мотивирующие подсказки и упрощается процедура простановки ссылок на заинтересовавшие их документы. Кроме этого – в ряде случаев вы можете влиять на то, чтобы ссылка появлялась с «правильным» текстом а не бессмысленным «кликни здесь».

· Кнопки под материалами - социальные сервисы закладок
· Получить код ссылки для блога
· Получить код ссылки для BB-форумов
· Коды информеров и новостей
· Партнерские ссылки
· Организация событий, конкурсов, вирусный маркетинг
· Уникальные экспертные материалы
· Станьте брендом, в конце концов, и получите огромную ЕСМ (Естественную ссылочную массу)
Социальные сети и создание непрофильного контента

· Создайте сообщество в массовых сервисах (ЖЖ, LI, Вконтакте и т.п.)
· Предложите сотрудникам создавать собственные блоги
· Популярные ныне онлайн-тесты - придумайте тесты на свою тему и после прохождения предлагайте код для вставки в дневники
· Макеты дизайнов для популярных движков со ссылкой из копирайта на ваш сайт – распространение удачного макета может дать несколько сотен постоянных ссылок.

автор: Сергей Кошкин

Продвижение сайта в поисковых системах

Один из признаков хорошего сайта — его высокая посещаемость целевой аудиторией (см. статью в №35 журнала "Мир климата"). Для увеличения количества посетителей используются самые различные способы, из которых наиболее эффективный — оптимизация сайта для поисковых систем. Что это такое и как правильно "раскрутить" свой интернет–ресурс, рассказывает Сергей Кошкин, эксперт по продвижению сайтов компании "Ашманов и Партнеры".

– Сергей, что такое оптимизация сайта?

Поисковая оптимизация сайта (часто используются также такие синонимы, как "продвижение сайта", "раскрутка сайта", SEO) — это набор действий по изменению сайта и элементов внешней интернет–среды с целью получения высоких мест в результатах поиска по заданным запросам.

Попробуем расшифровать данное определение. По многим популярным запросам поисковые машины находят сотни и тысячи сайтов. И перед ними встает вопрос: в каком порядке предлагать эти сайты пользователю? Кого поставить на первое место, кого — на первую страницу, а кого — на двадцатую?

Для решения этого вопроса поисковые машины используют свои алгоритмы, учитывающие разные факторы ранжирования сайтов. Таких факторов немало: заголовки на страницах, тексты, наличие ссылок на страницу и прочее. Одни факторы имеют больший вес, другие — меньший. Просчитав всю совокупность факторов ранжирования по каждому найденному документу, поисковая машина выстраивает найденные сайты (страницы) по порядку, в соответствии с релевантностью того или иного документа, то есть соответствия введенному поисковому запросу.

Если знать факторы, которые поисковики учитывают при ранжировании сайтов, можно постараться их учесть и улучшить — тем самым "сказав" поисковой машине, что именно ваши страницы наиболее релевантны данному поисковому запросу.

Именно такие действия и называются "поисковой оптимизацией сайта".

– Для чего владельцы интернет–ресурсов занимаются оптимизацией сайтов?

Ответ на этот вопрос логично вытекает из предыдущего ответа — оптимизацией сайта занимаются для того, чтобы сайт в поисковой выдаче по тем или иным целевым запросам находился высоко. Например, большинство владельцев климатических ресурсов хотели бы видеть свой сайт на первой странице Яндекса (топ–10 выдачи) по запросам "кондиционер", "вентиляция", "отопление".

Почему? Потому что простые подсчеты показывают, что привлечение целевых посетителей из результатов поиска обходится в несколько раз дешевле, чем использование контекстной или баннерной рекламы.

Представим на минуту, что вы участвуете в конкурсе красоты. Вы подбираете красивую одежду, подчеркивающую ваши достоинства и скрывающую недостатки, накладываете макияж, репетируете улыбку перед зеркалом и тренируете красивую походку. Чтобы получить приз и стать победителем конкурса.

Нечто похожее происходит и в поиске, только в жюри сидят поисковые машины, в качестве украшений используются тексты и ссылки, а призом является приход на сайт целевых посетителей из результатов поиска.

– Но существует масса других способов привлечь посетителя на сайт. Можно ли выразить преимущества оптимизации в конкретных цифрах?

Стоимость посетителя, приходящего из поисковых машин, обычно существенно ниже, чем стоимость посетителя, пришедшего по рекламе. Например, если посещаемость "средне–продвинутого" сайта 150–200 человек в день, то можно подсчитать, что для получения такого же количества посетителей из контекстной рекламы при средней цене за клик 40–50 центов пришлось бы платить 0,5х200 = 100 долларов в день = 2500 в месяц. Причем делать это надо постоянно — как только прекращаешь платить, поток посетителей иссякает.

Цифры для примера указаны ориентировочные. Каждый может пересчитать бюджет, исходя из своей практики работы с контекстной рекламой.

Суммы, потраченные на продвижение ресурсов, обычно ниже. Стоимость продвижения может составлять от 500 долларов в месяц до 1500 — в зависимости от сложности конкретных запросов и начальных позиций сайта. Кроме того, эффект от оптимизации (продвижения) сравнительно долговременный, и после окончания работ посещаемость сайта сохраняется еще длительное время на прежнем уровне. Продолжительность этого периода зависит от активности конкурентов, также стремящихся занять свои позиции в поиске.

– Сколько может стоить оптимизация для климатических сайтов? Из каких работ она состоит?

Оптимизация сайта обычно состоит из двух основных видов (этапов) работ.

Во–первых, это внутренняя оптимизация: коррекция текстов и кода сайта с целью сделать их "дружественными" для поисковых машин. Стоимость "внутренней" оптимизации зависит от сложности и размеров сайта и может составлять от 500 до 1500 долларов — в зависимости от масштабов работ и уровня исполнителей.

Во–вторых, работа над внешними факторами: расстановка ссылок на сторонних интернет–ресурсах с целью повысить авторитетность сайта "в глазах" поисковых машин. Ежемесячная стоимость этого этапа складывается из двух цифр: собственно, оплаты времени оптимизатора, который проводит работу по расстановке ссылок, и стоимости ссылок, которые в последнее время все чаще приходится покупать за деньги, а не за счет обмена ссылками. Рынок пока не сформирован окончательно, поэтому можно назвать лишь ориентировочные цифры — от 500 до 1500 долларов ежемесячно в течение нескольких месяцев для достижения достаточно высоких позиций в поиске.

– А от чего зависит стоимость конкретных работ в каждом конкретном случае?

Основных факторов, влияющих на стоимость оптимизации сайта, несколько:

* – конкурентность запросов, по которым продвигается сайт (как часто выдают данный запрос пользователи и насколько он "продающий" — используется ли он с целью получить расширенную информацию о предмете или он применяется с целью купить конкретное оборудование);
* – как много других сайтов продвигается по данным запросам и насколько "сильны" эти сайты (сколько на них стоит внешних ссылок, насколько хорошо оптимизированы эти сайты внутри);
* – собственно качество и уровень сайта, который необходимо продвигать: много ли на сайте страниц с текстами и продукции, есть ли на сайте ошибки в коде и структуре, насколько они серьезны;
* – уровень и амбиции самого исполнителя–оптимизатора. Начинающие могут согласиться на низкую оплату — 400–500 долларов. Однако стоит со здоровым скептицизмом относиться как к слишком дешевым предложениям на рынке, так и к слишком дорогим.

– Что влияет на продвижение сайта в Интернете?

Поисковые машины в первую очередь индексируют тексты на сайтах. И, если в текстах встречаются слова запроса, данный документ может быть признан релевантным (соответствующим) данному запросу.

Для того, чтобы документ поднялся выше в поисковой выдаче, следует учитывать и другие факторы:

* – плотность ключевых слов в тексте — желательно, чтобы в тексте слова запроса встречались не один раз;
* – выделение ключевых слов — особое внимание поисковые машины уделяют текстам в заголовках документов H1–H6, в тексте, выделенном тегами , ;
* – наличие в документе ссылок с текстом, содержащим ключевые слова.

Кроме того, принимается во внимание наличие внешних ссылок на документ, — как общее количество и качество ссылок, так и присутствие в текстах ссылок на ключевые слова, по которым продвигается страница.

– А как вообще устроена поисковая система?

Поисковые системы функционируют следующим образом.

Поисковые роботы — просматривают ссылки и находят новые адреса в сети, потом скачивают найденные страницы. После этого, программы–индексаторы анализируют сохраненные страницы и складывают полученные результаты в базу данных поисковой машины. При получении запроса от пользователя, специальная программа ищет наличие соответствующих (релевантных) документов в базе данных (в "индексе" поисковой машины) и выдает ответ пользователю.

– Существуют ли статистические данные по запросам?

Все ведущие поисковые машины предоставляют пользователям возможность увидеть статистику поисковых запросов, посмотреть, как часто задаются те или иные запросы.

Такой сервис есть у Яндекса — http://wordstat.yandex.ru/ , у Рамблера — http://adstat.rambler.ru/wrds/. Яндекс, например, при проверке запроса показывает не только, как часто используют конкретное слово, но и как часто задаются более сложные запросы, в которых встречалось это слово.

Так, цифра рядом со словом "телефон" обозначает число показов по всем запросам со словом "телефон": "купить телефон", "сотовый телефон", "купить сотовый телефон", "купить новый сотовый телефон в крапинку".

У Рамблера есть данные, отражающие частоту конкретного вводимого в форму слова. Фиксируются даже словоформы — единственное и множественное число, склонение слова. На мой взгляд, это может дать более точную картину для подбора списка запросов, по которым будет оптимизироваться сайт.

Использование таких сервисов дает возможность молодым сайтам рассчитывать на свою долю поискового трафика. Ведь пользователи часто включают в поисковые формы не только самые частотные запросы (кондиционеры, вентиляция, отопление), по которым уже все позиции заняты маститыми конкурентами.

Слово "кондиционер" встречается в статистике запросов в сотнях различных фраз, менее частотных — но и с меньшей конкуренцией. Именно под такие запросы можно оптимизировать "свежий" сайт и достаточно быстро получить свою долю поискового трафика.

– А чем отличаются импортные поисковые системы от наших?

Принципы, по которым западные поисковые системы ранжируют сайты в выдаче, по большому счету, не отличаются от алгоритмов российских поисковиков. Разница при продвижении, в основном, в уровне конкуренции. В англоязычном Интернете конкуренция по большей части тематик на порядок выше. Статистику по англоязычным запросам можно увидеть, например, на сайте overture.com по адресу: http://inventory.overture.com/d/searchinventory/suggestion/.

– С помощью какого инструментария можно оценить позиции того или иного сайта в поисковой системе?

Наша компания (Ашманов и Партнеры — http://www.ashmanov.com ) разработала несколько утилит, помогающих веб–мастерам в анализе позиций и оптимизации сайта. "Сайт–аудитор" — бесплатная программа, скачать которую можно на сайте http://www.site-auditor.ru/ . Есть макросы для MS EXEL, которые распространяются среди подписчиков нашей рассылки "Продвижение сайта. Профессиональные советы экспертов" — http://www.optimization.ru/subscribe/, есть разработанный нами рейтинг сайтов, показывающий, какие сайты лидируют в поисковой выдаче в той или иной тематике — http://www.seo–rate.ru/. Есть также хорошие утилиты от независимых разработчиков, например, SEMONITOR — http://www.semonitor.ru — она платная, но существенно дешевле, чем самый дешевый кондиционер.

– Часто в беседах с Заказчиком употребляются такие термины, как индексы цитирования и тому подобное. Что это такое?

При ранжировании сайтов в поисковых системах так или иначе используются индексы цитирования (ИЦ) — показывающие, насколько часто веб–мастера чужих сайтов ставят ссылки на данный сайт.

Учитывается количество доменов или страниц, ссылающихся на сайт. Из общего числа доменов, как правило, исключаются ссылки с сайтов, расположенных на бесплатных хостингах, ссылки из гостевых книг, форумов и каталогов. Каждый поисковик имеет свои формулы расчетов таких индексов цитирования, которые они тщательно скрывают от нас. У Google это PR — Page Rank, У Яндекса — вИЦ (взвешенный индекс цитирования) и тИЦ — тематический индекс цитирования.

При всей разнице расчетов есть общее правило — желательно, чтобы на ваш сайт ссылалось как можно большее количество сайтов. При этом PR страниц, с которых ссылаются эти сайты, должен быть больше 0.

Узнать, каковы индексы цитирования у вашего сайта, можно, скачав и установив бесплатные программы:

* Яндекс–Бар (http://bar.yandex.ru );
* Google–Toolbar (http://www.google.com/tools/firefox/toolbar/index.html ).

– Как рекламодателю отличить плохого оптимизатора от хорошего?

Во–первых, цена. Хороший оптимизатор не может быть очень дешевым. Низкая цена — повод усомниться.

Во–вторых, гарантии. Если оптимизатор обещает конкретные позиции, он, скорее всего, кривит душой — ведь точных позиций не может обещать никто, даже владельцы поисковых машин.

В–третьих, открытость методов оптимизатора. Хороший оптимизатор не будет скрывать того, что он делает для продвижения вашего сайта, надувать щеки и делать загадочное лицо. По большому счету то, что нужно делать для продвижения сайта, ни для кого не является особым секретом. Просто профессионал обычно сделает это лучше и качественней.

В–четвертых, рискованные методы. "Правильный" оптимизатор не станет рисковать сайтом клиента, продвигая его "запрещенными" методами, за которые сайт может подвергнуться санкциям со стороны поисковых машин — от пессимизации до полного бана (удаление страниц сайта из базы поисковиков). Этот пункт перекликается с третьим — открытостью методов оптимизации.

– А в каких случаях поисковик может выкинуть сайт из поисковой системы?

Как правило, поисковики не любят, когда сайт делается для поисковых машин, а не для пользователей: размещение на страницах скрытых текстов, повышающих плотность ключевых слов; выдача пользователям одного содержимого, а поисковым машинам — другого (клоакинг); автоматическое размещение ссылок; ссылкообменные кольца и прочее.

Тем, кто интересуется вопросом глубже, можно посоветовать рекомендации от Google для веб–мастеров — http://www.google.com/intl/ru/webmasters/seo.html и глоссарий от компании "Ашманов и Партнеры" — http://www.optimization.ru/glossary.shtml . Большая часть "нехороших" методов здесь описана достаточно подробно.

– Какие этапы по оптимизации существуют? Какова последовательность их выполнения?

В первую очередь, надо изучить сам сайт, провести его технический и поисковый аудит, проверить внутреннюю структуру и код, выявить и устранить ошибки, проверить наличие контента (текстов на сайте, соответствующих поисковым запросам).

После внутренней оптимизации сайта можно приступать к внешним факторам — размещению ссылок на сайт на сторонних ресурсах. При этом следует регулярно проверять позиции, по итогам проверок вносить дополнительные коррективы на сайте и в плане продвижения.

– Когда лучше начинать оптимизацию сайта?

Если есть возможность, то начинать оптимизацию следует уже на стадии проектирования сайта. Если сайт уже работает — как можно раньше. Если вы сейчас думаете об оптимизации сайта — вы уже опоздали на пару лет, и вам придется догонять более расторопных конкурентов. Чем раньше начнете, тем больше шансов успеть занять свои места в поисковой выдаче...

– Какие запросы эффективнее: однословные или двусловные?

Скорее стоит разделить запросы на две другие группы — информационные и навигационные.

Информационные — когда люди пока лишь изучают предмет и ищут по нему более подробную информацию. Они, вероятно, еще не готовы купить — они изучают, выбирают.

Навигационные запросы зачастую задают пользователи, которые уже знают, что именно они хотят купить — им осталось только выбрать продавца. Конвертация таких посетителей в покупатели обычно намного выше.

Например, запрос "кондиционеры оптом" является, скорее всего, навигационным — уже понятно, что пользователь ищет возможность купить кондиционеры, осталось найти где.

– Вы сказали, что лучшая оптимизация делается на стадии проектирования. А как изначально сделать правильную конструкцию сайта?

После составления списка запросов стоит отсортировать их по частотности. Правило простое — чем частотнее (конкурентнее) запрос, тем выше должна находиться продвигаемая по нему страница в иерархии создаваемого Вами сайта. В идеале, под частотные запросы оптимизируется главная страница сайта, под среднечастотные — страницы, находящиеся на расстоянии одного клика от главной страницы.

– Есть сайты, которые находятся на первых местах в поисковиках. Но посещаемость у них низкая. А эффективность сайта — тем более. Чем это можно объяснить?

На переходы посетителей влияют не только позиции, но и привлекательность "сниппетов" — описаний сайта, которое выдает поисковик в поисковой выдаче. Чем точнее данное описание отвечает на запрос пользователя — тем больше вероятность, что пользователь "кликнет" именно по этой ссылке.

В качестве эксперимента посмотрите на первую страницу Яндекса по запросу "кондиционеры оптом". Вы увидите насколько описания сайтов отвечают на ваш запрос. Не всегда описание и "кликабельность" лучшее у того сайта, который занимает топ–позиции.

Эффективность же самого сайта (или "коэффициент конвертации" посетителей в покупателей) зависит не только от оптимизации сайта. Здесь уже играют роль и цены на предлагаемую продукцию и профессионализм менеджеров, отвечающих на вопросы посетителей по телефону или электронной почте.

В первую минуту присутствия пользователя на сайте большое значение имеет информация, представленная на сайте, дружественный дизайн, удобная навигация. Именно по этим признакам посетитель принимает решение — закрыть окно и уйти на сайт конкурента или задержаться, изучить информацию и войти в контакт с менеджерами.

Поэтому, когда ставка делается на достижение топ–позиций и, при этом, мало внимания уделяется содержанию и полезности сайта для посетителей, искомые цели вряд ли будут достигнуты. А потраченные на создание сайта деньги окажутся выброшенными на ветер.

Как часто говорят представители Яндекса — "Делайте сайт для людей, а не для поисковых систем, и будет вам счастье…". Добавлю от себя: будет счастье, если при этом вы не забудете оптимизировать сайт и продвинуть его в поисковых системах.

Сергей Кошкин, эксперт по продвижению сайтов компании "Ашманов и Партнеры"

Индексация страниц и разделов сайта поисковыми роботами Яндекс

Введение

Количество ресурсов, проиндексированных поисковыми системами, постоянно растет. Чтобы ресурс мог попасть в базу поисковой системы, поисковику, как минимум, необходимо сообщить о существовании вашего ресурса. Узнать о нем поисковик может двумя способам:
  • если вы зарегистрируетесь в поисковой системе;

  • либо перейдя на ваши страницы по ссылке с ресурсов, уже проиндексированных системой.
После этого поисковый робот будет время от времени возвращаться на ваши страницы, обновляя информацию о них. Постоянная индексация ресурса – один из важнейших элементов в работе поисковых систем. От того, каким образом и в каких поисковых системах проиндексирован ваш сайт, будет зависеть конечный результат продвижения в той или иной поисковой системе.

Успешная индексация сайта роботами поисковых систем – это то, чего вы должны обязательно добиться на начальном этапе продвижения. О том, какими способами добиться корректной индексации сайта, какие сложности могут возникнуть при подготовительной работе, а также о том, как устроены поисковые системы, роботы которых будут обрабатывать ваши страницы, пойдет речь в данном мастер-классе.

Процесс индексации мы будем рассматривать на примере поисковой системы Яндекс. Это вполне логично, поскольку пользователей, владеющих русским языком, используют именно эту поисковую системы для поиска необходимой информации.

Роботы поисковой системы Яндекс

Говоря об индексации, прежде всего, следует рассказать о том, кто ее осуществляет непосредственно, то есть о роботах поисковых систем. На вопрос: “а что такое робот поисковой системы и что он делает?”. Яндекс отвечает следующим образом: «Робот (англ. crawler) хранит список URL, которые он может проиндексировать, и регулярно выкачивает соответствующие им документы. Если при анализе документа робот обнаруживает новую ссылку, он добавляет ее в свой список. Таким образом, любой документ или сайт, на который есть ссылки, может быть найден роботом, а значит, и поиском Яндекса».

Обладая знаниями о них, вы с легкостью сможете подготовить ваш сайт для успешной индексации. Индексация сайта происходит следующим образом: роботы-индексаторы посещают страницы и вносят их содержимое в базу документов, доступных для поиска.

Яндекс появился в 1996 году. Но не в качестве поисковой системы, а в виде нескольких обособленных продуктов. Например, Яndex.Site – программа, производящая поиск на сайте, Яndex.CD – программа поиска документов на сd-диске.

Сама же поисковая система возникла осенью 1997 года. 23 сентября на выставке Softool Яндекс был официально представлен уже в качестве полнофункциональной поисковой системы Интернета. С тех пор объем Рунета непрерывно возрастал, что вынуждало совершенствовать алгоритмы индексирования и поиска информации.

Поэтому в 1999 году был создан новый поисковый робот, который помимо значительного увеличения скорости индексации позволил пользователям искать информацию по разным зонам документа – в URL, в заголовках, в ссылках и т.п.

Сейчас официально анонсировано 11 роботов Яндекса, каждый из которых специализируется на определенной задаче.

1. Yandex/1.01.001 (compatible; Win16; I) – основной индексирующий робот Яндекса. Это самый важный робот, функция которого – поиск и индексирование информации, найденной на просторах российского Интернета. Для всех SEO-специалистов важно отслеживать появление на своих сайтах в первую очередь этого робота-индексатора. Обычно робот заходит со следующих ip-адресов: 213.180.206.4, 213.180.206.1, 213.180.216.4, 213.180.206.248, 213.180.216.28. Поэтому, увидев в логах своего сайта заветное слово yandex, обратите свое внимание на ip-адрес, потому как в интернете сейчас существует достаточное большое количество сервисов тестирования сайта, которые позволяют заходить на странички, представляясь как user agent: Yandex/1.01.001 (compatible; Win16; I) Может оказаться, что вовсе и не Яндекс посетил Ваш сайт.

2. Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок, которые впоследствии будут доступны в поиске Яндекс. Картинки (http://images.yandex.ru). Для поисковой системы самым простым путем определения, соответствует ли картинка запросу пользователя, является анализ тега alt. Второй путь, который как и первый скорее всего использует сервис Яндекс.Картинки – анализ имени файла. Например, посмотрите на лотосы на странице (http://en.npftravel.ru/news/issue_117.html). Ни одного упоминания слова «лотос» в теле документа, однако картинка все-таки была найдена по запросу «лотос» благодаря тому, что файл имеет имя lotos.jpg.

3. Yandex/1.01.001 (compatible; Win16; H) – робот, определяющий зеркала сайтов. Задача этого робота – определение степени схожести двух документов. Если документы очень похожи друг на друга, в результатах выдачи Яндекс, скорее всего, покажет только один сайт, в этом собственно и заключается процесс зазеркаливания. То есть сайт-зеркало представляет собой ничто иное, как полную копию сайта.

4. Yandex/1.03.003 (compatible; Win16; D) – робот, определяющий доступность страницы для индексации при добавлении ее через форму «Добавить URL».

5. Yandex/1.03.000 (compatible; Win16; M) – робот, посещающий страницу при ее открытии по ссылке «Найденные слова», ниже сниппета.

6. YaDirectBot/1.0 (compatible; Win16; I) – робот, индексирующий страницы сайтов, участвующих в рекламной сети Яндекса.

7. Yandex/1.02.000 (compatible; Win16; F) – робот, индексирующий иконки сайтов (favicons), которые показываются потом в результатах поиска слева от ссылки на найденный сайт.

Процесс индексации документа

Процесс индексации документа роботами поисковых систем, как правило, начинается с добавления сайта в форму на специальной странице. Для Яндекса это страница http://webmaster.yandex.ru/. Здесь требуется ввести лишь адрес сайта, никаких дополнительных данных вносить не требуется. В Рамблере, например, требуется указывать еще название сайта, дать краткое описание регистрируемого сайта и контактное лицо.

Если сайт добавляется впервые, то Яндекс выдаст сообщение:
«Адрес http://example.com/ успешно добавлен. По мере обхода робота он будет проиндексирован и станет доступным для поиска».

Если сайт уже посещался роботом-индексатором, то появится сообщение:
«Документ http://example.com/ уже проиндексирован и доступен для поиска.
Вы можете посмотреть, какие страницы сайта http://example.com/ доступны в Яндексе к настоящему времени (* страниц)».

После добавления нового сайта через форму, его тут же посетит робот Yandex/1.03.003 (compatible; Win16; D). Он определит доступность сайта для индексирования, а также установит, удовлетворяет ли сайт требованиям Яндекса, основным из которых является «русскоязычность» ресурса. Поэтому, как пример, может возникнуть такая ситуация:
«Адрес http://www.example.com/ не был внесен в базу Яндекса, так как сайт http://www.example.com/ находится вне доменов стран СНГ, при этом наш робот не смог распознать в нем русский текст».

Если же все хорошо, то в логах сайта можно будет обнаружить строку:
213.180.206.223 -- [18/Jul/2006:10:22:08 +0400] "GET /robots.txt HTTP/1.1" 404 296 "-" "Yandex/1.03.003 (compatible; Win16; D)"
213.180.206.223 -- [18/Jul/2006:10:22:08 +0400] "GET / HTTP/1.1" 200 2674 "-" "Yandex/1.03.003 (compatible; Win16; D)"

Видно, что сначала робот обратился к файлу robots.txt (его в данном случае просто не существует) чтобы определить, не запрещен ли сайт к индексации. Затем уже обратился к главной странице.

После добавления сайта на странице http://webmaster.yandex.ru/ менее чем через два дня сайт посетит робот-индексатор Yandex/1.01.001 (compatible; Win16; I). И еще через некоторое время сайт будет доступен для поиска в Яндексе.

Управление индексацией

То что Ваш сайт проиндексировался – это еще полдела, гораздо важнее научиться грамотно управлять индексацией. Подумайте, какие бы вы хотели видеть страницы вашего сайта в выдаче поисковых систем: какие из них будут полезны пользователю, а какие из них не несут никакой смысловой нагрузки и используются исключительно как техническая информация, к примеру. Желательно закрыть от индексации административный раздел сайта, директории /images/ (если она названа таким образом), где хранится графическая информация. Владельцам интернет-маагазинов следует закрыть служебные станицы, например, те страницы сайта, через которые осуществляется непосредственная покупка того или иного продукта и т.д. Приняв данные меры, во-первых, вы будете уверены в том, что роботы проиндексируют именно ту информацию, которая на самом деле важна, во-вторых, облегчите роботу роботам, которые не будут посещать все страницы сайта.

1. Управление индексацией при помощи файла robots.txt
Файл robots.txt является самым популярным инструмент, посредством которого вы сможете эффективно управлять индексацией вашего сайта. Крайне прост в эксплуатации, не требует специальных навыков. По большому счету, нужен только для того, чтобы запрещать индексацию страниц или разделов сайта для той или иной поисковой системы.

2.Основная информация по файлу robots.txt
Файл /robots.txt предназначен для указания всем поисковым роботам, как индексировать информационные сервера.
Синтаксис файла позволяет задавать запретные области индексирования, как для всех, так и для определённых, роботов.
К файлу robots.txt предъявляются специальные требования, не выполнение которых может привести к неправильному считыванию информации роботом поисковой системы или вообще к недееспособности данного файла.
Основные требования:
• все буквы в названии файла должны быть прописными, т. е. должны иметь нижний регистр: robots.txt – правильно, Robots.txt или ROBOTS.TXT – не правильно;
• файл robots.txt должен создаваться в текстовом формате. При копировании данного файла на сайт, ftp-клиент должен быть настроен на текстовый режим обмена файлами;
• файл robots.txt должен быть размещен в корневом каталоге сайта.

2.1. Содержимое файла robots.txt
Файл robots.txt обязательно включает в себя две директивы: «User-agent» и «Disallow». Некоторые поисковые системы поддерживают еще и дополнительные записи. Так, например, поисковая система Яндекс использует директиву «Host» для определения основного зеркала сайта.
Каждая запись имеет свое предназначение и может встречаться несколько раз, в зависимости от количества закрываемых от индексации страниц или (и) директорий и количества роботов, к которым Вы обращаетесь.
Полностью пустой файл robots.txt эквивалентен его отсутствию, что предполагает разрешение на индексирование всего сайта.
Директива «User-agent»
Запись «User-agent» должна содержать название поискового робота. Пример записи «User-agent», где обращение происходит ко всем поисковым системам без исключений и используется символ «*»:
User-agent: *
Пример записи «User-agent», где обращение происходит только к роботу поисковой системы Яндекс:
User-agent: Yandex
Робот каждой поисковой системы имеет своё название. Существует два основных способа узнать эти названия:
1. На сайтах многих поисковых систем присутствует специализированный раздел «помощь веб-мастеру» (на Яндексе он тоже есть http://webmaster.yandex.ru/faq.xml), в котором часто указываются названия поисковых роботов.
2. При просмотре логов веб-сервера, а именно при просмотре обращений к файлу robots.txt, можно увидеть множество имён, в которых присутствуют названия поисковых систем или их часть. Поэтому Вам остается лишь выбрать нужное имя и вписать его в файл robots.txt.
Названия основных роботов популярных поисковых систем:
Google – «googlebot»;
Яндекса – «Yandex»;
Рамблера – «StackRambler»;
Yahoo! – «Yahoo! Slurp»;
MSN – «msnbot».
Директива «Disallow»
Директива «Disallow» должна содержать предписания, которые указывают поисковому роботу из записи «User-agent», какие файлы или (и) каталоги индексировать запрещено.
Рассмотрим различные примеры записи «Disallow».
Пример1.Сайт полностью открыт для индексирования:
Disallow: /
Пример 2. Для индексирования запрещен файл «page.htm», находящийся в корневом каталоге и файл «page2.htm», располагающийся в директории «dir»:
Disallow: /page.htm
Disallow: /dir/page2.htm
Пример 3. Для индексирования запрещены директории «cgi-bin» и «forum» и, следовательно, всё содержимое данной директории:
Disallow: /cgi-bin/
Disallow: /forum/
Возможно закрытие от индексации ряда документов и (или) директорий, начинающихся с одних и тех же символов, используя только одну запись «Disallow». Для этого необходимо прописать начальные одинаковые символы без закрывающей наклонной черты.
Пример 4. Для индексирования запрещены директория «dir», а так же все файлы и директории, начинающиеся буквами «dir», т. е. файлы: «dir.htm», «direct.htm», директории: «dir», «directory1», «directory2» и т. д:
Disallow: /dir
Некоторые поисковые системы разрешают использование регулярных выражений в записи «Disallow». Так, например, поисковая система Google поддерживает в записи «Disallow» символы «*» (означает любую последовательность символов) и «$» (окончание строки). Это позволяет запретить индексирование определенного типа файлов.
Пример 5. Запрет индексации файлов с расширением «htm»:
Disallow: *.htm$
Директива «Host»
Директива «Host» необходима для определения основного зеркала сайта, то есть, если сайт имеет зеркало, то с помощью директивы «Host» можно выбрать url того сайта, под которым проиндексируется ваш сайт. В противном случае поисковая система выберет главное зеркало самостоятельно, а остальные имена будут запрещены к индексации.
В целях совместимости с поисковыми роботами, которые при обработке файла robots.txt не воспринимают директиву Host, необходимо добавлять ее непосредственно после записей Disallow.
Пример 6. www.site.ru – основное зеркало:
Host: www.site.ru
Оформление комментариев в файле robots.txt
Любая строка в robots.txt, начинающаяся с символа «#», считается комментарием. Разрешено использовать комментарии в конце строк с директивами, но некоторые роботы могут неправильно распознать данную строку.
Пример 7. Комментарий находится на одной строке вместе с директивой:
Disallow: /cgi-bin/ #комментарий
Желательно размещать комментарий на отдельной строке.

2.2 Управление индексацией с помощью мета-тегов
С помощью мета-тегов тоже можно управлять индексацией страниц сайта. Мета-теги должны находиться в заголовке HTML-документа (между тегами и ).

Наиболее полезные МЕТА-теги, которые помогут поисковикам правильно индексировать страницы вашего сайта:
1. или – управление индексацией страниц для поисковых роботов. В данном случае, указывает поисковому роботу, чтобы он не индексировал все страницы.
2. – необходим для поисковых систем, чтобы определить релевантна ли страница данному запросу.
3. – повышает вероятность нахождения страницы поисковиком по выбранному запросу (ам).
4. – управление индексацией страницы для поисковых роботов. Определяет частоту индексации. В данном случае указывается, что ваш документ является динамичным и роботу следует индексировать его регулярно.
Есть теги, которые непосредственно к индексации не относятся, но выполняют также важную роль дл удобства работы пользователя с сайтом:
1. – контроль кэширования для HTTP/1.0. Не позволяет кэшировать страницы.
2. – определение задержки в секундах, после которой браузер автоматически обновляет документ или происходит редирект.
3. – указывает, когда информация на документе устареет, и браузер должен будет взять новую копию, а не грузить из кэша.
Есть еще один мета-тег revisit-after, по поводу использования, которого ходило раньше много слухов, что он может заставить роботы поисковых систем посещать сайт с определенной периодичностью, однако специалисты Яндекс официально опровергли это.
Нет гарантии, что поисковые системы учитывают содержимое мета-тегов, индексируя сайт. Тем более нет гарантии, что эта информация будет учитываться при ранжировании сайта в выдаче. Но мета-теги полезны тем, что при индексации страниц позволяют поисковикам получить необходимую информацию о ресурсе.
Для того, чтобы прописать их не нужно много времени, поэтому старайтесь ввести максимально полную мета-информацию о странице.

Проблемы при индексации страниц

Работая в сфере поискового продвижения сайтов, приходится сталкиваться с проблемами индексирования сайтов поисковыми системами, временных «выпадений» некоторых страниц сайтов, и, как следствие, потерей позиций по ключевым словам. Происходит это, в подавляющем большинстве случаев, из-за ошибок веб-мастеров. Ведь далеко не все понимают, что, на первый взгляд, даже незначительная ошибка или упущение может привести к «значительным» последствиям – потере позиций в выдаче поисковых систем. Далее будет рассмотрен список проблем, с которыми Вы можете столкнуться при индексации.

3.1 Динамические страницы, идентификаторы сессий.
Проблема. Робот поисковой системы получает одну и ту же страницу с разными идентификаторами сессий. Поисковая система «видит» это как разные страницы. Тоже самое происходит и с динамическими страницами.
Описание. На некоторых сайтах существуют динамические страницы с различным порядком параметров, например index.php?id=3&show=for_print и index.php?show=for_print&id=3. Для пользователей – это одна и та же страница, а для поисковых систем – страницы разные. Также можно привести пример со страницей сайта: «версия для печати» с адресом, например index.htm?do=print и самой главной страницей index.htm. По структуре и текстовому наполнению эти страницы практически одинаковы. Однако для поисковой системы – это разные страницы, которые будут «склеены», и, вместо, например, продвигаемой главной страницы в выдаче поисковика будет страница «для печати».
Схожая проблема возникает при использовании, по умолчанию, ссылок на директорию и на файл в директории, например /root/ и /root/index.htm. Для пользователей она решается использованием директивы «DirectoryIndex /index.htm» файла .htaccess, либо настройками сервера. Поисковые машины же решают данную проблему сами: с течением времени «склеивают» индексную страницу с «корнем» директории.
Один из видов динамических страниц – страницы с идентификаторами сессий. На сайтах, где принято использовать идентификаторы сессий, каждый посетитель при заходе на ресурс получает уникальный параметр &session_id=. Это парамет добавляется к адресу каждой посещаемой страницы сайта. Использование идентификатора сессии обеспечивает более удобный сбор статистики о поведении посетителей сайта. Механизм сессий позволяет сохранять информацию о пользователе при переходе от одной страницы сайта к другой, чего не позволяет делать протокол HTTP. Идентификатор хранится у пользователя в куки или добавляется как параметр в адрес страницы.
Однако, так как роботы поисковых систем не принимают куки, идентификатор сессии добавляется в адрес страницы, при этом робот может найти большое количество копий одной и той же страницы с разными идентификаторами сессий. Проще говоря, для поискового робота страница с новым адресом – это новая страница, при каждом заходе на сайт, робот будет получать новый идентификатор сессии, и, посещая те же самые страницы, что и раньше, будет воспринимать их как новые страницы сайта.
Известно, что поисковые системы имеют алгоритмы «склейки» страниц с одинаковым содержанием, поэтому сайты, использующие идентификаторы сессий, все же будут проиндексированы. Однако индексация таких сайтов затруднена. В некоторых случаях она может пройти некорректно, поэтому использование на сайте идентификаторов сессий не рекомендуется.
Решение.
Что касается динамических страниц, то нужно закрывать страницы «версия для печати» и другие дубликаты в файле robots.txt, либо с помощью атрибута мета-тега noindex. Другое решение - заранее создавать функционал сайта, который бы не генерировал динамические страницы с различным порядком параметров.
Что касается идентификаторов сессий, то решение данной проблемы простое - прописать с .htaccess следующие команды:
php_flag session.use_trans_sid Off
php_flag session.use_only_cookie On
php_flag session.auto_start On

3.2 Неверная обработка 404 статуса
Проблема. Ошибки в обработке 404 статуса сервером, когда вместо 404 кода (страница не существует), сервер отдает код 200 и стандартную страницу ошибки.
Описание. Обрабатывать 404 ошибку можно по-разному, но смысл остается один. Основной и самый простой вариант обработки данной ошибки – создание страницы, например 404.htm и запись в файле .htaccess «ErrorDocument 404 /404.htm». Однако так поступают не все веб-мастера, многие настраивают сервер на выдачу главной страницы сайта при 404 ошибке. Вот здесь-то и спрятан «подводный камень». В случае некорректных настроек сервера, для страницы с ошибкой 404 (т.е. в данном случае отданной главной), сервер возвращает 200 OK. Таким образом, можно получить стопроцентный дубликат главной страницы, вследствие чего робот поисковика может «склеить» ее с любой другой страницей сайта.
Решение. Выход из данной проблемы таков: грамотная настройка сервера и обработка 404 кода через файл .htaccess путем создания отдельной страницы под обработку ошибки.

3.3 Плагиат
Проблема. Размещение материалов сайта на других сайтах, а, как следствие, – «склеивание» и потеря позиций.
Описание. Описание данной проблемы заключено в ее названии, и в современном Интернете всем хорошо известно, что плагиат – это «воровство» контента и «присваивание» авторских прав, а, с точки зрения поисковой оптимизации, – это еще и проблемы с индексацией сайта в виде появления дублей его страниц.
Решение. Решение проблемы здесь одно – письмо с жалобой о нарушении авторских прав, хостеру сайта-плагиатора, предварительно предупредив, конечно, виновного в том, что он поступает незаконно.

3.4 Другие проблемы
Неиндексация некоторых элементов страницы может быть вызвана несколькими причинами:
1. Текст заключен в тег . Это специальный тег, запрещающий индексацию текста роботу Яндекса.
2. Текст расположен в скрипте, т.е между тегами
3. Текст расположен в комментариях
4. Очень маленький размер страницы (Яндекс не индексирует файлы меньше 1 кб)
5. Ресурс не содержит русский текст (опять же, это касательно Яндекса)

Заключение

Каждому, кто ведет в Интернете серьезный проект, необходимо понимать, как роботы поисковых систем. Знание о том, когда робот приходит на сайт, что индексирует, что не индексирует, позволит избежать многих проблем, прежде всего технических, уже на стадии создания сайта и далее – при его сопровождении.

Чтобы не задаваться вопросом, почему в очередной раз сайт пропал из выдачи по некоторому запросу, прежде всего, стоит проанализировать, а что же на данный момент проиндексировал робот на сайте? Не могло оказаться так, что некоторая информация стала недоступна роботу по тем или иным причинам?

Знание основ индексирования документа позволит правильно произвести регистрацию ресурса в поисковой системе и грамотно осуществлять его дальнейшее продвижение, чтобы пользователи всегда находили Ваш сайт на просторах Интернета.

Быстрая индексация сайтов в Яндексе

Решил написать заметку о том, как ускорить индексацию сайта в поисковой системе Яндекс. Конечно, гарантий никаких, что способ будет работать и дальше, но по моим субъективным ощущениям процесс индексации ускоряется. Проверял на com домене. Попадать в индекс мы будем с помощью блога на одном из бесплатных сервисов.

Вообще, кто-то уже писал о быстрой индексации сайтов, сделанных на движке WordPress. Достаточно добавить несколько строчек в Сервисы обновления (ping):

http://blogsearch.google.com/ping/RPC2
http://ping.blogs.yandex.ru/RPC2

Так что об этом не будем, ибо мы продвигаем любой сайт (читай сателлит), не обязательно на WordPress.

Я же пробовал попасть в индекс через RSS. Зайдя на Яндекс.Блоги, посмотрел рейтинг сервисов, откуда больше всего блогов. Тройка выглядит так - LiveInternet, LiveJournal и Блоги@Mail.Ru. Напомню, что нам нужен сервис с поддержкой RSS. Таковым является Mail.ru. Идем сюда и регистрируем блог. После копируем с десяток постов из чужих блогов, не слишком популярных, вставляем в текст каждого поста по ссылке на свой продвигаемый сайт (желательно на разные разделы) и добавляем на наш новый блог. Теперь берем адрес своей RSS-ленты и отправляем его сюда. Так делаем 3-4 блога.

В итоге - должны быстрее попасть в индекс, т.к. по блогам робот Яндекса бегает шустрее.

Индексация сайта

Индексация сайта (индексирование) – это процесс сканирования содержимого его страниц поисковыми роботами, после которого они могут попасть поисковый индекс (поиск).

Индексация сайта происходит в автоматическом режиме поисковыми роботами, которые считывают текст, находящийся на страницах, заносят его в базу, где с ним проводятся различные манипуляции (проверка на изменения, проверка на плагиат, оценка релевантности поисковым запросам и т.д.).

Чтобы сообщить роботу о необходимости проиндексировать Ваш сайт обычно ничего делать не требуется, поисковый робот сам найдёт его по внешним ссылкам, если такие имеются. Если же он совсем новый, то необходимо провести несложную процедуру.

Чтобы добавить для индексации в Яндекс необходимо вписать адрес Вашего сайта на странице webmaster.yandex.ru, ввести символы на картинке и нажать “добавить”. Если вместо надписи “Адрес http://site.ru/ успешно добавлен. По мере обхода робота он будет проиндексирован и станет доступным для поиска” Вы получили, что-то вроде “Ваш хостинг не отвечает”, повторите попытку. После успешного добавления Вам остаётся лишь дождаться появления в Яндексе, на которое уходит от 3 до бесконечного числа дней (тут уж как повезёт). Проверить индексацию сайта в Яндексе можно на странице webmaster.yandex.ru/check.xml. Если Ваш сайт не появляется в поиске yandex в течение месяца, то можете написать сообщение им в суппорт и спросить, в чём может быть проблема.

Для добавления в Рамблер, необходимо заполнить несколько полей на странице robot.rambler.ru/cgi-bin/addsite.cgi. Эта процедура обязательна для всех международных зон. Сайты доменных зон .ru и .su могут попасть в Rambler автоматически. Индексация в Рамблере происходит обычно дольше, чем в других поисковиках. Ходят слухи, что для ускорения индексации нужно зарегистрироваться в top100.rambler.ru, хотя я считаю это только слухом. Проверить на проиндексированность в Рамблере можно на странице rambler.ru/doc/add_site.shtml.

Добавлять сайты в Google, в принципе, нет необходимости, они индексируются даже без ссылок, причём достаточно быстро. Вообще, Google по скорости индексирования является лидером. Но, если Вы желаете, то можете пройти на страницу google.com/addurl, и добавить главную страницу. Проверка сайта на проиндексированность гуглом осуществляется на странице Google.ru, путем запроса вида allinurl:site.ru/ site:site.ru.

Для удобства проверки разных параметров рекомендую использовать бесплатный сервис be1.ru/stat. Там же Вы можете добавить Ваш сайт на индексирование в поисковики нажатием на 3 соответствующие кнопки.
Ускорение индексации.

Для ускорения индексации сайта поисковиками можно разместить ссылки на него на хорошо индексируемых площадках (по возможности на главных страницах), которые можно определить, к примеру, по высоким пузомеркам. И вообще, чем больше ссылок на Ваш сайт, тем быстрее он проиндексируется, регистрируйте сайт в каталогах, социальных закладках, покупайте ссылки с сайтов. Так же для сайтов с большим количеством страниц рекомендуется создать карту сайта (sitemap) на которой содержатся ссылки на все страницы. Подробнее о карте сайта можно прочитать тут. Не забывайте и про правильную внутреннюю перелинковку.
Как запретить индексацию.

Иногда возникает необходимость запретить индексацию сайта, или каких-то отдельных разделов и страниц (или частей страниц). Запрещать стоит информацию из секретных разделов, дубли страниц. Многие форумы, блоги, гостевые книги и т.д. содержат служебные каталоги, которые так же стоит запрещать к индексации, чтобы уменьшить нагрузку на хостинг.

Для закрытия части страницы от индексации достаточно заключить её в теги . Правда, этот тег действует только для Яндекса.

Для запрета страниц и разделов создаётся файл robots.txt, использование которого описано на странице help.yandex.ru/webmaster/?id=996567.

Помните, что индексация сайта это лишь второй шаг (первым было создание сайта) на пути получения посетителей, далее Вам предстоит продолжать наполнение его и продвижение в поисковых системах.

Ссылки о роботах

Энциклопедия поисковых систем — самый информативный и посещаемый русскоязычный ресурс посвященный поисковым системам
Раздел о поисковых роботах — раздел о роботах на searchengines.ru
Файл robots.txt на Mastertalk — краткое и доходчивое описание robots.txt на mastertalk.ru
Приоритеты обработки записей в robots.txt — чем руководствуются роботы при парсинге файла robots.txt
Работа над файлом robots.txt — простая и понятная статья о работе над файлом robots.txt
Управление индексацией сайта (файл Robots.txt) — неплохая статья на одном из блогов
Robots.txt checker – плагин для Firefox, показывающий, есть ли на сайте robots.txt и закрыта ли текущая страница от индексирования
Предлагаемое расширение стандарта robots.txt — переписка Александра Мелькова и Мартина Костера от 2003 года
IP база поисковиков — сервис по бесплатному предоставлению постоянно обновляемой ip базы крупнейших англоязычных поисковиков (Google, Yahoo, MSN, Ask, etc).

Ошибки в файле robots.txt

Одна из самых распространённых ошибок в robots.txt – перепутаные между собой инструкции. Например:

User-agent: /
Disallow: Yandex

Правильно писать вот так:

User-agent: Yandex
Disallow: /
Указание нескольких каталогов в одной инструкции Disallow

Многие владельцы сайтов пытаются поместить все запрещаемые к индексации каталоги в одну инструкцию Disallow.

Disallow: /css/ /cgi-bin/ /images/

Такая запись нарушает стандарт, и невозможно угадать, как ее обработают разные роботы. Некоторые могут «отбросить» пробелы и интерпретируют эту запись как «Disallow: /css/cgi-bin/images/». Некоторые могут использовать только первую или последнюю папки (/css/ или /images/ соответственно). Кто-то может просто отбросить непонятную инструкцию полностью.

Конечно, какие-то роботы могут обработать эту конструкцию именно так, как расчитывал веб-мастер, но расчитывать на это все же не стоит. Правильно надо писать так:

Disallow: /css/
Disallow: /cgi-bin/
Disallow: /images/
Имя файла содержит заглавные буквы

Файл должен называться robots.txt, а не Robots.txt или ROBOTS.TXT.
Использование файла robot.txt вместо robots.txt

Еще раз – файл должен называться robots.txt.
Пустая строка в User-agent

Так неправильно:
User-agent:
Disallow:

Так правильно:
User-agent: *
Disallow:
Url в директиве Host

Следует писать без аббревиатуры протокола передачи гипертекста, то есть без http:// и без закрывающего слеша /

Неправильно:

User-agent: Yandex
Disallow: /cgi-bin
Host: http://www.site.ru/

Правильно:

User-agent: Yandex
Disallow: /cgi-bin
Host: www.site.ru

Директива host Является корректной только для робота Яндекса
Использование в Disallow символов подстановки

Иногда хочется написать что-то вроде:

User-agent: *
Disallow: file*.html

для указания все файлов file1.html, file2.html, file3.html и т.д. Но нельзя, к сожалению (некоторые роботы поддерживают символы подстановки).
Плохой стиль
Комментарии на одной строке с инструкциями

По стандарту, такая запись вполне возможна:

Disallow: /cgi-bin/ #запрещаем роботам индексировать cgi-bin

В прошлом некоторые роботы не обрабатывали такие строки. Вероятно, сейчас ни у одной из основных поисковых систем уже нет такой проблемы, но стоит ли рисковать? Лучше помещать комментарии отдельно.
Редирект на страницу 404-й ошибки:

Довольно часто, на сайтах без файла robots.txt при запросе этого файла делается переадресация на другую страницу. Иногда такая переадресация происходит без отдачи статуса 404 Not Found. Пауку самому приходится разбираться, что он получил – robors.txt или обычный html-файл. Эта ситуация вряд ли создаст какие-то проблемы, но все-таки лучше всегда класть в корень сайта пустой файл robots.txt.
Заглавные буквы – это плохой стиль

USER-AGENT: GOOGLEBOT
DISALLOW:

Хотя по стандарту robots.txt и нечувствителен к регистру, часто к нему чувствительны имена файов и директорий. Кроме того, написание robots.txt сплошь заглавными буквами считается плохим стилем.

User-agent: googlebot
Disallow:
Перечисление всех файлов

Еще одной ошибкой является перечисление каждого файла в директории:

User-agent: *
Disallow: /AL/Alabama.html
Disallow: /AL/AR.html
Disallow: /Az/AZ.html
Disallow: /Az/bali.html
Disallow: /Az/bed-breakfast.html

Вместо этого можно просто закрыть от индексации директорию целиком:

User-agent: *
Disallow: /AL/
Disallow: /Az/
Инструкции Allow не существует!

Нет инструкции Allow, есть только Disallow. Файл robots.txt ничего не разрешает, только запрещает!

Отдельные роботы (например googlebot) понимают директиву Allow


Так неправильно:

User-agent: Yandex
Disallow: /john/
Allow: /jane/

А вот так – правильно:

User-agent: Yandex
Disallow: /john/
Disallow:
Использование дополнительных директив в секции *

Некоторые роботы могут неправильно отреагировать на использование дополнительных директив. Это значит, что не стоит использовать дополнительные директивы в секции «*».
То есть рекомендуется создавать специальные секции для нестандартных директив, таких как «Host».

Так неправильно:

User-agent: *
Disallow: /css/
Host: www.example.com

А вот так – правильно:

User-agent: *
Disallow: /css/

User-agent: Yandex
Disallow: /css/
Host: www.example.com
Отсутствие инструкции Disallow

Даже если мы хотим просто использовать дополнительную директиву и не хотим ничего запрещать, лучше всего указать пустой Disallow. По стандарту интрукция Disallow является обязательной, и робот может «неправильно вас понять».

Так неправильно:

User-agent: Yandex
Host: www.example.com

Так правильно:

User-agent: Yandex
Disallow:
Host: www.example.com

Обсуждение этого вопроса на Searchengines.ru
Отсутствие слешей при указании директории

Как в этом случае поступит робот?

User-agent: Yandex
Disallow: john

По стандарту, он не будет индексировать файл с именем “john” и директорию с именем “john”. Для указания только директории надо писать так:

User-agent: Yandex
Disallow: /john/
Неправильный http-заголовок

Сервер должен возвращать в HTTP-заголовке для robots.txt «Content-Type: text/plain» а, например, не «Content-Type: text/html». Неправильный заголовок может привести к тому, что некоторые роботы не обработают файл.

Роботы рунета

В этом разделе будет копиться информация по наиболее активным роботам в Рунете. Если мы кого-то забыли – пишите, добавим.

Яндекс — Все о роботе Яндекса
Google — Все о роботе Goggle
Рамблер — Все о роботе Рамблера
MSN/Live — Все о роботе MSN/Live
Aport — Информация Апорт
Webalta — Вебальта вебмастеру
Yahoo! — о роботе Yahoo!

Quintura — О роботе Quintura
Turtle — Информация о Черепахе

FAQ по поисковым роботам

Общая информация о поисковых роботах

Поисковый робот – это программа, автоматически путешествующая по веб, запрашивая документы и рекурсивно получая все документы, на которые они ссылаются.

Заметьте, что слово «рекурсивно» здесь не относится к конкретной реализации алгоритмов. Робот может, например, случайным образом выбирать документ который будет обработан следующим, или посещать их через значительные промежутки времени, тем неменее он считается роботом.

Обычные веб-браузеры к роботам не относятся, поскольку управляются человеком и не получают документы, на которые стоят ссылки, автоматически (за исключением картинок, скриптов и т.п.).

Поисковых роботов иногда называют пауками, Web Wanderers или Web Crawlers. Такие названия вносят некоторую путаницу, так как создаётся впечатление, что программы перемещаются по интернету самостоятельно, на манер вирусов. Это не так, робот «посещает» сайты, попросту запрашивая с них документы.
Что такое агент?

Слово «агент» имеет несколько значений. Например:

Автономные агенты
это программы, перемещающиеся от сайта к сайту и самостоятельно решающие, что делать дальше. Обычно они перемещаются между специализированными серверами, и практически не распространены в интернете.

Интелектуальные агенты
это программы, помогающие пользователям – например в выборе продукта, заполнении форм или даже в поиске. Такие программы имеют очень небольшое отношение к сетевому взаимодействию.

Пользовательские агенты
это техническое название программ, помогающих пользователям в межсетевых взаимодействиях. Это могут быть браузеры, такие как Internet Explorer, Firefox или Opera или почтовые программы, такие как Outlook Express, Thunderbird или Qualcomm Eudora.
Что такое поисковая система?

Поисковая система – это программа, которая осуществляет поиск в некотором наборе данных. В интернете «поисковая система» чаще всего обозначает поисковую форму, с помощью которой осуществляется поиск по базе данных HTML-документов, проиндексированных роботом.
В наше время поисковики работают не только с HTML-страницами, но и разные другие интересными вещами, например картинками или видео

Какие другие виды роботов существуют?

Существуют роботы для различных целей:
  • Индексация

  • Проверка HTML

  • Проверка ссылок

  • Проверка обновлений

  • Зеркалирование
В списке основных роботов Рунета вы можете найти информацию какой робот для чего нужен.
Что такое Роботы, Пауки, Черви?

Это все названия означают практически одно и то же, но имеют некоторые отличия:

Роботы
общее название для всего вида программ, см. выше

Пауки
то же, что и роботы, но звучит гораздо круче, поэтому больше нравится журналистам

Черви
то же, что и роботы, но в отличие от обычных роботов, являются самовоспроизводящимися

Муравьи
распределённые (пример: комариная стая), взаимодействующие между собой роботы
Не вредят ли поисковые роботы интернету?

Есть несколько причин, по которым люди считают, что роботы вредят интернету:
  • Некоторые реализации роботов могут (и такие случаи были) перегрузить сети и сервера. Это может произойти, когда робота пишет неопытный программист. В настоящее время в сети достаточно информации о создании роботов, чтобы избегать таких ошибок.

  • Роботами управляют люди, которые могут ошибиться в настройках, или попросту не подумать о последствиях своих действий. Это значит, что людям стоит быть осторожнее, а авторы роботов должны создавать программы таким образом, чтобы избежать такого рода ошибок.

  • Индексирующие роботы обычно складывают данные в централизированную базу данных, что не очень масштабируется на миллионы документов на миллионах сайтов
В то же время бОльшая часть роботов хорошо спроектирована, профессионально управляется, не создает никаких проблем и предоставляет прекрасный сервис, особенно учитывая отсутствие альтернативных решений.

Поэтому роботы по своей природе не плохие и не хорошие, и посему требуют внимательного к себе отношения.

Существуют ли книги о поисковых роботах?

Да. Для справки: если вы купите книгу по нижепреведенной ссылке, интернет-магазин заплатит автору robotstxt.org немного денег, которые пойдут на поддержание сайта. Книги преведены в алфавитном порядке.

Bots and Other Internet Beasties by Joseph Williams

Я не читал эту книгу, но слышал следующий отзыв: «Эта книга несколько разочаровала. Она претендует на звание «инструкции» по написанию роботов, но на мой взгляд это просто набор глав, написанных людьми имеющими некоторый опыт в данной области, и впоследствии собранные вмести.

Published by Pearson Education, 1996. ISBN 1575210169.

Client Programming with Perl by Clinton Wong
Сейчас эта книга уже не издается, но она есть в свободном доступе на O'Reilly Open Books Project.

Published by O'Reilly, 1997.

Internet Agents: Spiders, Wanderers, Brokers, and Bots by Fah-Chun Cheong.
Насколько я знаю, эта книга больше не издается. В ней описаны поисковые роботы, агенты для проведения коммерческих трансакций, агенты Mud (Multi-user Dungeons или Multi-user Dimensions сетевые игры, обычно текстовые) и некоторые другие роботы. В книге приведен исходный код простого веб-робота на основе libwww-perl4.

HTTP, HTML и сетевые библиотеки рассмотрены в ней слишком бегло, чтобы претендовать на роль «инструкции по написанию роботов», но в ней дано довольно много теории, и описание имеющихся реализаций. Что особенно хорошо, если у вас нет времени на самостоятельный поиск этой информации в сети.

Published by New Riders, 1995. ISBN 1–56205–463-5.

Perl & LWP by Sean M. Burke.
В книге рассказывается о том, как использовать LWP, стандартную perl-беблиотеку для работы с веб. В ней есть главы о роботах. Рекомендую.

Кстати, автор прислал мне копию на рецензию, и я соавтор LWP.

Published by O'Reilly, 2002. ISBN 0596001789

Spidering Hacks by Kevin Hemenway, Tara Calishain.
Не читал. В книге описываются пауки, LWP, robots.txt

Published by O'Reilly, 2003. ISBN: 0596005776
Где я могу найти дополнительную информацию о поисковых роботах?

На Web robots home page по адресу http://www.robotstxt.org/wc/robots.html. Последняя версия этого Ча Во находится именно там.

Кроме того много информации о роботах вы можете нати на этом сайте. Например начните с просмотра разделов Роботы Рунета и ссылки.

Индексирующие роботы

Каким образом роботы выбирают, какую страницу индексировать?

Это зависит от робота – каждый использует свои критерии для выбора. В общем случае, они начинают с документов, с которых идет много ссылок – например, каталогов, новостных сайтов и наиболее популярных сайтов в сети.

Большинство поисковых систем позволяют добавлять URL вручную. После добавления они добавляются в очередь и через некоторое время индексируются.

Иногда используются иные источники URL, например рассылки USENET, опубликованные архивы e-mail рассылок и т.д.

Сейчас архивы USENET доступны на http://groups.google.com/.

Из этих источников робот выбирает URL-ы, которые потом индексирует, из них же он получает списки новых URL-ов. Особенности поведения наиболее распространенных в Рунете роботов можно посмотреть в соответствующем разделе.
Как робот решает, что ему индексировать?

Если индексирующий робот знает о существовании документа, он может решить распарсить его (разобрать, как разбирают предложения) и добавить в базу. Сам процесс зависит от конкретного робота: некоторые роботы читают только Title документов, некоторые берут первые несколько параграфов, некоторые – берут весь документ, индексируют все слова с различным весом, в зависимости от html-разметки. Некоторые разбирают мета-теги или другие специальные скрытые теги.

Надеемся, что с развитием интернета, появится больше возможностей эффективно связать мета-данные документа с самим документом. Работа в этом направлении ведется.

Как мне добавить мой сайт для индексирования?

Это зависит от поисковой системы. Многие системы размещают ссылку на добавление сайта на странице поиска или в одном из разделов сайта. Например:
  • Яндекса есть страница Добавить URL

  • у Google есть раздел Information for Webmasters

  • у Рамблера есть Форма регистрации сайта
Для администраторов

Как мне узнать, что на мой сайт заходил робот?

Вы можете проверить логи на предмет того, что за очень короткое время было запрошено множество документов.

Если ваш сервер заности в логе user-agent-ы, можете проверить в логах необычные user-agent-ы.

И наконец, если с сайта запрашивался файл '/robots.txt', вероятно, это был робот.
Ко мне на сайт заходил робот! Что мне делать?

Хмм, в принципе ничего :-). Суть в том, что они полностью автоматические. Вам не требуется ничего делать.

Если вам кажется, что вы нашли нового робота (т.е. он не указан в списке действующих роботов и он заходит с некоторой периодичностью, напишите мне, чтобы я мог внести его в список. Но пожалуйста, не пишите мне о каждом замеченном вами роботе!
Робот чересчур быстро забирает весь мой сайт!

Такие роботы называют «скорострельными», и пользователи, просматривающие лог-файлы, обычно их сразу замечают.

Прежде всего проверьте, действительно ли это проблема, измерив нагрузку на сервер и просмотрев журнал ошибок на предмет отказов в соединении. Если ваш сервер достаточно мощный, такие нагрузки не будут для него сколь-либо заметной проблемой.

Однако, если вы используете в качестве веб-сервера свой персональный компьютер или у вас медленное серверное ПО, или много долго формируемых документов (например, CGI-скрипты или просто очень большие документы), то такие проблемы проявляются в отказах в соединении, высоких нагрузках, замедлении работы или в самом худшем случае в отказах системы.

В таких случаях надо сделать несколько вещей. Глваное, начните записывать информацию – когда вы это заметили, что показывают логи, что вы сделали – это поможет позже разобраться в проблеме. Далее выясните, откуда пришел робот, какие у него IP и доменное имя, и посмотрите, указаны ли они в списке действующих роботов. Если вы таким образом определили что это за робот, вы можете написать e-mail ответственному за него человеку и спросить его, что происходит. Если это не поможет, поищите у них на сайте телефоны или напишите на адрес postmaster @ домен.

Если робот не указан в списке, пришлите мне собраную вами информацию, включая предпринятые вами действия. Даже я не смогу помочь, я напишу об этом роботе и тем самым предупрежу других пользователей.
Как мне заставить роботов держаться подальше от моего сайта?

Об этом в следующем разделе.

Стандарт исключения роботов
Почему у меня в логах появляются запросы файла robots.txt?

Это запросы от роботов, которые пробоуют получить инструкции для обработки сайта в соответствии со стандартом исключения роботов.

Если вы не хотите давать роботам никаких инструкций, и в то-же время хотите убрать эти сообщения из логов, попросту создайте в корне сайта пустой файл robots.txt.

Не стоит писать туда html или текст, типа «Кто там?» – вероятнее всего его никто никогда не прочтет :-).
Как запретить роботам индексировать мой сайт?

Самый простой способ – поместить в /robots.txt следующие строчки:

User-agent: *
Disallow: /

Более точечные ограничения задаются также просто.
Где мне узнать как работает файл /robots.txt?

Вы можете почитать стандарт, но суть robots.txt очень проста. Вы можете указать роботам, что какие-то разделы сайта нельзя индексировать либо всем, либо каким-то конкретным роботам. Проще всего объяснить на примере:

# /robots.txt для сайта www.example.com

User-agent: Yandex
Disallow:

User-agent: BadRobot
Disallow: /

User-agent: *
Disallow: /tmp
Disallow: /logs

Две первые строчки, начинающиеся с '#' – это комментарии.

Первый блок указывает, что робот с имененм 'Yandex' может индексировать все разделы сайта.

Второй блок указывает, что робот с имененм 'BadRobot' не должен индексировать все URL, начинающиеся с '/'. Так как с '/' начинаются все URL, это попросту значит, что для него весь сайт закрыт от индексирования.

Третий блок запрещает всем остальным роботам индексировать URL, начинающиеся с /tmp или /log. «Звездочка» – это специальный символ, означающий «любой другой User-agent», но, тем не менее, вы не можете использовать в инструкциях User-agent или Disallow регулярные выражения.

Здесь часто допускают две ошибки:
  • Групповые символы не поддерживаются: вместо 'Disallow: /tmp/*' пишите просто 'Disallow: /tmp/'.

  • Пишите только один путь в каждую Disallow-строку (в следующих версиях спецификации это может измениться).
Будет ли стандарт на robots.txt развиваться дальше?

Возможно... есть некоторое количество идей по поводу этого стандарта. Эти идеи так и не были оформлены в конкретные предложения из-за нехватки времени, или потому, что эти идеи продвигали недостаточно настойчиво. Шлите свои предложения в список рассылки разработчиков роботов.

Что если у меня нет возможности создать файл robots.txt?

Иногда у вас нет возможности создать файл /robots.txt, например из-за отсутствия прав доступа. Для таких случаев существует новый стандарт, использующий мета-теги для запрещения индексации ваших документов.

Если вы включите в свой документ тег:

\meta name="роботс" content="ноиндекс"\

то этот документ проиндексирован не будет.

А если вы напишете:

<мета нэйм="роботс" контент="нофоллоу">

робот не будет проходить по ссылкам в этом документе.

Не является ли перечисление файлов и директорий в файле robots.txt опасным?

Некоторые беспокоятся, что, перечисляя файлы и директории в файле /robots.txt, они привлекают к ним ненужное внимание. Для них два совета.

Во-первых, вы можете поместить все файлы, которые не должны быть доступны роботам, в отдельную директорию, сконфигурировать сервер так, чтобы нельзя было получить список файлов из этой директории, а затем записать в robots.txt только название этой директории. Таким образом, роботы, не соблюдающие стандарт, не смогут проиндексировать файлы в этой директории, за исключением случаев, когда вы сами поставите на них ссылку на других страницах.

Проще говоря, вместо:

User-Agent: *
Disallow: /foo.html
Disallow: /bar.html

используйте:

User-Agent: *
Disallow: /norobots/

поместите в директорию “norobots” файлы foo.html и bar.html и запретите серверу отдавать список файлов, находящихся в этой директории. Теперь атакующий будет знать, что у вас есть директория “norobots”, но не сможет узнать имена файлов, находящихся там – ему придется угадывать их.

Однако на практике этот подход очень уязвим. Кто-то может разместить ссылку на ваши файлы на своем сайте. Или их названия могут появиться в общедоступном лог-файле, например, генерируемом прокси-сервером, через который ходят посетители вашего сайта. Или кто-то может перенастроить сервер, опять сказав ему отдавать список файлов в директории. Все это приводит нас к настоящему ответу на этот вопрос:

Этот ответ таков: файл robots.txt не предназначен для контроля доступа и не должен для него использоваться. Рассматривайте его не как замок на двери, а как табличку «не входить». Если доступ к определенным файлам на сервере нужно ограничить – используйте систему авторизации доступа. Поддержка Basic Authentication появилась в веб-серверах еще на заре веб (например, она очень просто настраивается на Apache), а если вам нужно что-то посерьезнее, используйте SSL.

Доступность

Как я могу воспользоваться услугами роботов?

Если вы имеете в виду поисковые сервисы, то сейчас в интернет их достаточно много. Например, попробуйте Яндекс или Google.
Где я могу достать робота для себя?

Вы можете просмотреть список действующих роботов – я начинаю потихоньку добавлять информацию о том, доступны ли они для скачивания и использования.

Также много проектов с открытым кодом можно найти на SourceForge.
Где я могу достать исходный код робота?

Смотрите предыдущий абзац – для некоторых общедоступных роботов может предоставляться исходный код.

Либо посмотрите libwww-perl5 – с ним идет небольшой пример.

И не забудте поискать на SourceForge.
Я пишу робота, на что мне стоит обратить особое внимание?

О, на многое. Для начала, прочитайте все материалы этого сайта, потом – отчеты с прошедших WWW-конференций, и спецификации HTML и HTTP..
Я написал робота, как мне включить его в список?

Заполните форму на странице The Web Robots Database и отправьте ее мне.