Зачем нужны роботы на сайте? Что происходит дальше , после того как поисковые системы , по нашему запросу, прислали своих поисковых роботов за свежим контентом на сайт? Как происходит процесс индексации? Как его контролировать и оптимизировать? Какова роль поисковых роботов в процессе индексации сайта? Как работают роботы?
Поисковые системы (ПС) для поиска, индексации и анализа интернет-ресурсов используют программы-роботы (еще их называют роботы поисковых систем , поисковые роботы) .
Программа-робот (она же Search engine robot(англ..-робот поисковой системы) ,она же поисковый робот, или сокращенно – bot (бот), еще ее называют crawler, worm(англ..- гусеница, «червяк»), spider(англ..-паук) – это программа(скрипт), котораяработает на Вашем сайте , переходит по найденным ссылкам и передает содержимое сайта поисковой системе . С ее помощью поисковик узнает об обновлениях и изменениях на сайте.
Поисковые роботы сканируют сайт , ищут ссылки , переходят по ссылкам и закачивают содержимое страниц , ищут на страницах ссылки , переходят по ним и этот процесс повторяется снова и снова. Так поисковики пополняют свою коллекцию проиндексированных страниц. Эти страницы поисковик выдаст на поисковый запрос пользователя , если посчитает их релевантными (т.е. отвечающим ожиданиям пользователя на свой запрос).
Индексация сайта начинается с визита поискового робота
Давайте разберемся какие бывают поисковые роботы и как роботы работают.
Crawler (краулер, «ползающий» ) – Ползает по интернету от ссылки к ссылке в поисках свежего контента. Найдя новый контент , зовет на помощь своего коллегу Спайдера.
2. Spider
Spider (Спайдер, (англ.-паук) – программа, подобная браузеру , только без графической оболочки, которая скачивает веб-страницы .
Он видит страницу , так как если бы ее открыли в блокноте , а не в браузере , т.е. голый html код , без картинок и видео. Все это он тащит в Database (хранилище документов, база данных поисковой системы). Из Database поисковая система подбирает и выдает документы по поисковому запросу пользователя.
Примечание: картинки и видео без названия и описания для поисковых систем не являются информацией , которую нужно индексировать. Робот не может просмотреть Ваше видео, или картинку и понять о чем она . Информацией для него является только название и описание , а также окружающий текст.
Если речь идет об видео уроке , или инструкции, полезно разместить рядом с видео его текстовое изложение .
Сайт глазами робота
Веб-сервисы , позволяющие взглянуть на сайт глазами разных поисковых систем:
Он сидит у себя в норе, нигде не ползая и ничего не скачивая , пережевывает принесенный ему Спайдером контент. Раскладывает документ на заголовки, теги, ключевые слова и прочее. Именно он принимает решение о релевантности контента(т.е. соответствия поисковому запросу) и его месте в поисковой выдаче (т.е. на какой странице какой документ разместить по определенному поисковому запросу).
Это лишь некоторые из основных частей любой поисковой системы , которые можно назвать “роботами”.
Иногда функции краулера и спайдера могут быть объединены в одном роботе. В любом случае ни один поисковик без них не может работать.
Как правило крупные поисковые системы используют каждая своих роботов и свои алгоритмы обработки. Хотя есть некоторые поисковики , использующие чужих роботов.
Разные поисковые системы работают с разной эффективностью , соответственно и популярность у них разная. На каких роботов стоит обратить внимание в первую очередь ?
Важность поисковой системы для сайта будем определять количеством целевых посетителей, которое данный поисковик способен привести на наш сайт. Если с какого то поисковика нет переходов , или почти нет , то и нет смысла под него оптимизироваться. Уделим основное внимание основным поисковым системам
Определим какие поисковые системы являются основными поставщиками трафика для Рунета.
Какими поисковиками чаще пользовались в Рунете в период 2009-2011 г.
Эта статистика популярности актуальна для России. В Украине статистика несколько иная ( хотя Украина и находиться в зоне действия русскоязычного Яндекса. Представительства Яндекса имеются только в России и Украине).
В украинском рейтинге поисковиков на первом месте и с большим отрывом – Google (70%), на втором Яндекс (24%) , а дальше с большим отставанием ukr.net , mail.ru, bing.com, Meta.ua и прочие поисковые системы.
Посмотреть с каких поисковиков идут посетители на Ваш сайт и насколько эффективно Вы используете трафиковый потенциал основных поисковых систем, можно в панели вебмастера Google и Yandex , где Ваш сайт уже , я надеюсь, зарегистрирован. Этим ПС следует уделить основное внимание при оптимизации сайта , т.е. оптимизировать сайт под них.
У меня например основной поставщик посетителей Google , с большим отрывом от Yandex и остальных. У вас может быть иначе. Дело в том ,что с Яндексом у моего блога сразу как то не сложились отношения , а Google принял как родного. На данном этапе нужно оптимизировать блог под Яндекс , что бы получить свою часть российского трафика. Судя по графику , посетителей с Яндекса должно быть почти в два раза больше чем с Google , чего я , пока, у себя не наблюдаю.
Для того чтобы контролировать и влиять на процесс индексации необходимо иметь информацию о том как поисковые роботы ведут себя на Вашем сайте.
Узнать какие роботы посещали Ваш сайт можно из журнала посещений Вашего сервера (Access LOG). Для этого , конечно, требуется иметь доступ к нему (бесплатные хостинги могут не предоставлять такой возможности).
Log-файл хранится на сервере Вашего хостинга. Это текстовый файл , в котором подробно построчно записываются все визиты на сайт (в каждой строке записан один визит). Кто, когда, зачем заходил на сайт и прочая служебная информация , которая поможет контролировать поисковых роботов.
Access_log нужен для анализа посещаемости сайта, обнаружения причины нагрузки и т.п.
Access_log содержит следующую информацию
IP-адрес посетителя;
дата и время запроса;
текст запроса (в том числе, URL запрашиваемого файла);
имя пользователя (при использовании HTTP-аутентификации);
ip-адрес web-сервера;
Для примера покажу сокращенный фрагмент из моего лога . В нем выбраны строки с названиями поисковых роботов . Эти сведения нам пригодятся при составлении файла robots.txt (файл с инструкциями для поисковых роботов , помогает оптимизировать индексацию сайта).
Строки о запросах страниц сайта роботами поисковых систем выглядят следующим образом (названия роботов выделены):
В этом фрагменте лога зафиксированы посещения следующих роботов:
YandexBot
Googlebot
Nigma.ru
YandexBlogs
Yahoo! Slurp
Чьи это роботы нетрудно догадаться по названиям. Но так легко бывает не всегда 🙂
Для анализа логов сервера и построения стат. отчетности удобнее всего пользоваться специальным софтом , как правило платным. Не буду рекомендовать какое-то конкретное программное обеспечение для этих целей. Эта тема обширная и выходит за рамки данной статьи.
Пока писалась статья и подбирался материал , мне встретился простой, но очень полезный плагин для WordPress , который поможет отслеживать активность роботов на сайте. Он ведет журнал посещений сайта роботами. С его помощью очень просто можно посмотреть какие роботы и когда посещали Ваш сайт , что скачивали.
После установки и активации плагина никаких настроек не требуется.
Для просмотра журнала посещений роботов нужно просто набрать в строке браузера URL своего сайта и добавить /robots_log.txt . Журнал напоминает access_log сервера , правда информация в нем только о роботах и не такая подробная как в access_log.
Информер о последней дате визита роботов Google Yahoo MSN
Сайт mypagerank.net предоставляет возможность отслеживать дату последнего визита поисковых роботов Google, Yahoo и MSN на Вашем сайте, разместив на нем вот такие информеры:
Как видно из диаграммы робот Яндекса не забывает мой блог , но посетители идут в основном с Google. Нужно будет поработать в направлении Яндекса 🙂
Еще меня настораживает активность неизвестного мне робота Ezooms Robot (7-е место рейтинга). Это какой то совсем новый робот (год рождения 2011), ничего конкретного о нем не нашел в интернете. Непонятно на кого он работает , кто и как использует результаты его работы. Был бы робот полезным , думаю о нем бы написали (в прочем как и о вредном 🙂 ).
Понаблюдаю за эти поисковым роботом некоторое время. Если будет продолжать в том же духе нужно будет закрыть ему доступ к сайту , слишком часто он нагружает сервер и это при нулевом количестве переходов с него.
робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса.
Mozilla/5.0 (compatible
YandexDirect/2.0 Dyatel)
«простукивалка» Яндекс.Директа.
Mozilla/5.0 (compatible
YandexMetrika/2.0)
робот Яндекс.Метрики.
Mozilla/5.0 (compatible
YandexCatalog/3.0 Dyatel)
«простукивалка» Яндекс.Каталога.
Mozilla/5.0 (compatible
YandexNews/3.0)
индексатор Яндекс.Новостей.
Mozilla/5.0 (compatible
YandexImageResizer/2.0)
робот мобильных сервисов
У меня на блоге чаще других бывает робот Яндекса –YandexMetrika. Судя по журналу посещений он ничего не выкачивает , а скорее всего только проверяет доступность сайта. Этот робот практически не нагружает сервер. “Простукивалки” Яндекса проверяют доступность сайта и отдельных страниц.
Похожие функции выполняет и робот InternetSeer (3-е место рейтинга) – это робот интернет сервисов Internetseer.com и host-tracker.com .Сервисы выполняют функции мониторинга сайта по различным параметрам (количество параметров зависит от выбранного тарифного плана ). В бесплатном варианте “Standart” сервис может высылать результаты круглосуточного мониторинга аптайм (доступность) сервера на e-mail еженедельно.
Пожалуй самые активные , быстрые и продвинутые роботы это роботы поисковой системы Google.
Они очень быстро накидываются на новый сайт , или свежий контент.
Абсолютно новый сайт, даже без регистрации где либо , будет известен Google уже через несколько часов после его появления в интернете .
Google , как и Яндекс, тоже имеет целое подразделение разных роботов , каждый из которых заточен под определенные задачи (поиск текста, картинок , видео, RSS, комментариев , рекламных площадок, контента для мобильных устройств и т.п ) .
В таблице указаны только основные роботы крупных поисковиков. У каждого приличного поисковика на службе имеется по несколько различных роботов для разных целей (как у Яндекса и Google).
Только известных (зарегистрированных) роботов насчитывается более пяти тысяч.
Как уже было сказано, поисковых роботов огромное количество . Пытаться угодить всем нет смысла .
В предыдущей статье Правильное использование ПИНГ СЕРВИСОВ для ускорения индексации сайта я уже высказывал свое мнение по поводу привлечения большого количества роботов на сайт (всех без разбора). Там же я давал советы как не привлекать внимания плохих роботов (BAD robots) от которых пользы ноль , а вреда может быть очень и очень.
Каждый робот , пришедший на Ваш сайт, выполняя свою работу шлет множество запросов серверу , тем самым съедая его ресурсы. С этим можно и нужно смириться , если робот полезный и после того как он выполнит скан сайта его содержимое появится в крупных поисковых системах и читатели смогут найти и посетить Ваш сайт. Другое дело , когда какой то неизвестный робот нагружает сервер , шлет и шлет по несколько сот запросов , сканирует сайт , а будет ли толк неизвестно.
Например:
Преподаватели некоего университета создали робота , который очень активно сканировал сайты в интернете собирая контент для того чтобы проверить работы студентов на предмет плагиата.
Как Вы думаете , много ли пользы Вашему сайту принесет этот робот ?
Нужно иметь ввиду , что подобные программы-роботы могут посещать сайт не только по поручению поисковой системы. Аналогичные программы имеются в распоряжении у различных спамеров и охотников за уникальным контентом и т.п. Они могут выполнять немного более узкие задачи , например собирать e-mail адреса , конфиденциальные данные, свежие статьи, фото , полностью скачивать Ваш сайт для разных целей и прочее, прочее, прочее.
Вывод:
Не все роботы одинаково полезны!
Анализируя лог посещений своего сервера можно найти множество незнакомых имен роботов.
Возникает вопрос , а нужно ли пускать того, или иного робота к себе на сайт.
Для того что бы определить , что за робот шарил по Вашему сайту выкладываю несколько ссылок для более глубокого ознакомления с разновидностями роботов и их функциями.
По этим ссылкам Вы сможете найти досье на любого бота и решить для себя , как его встречать на своем сайте:
Роботы основных поисковых систем должны комфортно себя чувствовать на Вашем сайте.
О том как управлять роботами , как помочь ХОРОШИМ роботам и помешать ПЛОХИМ на своем сайте читайте в следующей статье.
Пинг Wordpress . Плагин cbnet Ping Optimizer. Пинг – это оповещение поисковых систем о новом контенте на вашем сайте, привлекает поисковых роботов тем самым ускоряя процесс индексации.
Оповещение происходит через, так называемые, сервисы обновления (Update services) – пинг сервисы (ping services).
Как известно у Wordpress (даже в последних версиях) есть проблема с пингованием, которые легко решаются с помощью данного плагина.
Желающих узнать ваш настоящий e-mail с каждым днем все больше. Практически везде для регистрации требуется указать свой e-mail.
Методика - “получи «плюшку» в замен на личные данные” сейчас очень распространена, причем не только в интернете. Неприятным последствием случайных регистраций может стать полный ящик СПАМа.
Предохраниться от СПАМА помогут специальные веб сервисы - одноразовая почта, или временная почта, почта на минуту. Предохраняйтесь от спама :-D
Спасибо, статья интересная. У меня сайт на моем скрипте, но попытаюсь внедрить предоставленный плагин от wordpress.
Спасибо, очень интересно и подробно описано 🙂