Рейтинг@Mail.ru
Евгений Попов раскрывает Все технические моменты онлайн-бизнеса в видеоформате 2011.
02.12.2011 – 03:08 | Нет комментариев

Вышел новый обучающий видеокурс от Евгения Попова - “Все технические моменты онлайн-бизнеса в видеоформате 2011”. Здесь есть ВСЕ!

Читать запись полностью »
Бесплатное

курсы ,тренинги ,уроки ,советы новичкам

SEO

Поисковая оптимизация , раскрутка и продвижение

О разном

Прикольное , любопытное , интересное , полезное.

Сервисы

Онлайн инструменты. Веб сервисы

Wordpress

Полезные плагины, хаки, советы

Главная » Сервисы

Поисковые роботы и индексация сайта

Опубликовал в 22.11.2011 – 00:30комментария 2

GoogleSpider

  1. Как поисковые системы индексируют сайт
  2. Программы-роботы на службе у поисковых систем
  3. Рейтинг популярности поисковых систем Рунета
  4. Узнай какие поисковые роботы были на сайте
  5. Все записано в ACCESS_LOG
  6. Наблюдаем за роботами с помощью плагина для WordPress
  7. Топ 10 поисковых роботов  
  8. Список роботов Яндекса
  9. Основные роботы Google
  10. Названия роботов основных поисковых систем
  11. Полезные и вредные роботы  (Spiders , Crawlers)

В предыдущей статье “Правильное использование ПИНГ СЕРВИСОВ для ускорения индексации сайта” был описан один из способов привлечения поисковых роботов на сайт .

Зачем нужны роботы на сайте? Что происходит дальше , после того как поисковые системы , по нашему запросу, прислали своих поисковых роботов за свежим контентом на сайт? Как происходит процесс индексации? Как его контролировать и оптимизировать? Какова роль поисковых роботов в процессе индексации сайта? Как работают роботы?

Эти и другие вопросы рассмотрены в этой статье.

 

Как поисковые системы индексируют сайт

Поисковые системы (ПС) для поиска, индексации и анализа интернет-ресурсов используют программы-роботы (еще их называют роботы поисковых систем , поисковые роботы) .

Программа-робот (она же Search engine robot (англ..-робот поисковой системы) ,она же поисковый робот, или сокращенно – bot (бот), еще ее называют crawler, worm(англ..- гусеница, «червяк»), spider(англ..-паук) – это программа(скрипт), которая работает на Вашем сайте , переходит по найденным ссылкам и передает содержимое сайта поисковой системе . С ее помощью поисковик узнает об обновлениях и изменениях на сайте.

Поисковые роботы сканируют сайт , ищут ссылки , переходят по ссылкам и закачивают содержимое страниц , ищут на страницах ссылки , переходят по ним и этот процесс повторяется снова и снова. Так поисковики пополняют свою коллекцию проиндексированных страниц. Эти страницы поисковик выдаст на поисковый запрос пользователя , если посчитает их релевантными (т.е. отвечающим ожиданиям пользователя на свой запрос).

Индексация сайта начинается с визита поискового робота

Давайте разберемся какие бывают поисковые роботы и как роботы работают.

Программы-роботы на службе

у поисковых систем

 

1. Crawler

Crawler (краулер, «ползающий» ) – Ползает по интернету от ссылки к ссылке в поисках свежего контента. Найдя новый контент , зовет на помощь своего коллегу Спайдера.

 

2. Spider

 

robot-spider-300x216 Spider (Спайдер, (англ.-паук) – программа, подобная браузеру , только без графической оболочки, которая скачивает веб-страницы .

Он видит страницу , так как если бы ее открыли в блокноте , а не в браузере , т.е. голый html код , без картинок и видео. Все это он тащит в Database (хранилище документов, база данных поисковой системы). Из Database поисковая система подбирает и выдает документы по поисковому запросу пользователя.

Примечание: картинки и видео без названия и описания для поисковых систем не являются информацией , которую нужно индексировать. Робот не может просмотреть Ваше видео, или картинку и понять о чем она . Информацией для него является только название и описание , а также окружающий текст.

Если речь идет об видео уроке , или инструкции, полезно разместить рядом с видео его текстовое изложение .

Сайт глазами робота

funny_eyes Веб-сервисы , позволяющие взглянуть на сайт глазами разных поисковых систем:

Подобного рода онлайн сервисов в интернете полно. Достаточно набрать в поиске “сайт глазами поисковой системы или робота”.

После спайдера за дело берется индексатор (indexer).

3. Indexer

 

Indexer (индексатор)программа-анализатор веб-страниц.

Indexer-это мозг поисковой системы.

Он сидит у себя в норе, нигде не ползая и ничего не скачивая , пережевывает принесенный ему Спайдером контент. Раскладывает документ на заголовки, теги, ключевые слова и прочее. Именно он принимает решение о релевантности контента(т.е. соответствия поисковому запросу) и его месте в поисковой выдаче (т.е. на какой странице какой документ разместить по определенному поисковому запросу).

Это лишь некоторые из основных частей любой поисковой системы , которые можно назвать “роботами”.

Иногда функции краулера и спайдера могут быть объединены в одном роботе. В любом случае ни один поисковик без них не может работать.

Как правило крупные поисковые системы используют каждая своих роботов и свои алгоритмы обработки. Хотя есть некоторые поисковики , использующие чужих роботов.

Разные поисковые системы работают с разной эффективностью , соответственно и популярность у них разная. На каких роботов стоит обратить внимание в первую очередь ?

 

 

Важность поисковой системы для сайта будем определять количеством целевых посетителей, которое данный поисковик способен привести на наш сайт. Если с какого то поисковика нет переходов , или почти нет , то и нет смысла под него оптимизироваться. Уделим основное внимание основным поисковым системам

Определим какие поисковые системы являются основными поставщиками трафика для Рунета.

Узнать статистику по основным поисковикам Рунета можно здесь :
Глобальная статистика от Spylog.
Глобальная статистика от Liveinternet.

 Какими поисковиками чаще пользовались в Рунете в период 2009-2011 г.

clip_image001

Эта статистика популярности актуальна для России. В Украине статистика несколько иная ( хотя Украина и находиться в зоне действия русскоязычного Яндекса. Представительства Яндекса имеются только в России и Украине).

В украинском рейтинге поисковиков на  первом месте и с большим отрывом – Google (70%), на втором Яндекс (24%) , а дальше с большим отставанием ukr.net , mail.ru, bing.com, Meta.ua и прочие поисковые системы.

Посмотреть с каких поисковиков идут посетители на Ваш сайт и насколько эффективно  Вы используете трафиковый потенциал основных поисковых систем, можно в панели вебмастера Google и Yandex , где Ваш сайт уже , я надеюсь, зарегистрирован. Этим ПС следует уделить основное внимание при оптимизации сайта , т.е. оптимизировать сайт под них.

У меня например основной поставщик посетителей Google , с большим отрывом от Yandex и остальных. У вас может быть иначе. Дело в том ,что с Яндексом у моего блога сразу как то не сложились отношения , а Google принял как родного. На данном этапе нужно оптимизировать блог под Яндекс , что бы получить свою часть российского трафика. Судя по графику , посетителей с Яндекса должно быть почти  в два раза больше чем с Google , чего я , пока, у себя не наблюдаю.

Для того чтобы контролировать и влиять на процесс индексации необходимо иметь информацию о том как поисковые роботы ведут себя  на Вашем сайте.

 

Какие роботы были на сайте

 

Все записано в ACCESS_LOG

 

Узнать какие роботы посещали Ваш сайт можно из журнала посещений Вашего сервера (Access LOG). Для этого , конечно, требуется иметь доступ к нему (бесплатные хостинги могут не предоставлять такой возможности).

Log-файл хранится на сервере Вашего хостинга. Это текстовый файл , в котором подробно построчно записываются все визиты на сайт (в каждой строке записан один визит). Кто, когда, зачем заходил на сайт  и прочая служебная информация , которая поможет контролировать поисковых роботов.

Access_log нужен для анализа посещаемости сайта, обнаружения причины нагрузки и т.п.

Access_log содержит следующую информацию

  1. IP-адрес посетителя;
  2. дата и время запроса;
  3. текст запроса (в том числе, URL запрашиваемого файла);
  4. название браузера посетителя;
  5. код ответа сервера (Справочник по кодам статуса HTTP);
  6. размер файла, запрашиваемого посетителем.
  7. страница, по ссылке с которой пришел посетитель;
  8. имя пользователя (при использовании HTTP-аутентификации);
  9. ip-адрес web-сервера;

Для примера покажу сокращенный фрагмент из моего лога . В нем выбраны строки с названиями поисковых роботов . Эти сведения  нам пригодятся при составлении файла robots.txt (файл с инструкциями для поисковых роботов , помогает оптимизировать индексацию сайта).

Строки о запросах страниц сайта роботами поисковых систем выглядят следующим образом (названия роботов выделены):

infodrug.ru 95.108.150.235 – – [22/Jul/2011:16:46:33 +0400] “GET / HTTP/1.0” 200 108723 “-” “Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)”

infodrug.ru 66.249.71.169 – – [22/Jul/2011:12:23:36 +0400] “GET /o-raznom/eto-animuzyka.html HTTP/1.0” 200 110879 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

infodrug.ru 195.239.178.205 – – [23/Jul/2011:07:17:44 +0400] “GET / HTTP/1.0” 200 108723 “-” “Mozilla/5.0 (compatible; Nigma.ru/3.0; crawler@nigma.ru)”

infodrug.ru 95.108.214.14 – – [29/Jul/2011:08:05:07 +0400] “GET /besplatno/besplatnyj-trening-po-biznesu-dlya-nachinayushhix.html/feed HTTP/1.0” 200 7852 “-” “Mozilla/5.0 (compatible; YandexBlogs/0.99; robot; C; +http://yandex.com/bots)”

infodrug.ru 67.195.112.115 – – [24/Jul/2011:18:30:55 +0400] “GET / HTTP/1.0” 200 77118 “-” “Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”

В этом фрагменте лога зафиксированы посещения следующих роботов:

  1. YandexBot

  2. Googlebot

  3. Nigma.ru

  4. YandexBlogs

  5. Yahoo! Slurp

Чьи это роботы нетрудно догадаться по названиям. Но так легко бывает не всегда 🙂

Для анализа логов сервера и построения стат. отчетности удобнее всего пользоваться специальным софтом , как правило платным. Не буду рекомендовать какое-то конкретное  программное обеспечение для этих целей.  Эта тема обширная и выходит за рамки данной статьи.

 

Наблюдаем за роботами с помощью плагина для WordPress

 

monitoring_process Пока писалась статья и подбирался материал , мне встретился простой, но  очень полезный плагин для WordPress , который поможет отслеживать активность роботов на сайте. Он ведет журнал посещений сайта роботами. С его помощью очень просто можно посмотреть какие роботы и когда посещали Ваш сайт , что скачивали.

Называется плагин  Wp-LOG-Robots.

После установки и активации плагина никаких настроек не требуется.

Для просмотра журнала посещений роботов нужно просто набрать в строке браузера URL своего сайта и добавить /robots_log.txt . Журнал напоминает access_log сервера , правда информация в нем только о роботах и не такая подробная как в access_log.

 Например  журнал моего  блога : http://infodrug.ru/robots_log.txt.

 

Информер о последней дате визита роботов Google Yahoo MSN

Сайт mypagerank.net предоставляет возможность отслеживать дату последнего визита поисковых роботов Google, Yahoo и MSN на Вашем сайте, разместив на нем вот такие информеры:

На своем блоге я его не устанавливал , меня устраивает  плагин Wp-LOG-Robots, но возможно кому то этот вариант больше подойдет .

В результате анализа журнала посещений роботов нарисовалась такая статистика – “Топ 10 роботов”.

Топ 10 поисковых роботов

по посещаемости моего блога

Top_Spiders_infodrug.ru

Как видно из диаграммы робот Яндекса не забывает мой блог , но посетители идут в основном с Google. Нужно будет поработать в направлении Яндекса 🙂

Еще меня настораживает активность неизвестного мне робота Ezooms Robot  (7-е место рейтинга). Это какой то совсем новый робот (год рождения 2011), ничего конкретного о нем не нашел в интернете. Непонятно на кого он работает , кто и как использует результаты его работы.  Был бы робот полезным , думаю о нем бы написали (в прочем как и о вредном 🙂 ).

Понаблюдаю за эти поисковым роботом некоторое время. Если будет продолжать в том же духе нужно будет закрыть ему доступ к сайту , слишком часто он нагружает сервер и это при нулевом количестве переходов с него.

 

Список роботов Яндекса

(UserAgent: Yandex)

Имена роботов Яндекса выделены жирным шрифтом.

Mozilla/5.0 (compatible YandexBot/3.0) основной индексирующий робот.
Mozilla/5.0 (compatible YandexBot/3.0 MirrorDetector) робот, определяющий зеркала сайтов.
Mozilla/5.0 (compatible YandexImages/3.0) индексатор Яндекс.Картинок.
Mozilla/5.0 (compatible YandexVideo/3.0) индексатор Яндекс.Видео.
Mozilla/5.0 (compatible YandexMedia/3.0) робот, индексирующий мультимедийныеданные.
Mozilla/5.0 (compatible YandexBlogs/0.99 robot) робот поиска по блогам, индексирующий комментарии постов.
Mozilla/5.0 (compatible YandexAddurl/2.0) робот, обращающийся к странице при добавлении ее через форму «Добавить URL».
     
Mozilla/5.0 (compatible YandexFavicons/1.0) робот, индексирующий пиктограммы сайтов (favicons).
Mozilla/5.0 (compatible YandexDirect/3.0) робот, индексирующий страницы сайтов, участвующих в Рекламной сети Яндекса.
     
Mozilla/5.0 (compatible YandexDirect/2.0 Dyatel) «простукивалка» Яндекс.Директа.
Mozilla/5.0 (compatible YandexMetrika/2.0) робот Яндекс.Метрики.
Mozilla/5.0 (compatible YandexCatalog/3.0 Dyatel) «простукивалка» Яндекс.Каталога.
Mozilla/5.0 (compatible YandexNews/3.0) индексатор Яндекс.Новостей.
Mozilla/5.0 (compatible YandexImageResizer/2.0) робот мобильных сервисов

У меня на блоге чаще других бывает робот Яндекса –YandexMetrika. Судя по журналу посещений он ничего не выкачивает , а скорее всего только проверяет доступность сайта. Этот робот практически не нагружает сервер. “Простукивалки” Яндекса проверяют доступность сайта и отдельных страниц.

Похожие функции выполняет и робот InternetSeer (3-е место рейтинга) – это робот интернет сервисов Internetseer.com и host-tracker.com .Сервисы выполняют функции мониторинга сайта по различным параметрам (количество параметров зависит от выбранного тарифного плана ). В бесплатном варианте “Standart” сервис может высылать результаты круглосуточного мониторинга аптайм  (доступность) сервера  на e-mail еженедельно.

Источники:

  1. Список обновленных роботов Яндекса 2010г.
  2. Как в логах сервера представляются роботы Yandex.

Роботы Google

(UserAgent: Googlebot)

 

Пожалуй самые  активные , быстрые и продвинутые роботы это роботы  поисковой системы Google.

search-engine-spiders_on_InfoDrug.ruОни очень быстро накидываются на новый сайт ,  или свежий контент.

Абсолютно новый сайт, даже без регистрации где либо , будет известен Google уже через несколько часов после его появления в интернете .

Google , как и Яндекс,  тоже имеет целое подразделение разных роботов , каждый из которых заточен под определенные задачи (поиск текста, картинок , видео, RSS, комментариев , рекламных площадок, контента для мобильных устройств и т.п ) .


Список основных Google роботов

Поисковый робот User-agent Агент пользователя в запросах HTTP(S)
Робот Googlebot (веб-поиск Google) Googlebot Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) или(редко используется) Googlebot/2.1 (+http://www.google.com/bot.html)
Googlebot News Googlebot-News (Googlebot) Googlebot-News
Googlebot Images Googlebot-Image (Googlebot) Googlebot-Image/1.0
Googlebot Video Googlebot-Video (Googlebot) Googlebot-Video/1.0
Google Mobile Googlebot-Mobile [различные типы мобильных устройств] (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)
Google Mobile AdSense Mediapartners-Google или Mediapartners (Googlebot) [различные типы мобильных устройств] (compatible; Mediapartners-Google/2.1; +http://www.google.com/bot.html)
Google AdSense Mediapartners-Google Mediapartners (Googlebot) Mediapartners-Google
Проверка качества целевой страницы Google AdsBot AdsBot-Google AdsBot-Google (+http://www.google.com/adsbot.html)

 

Названия роботов основных поисковых систем

ПС URL Имя поискового робота
Alexa http://www.alexa.com ia_archiver
AltaVista http://www.altavista.com Scooter
AOL http://www.aol.com Slurp
Aport http://www.aport.ru Aport
Ask http://www.ask.com Teoma
Bing http://bing.com bingbot
Live http://www.live.com MSNBot
Lycos http://www.lycos.com Lycos
MSN http://www.msn.com MSNBot
Nigma http://nigma.ru Nigma.ru
Yahoo! http://www.yahoo.com Slurp (или Yahoo! Slurp)
Вебальта http://www.webalta.ru WebAlta (WebAlta Crawler/2.0)
Мэйл.ру http://search.mail.ru Mail.Ru
Рамблер http://www.rambler.ru StackRambler

 

В таблице указаны только основные роботы крупных поисковиков. У каждого приличного поисковика на службе имеется по несколько различных роботов для разных целей (как у Яндекса и Google).

Только известных (зарегистрированных) роботов насчитывается более пяти тысяч.

 

 

Полезные и вредные роботы

Spiders , Robots , Crawler , Browser

 

search engine robots

Как уже было сказано, поисковых роботов огромное количество . Пытаться угодить всем нет смысла .

В предыдущей статье Правильное использование ПИНГ СЕРВИСОВ для ускорения индексации сайта я уже высказывал свое мнение по поводу привлечения большого количества роботов на сайт (всех без разбора). Там же я  давал советы как не привлекать внимания плохих роботов (BAD robots) от которых пользы ноль , а вреда может быть очень и очень.

Каждый робот , пришедший на Ваш сайт, выполняя свою работу шлет множество запросов серверу , тем самым съедая его ресурсы. С этим можно и нужно смириться , если робот полезный и после того как он выполнит скан сайта его содержимое  появится в крупных поисковых системах и читатели смогут найти и посетить Ваш сайт. Другое дело , когда какой то неизвестный робот нагружает сервер , шлет и шлет по несколько сот запросов , сканирует сайт , а будет ли толк неизвестно.

Например:

Преподаватели некоего университета создали робота , который очень активно сканировал сайты в интернете собирая контент для того чтобы проверить работы студентов на предмет плагиата.

Как Вы думаете , много ли пользы Вашему сайту  принесет этот робот ?

Нужно иметь ввиду , что подобные программы-роботы могут посещать сайт не только по поручению поисковой системы. Аналогичные программы имеются в распоряжении у различных спамеров и охотников за уникальным контентом и т.п. Они могут выполнять немного более узкие задачи , например собирать e-mail адреса , конфиденциальные данные, свежие статьи, фото , полностью скачивать Ваш сайт для разных целей и прочее, прочее, прочее.

Вывод:

Не все роботы одинаково полезны!

 

Анализируя лог посещений своего сервера можно найти множество незнакомых имен роботов.

Возникает вопрос , а нужно ли пускать того, или иного робота к себе на сайт.

Для того что бы определить , что за робот шарил по Вашему сайту выкладываю несколько ссылок для более глубокого ознакомления с разновидностями роботов и их функциями.

По этим ссылкам Вы сможете найти досье на любого бота и решить для себя , как его встречать на своем сайте:

Роботы основных поисковых систем должны комфортно себя чувствовать на Вашем сайте.

О том как управлять роботами , как помочь ХОРОШИМ роботам и помешать ПЛОХИМ на своем сайте читайте в следующей статье.

Полезные ссылки по теме:

  1. Список более 5000 ботов.
  2. Огромный список роботов (List of User-Agents (Spiders, Robots, Crawler, Browser) поможет в анализе логов.
  3. База данных по роботам
  4. База роботов
  5. Ссылки на информацию о роботах .
  6. Что такое робот поисковой системы
  7. Как работает поисковый робот (графическая схема)

———————————————————————————————————————–


Читайте также:


комментария 2 »

Оставьте комментарий

Добавьте комментарий ниже или обратную ссылку со своего сайта. Вы можете также подписаться на эти комментарии по RSS.

Вы можете использовать коды HTML:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

На сайте используются Gravatar. Чтобы его получить зарегистрируйтесь Gravatar.

Subscribe without commenting