Курс SEO . конспект 1-й части
Принципы работы поисковых систем
читает Константин Каширин
SEO Термины
- Документ – страница в интернете , имеющая уникальный адрес (URL) (ссылки с якорями (#) не в счет)
- Ссылка – прямая ссылка вида <a href=**>текст или картинка</a> , нажав на которую пользователь переходит на указанный адрес.
- Анкор (anchor) – текст ссылки.
- Донор – документ , на котором стоит ссылка на продвигаемый документ.
- Акцептор – документ на который ведет ссылка с донора.
- Стоп-слова – служебные части речи:союзы и предлоги.
- Коллекция – совокупность всех документов в БД поисковой системы (ПС)
- Апдейт – обновление информации в БД (индексе) ПС.
- Дэнс – процесс изменения выдачи, видимый пользователю.
- Кэш – сохраненная страница выдачи по определенному запросу.
Как работают поисковые системы
Алгоритмы поиска
Прямой поиск – это последовательный перебор всех имеющихся документов коллекции.
+ нет искажений
-очень долго
Инвертированный (обратный) индекс – файл , содержащий список слов документа в алфавитном порядке c указанием позиций и других параметров вхождения этого слова в документ
+быстродействие
-потеря информации
Этот алгоритм используют все основные поисковые системы (Яндекс,Google,Yahoo,Рамблер,…)
Как работает этот алгоритм ?
С каждого документа создается «образ».Этот «образ» называется инвертированным (обратным) индексом. Это текстовый файл , содержащий список всех слов документа в алфавитном порядке , с указанием позиции (координат слова) и других параметров вхождения слова в документ (эти параметры нам не известны , но они есть).
Поисковые системы ищут не в интернете , а в обратных индексах («образах» документов).
Математические модели работы ПС
Математическая модель – упрощение реальности , в результате которого получается формула , позволяющая считать документы найденными и ранжировать (от слова ранг) их , т.е размещать в определенном порядке , в зависимости от степени соответствия документа искомой фразе , или слову.
Задача SEO – продвигать документ к самому высокому рейтингу (рангу) в выдаче поисковой системы. Т.е. наш документ должен быть первым в выдаче ПС.
Булевская мат. модель (или логическая) – есть искомое слово в документе-документ найден , не встречается слово– значит документ не найден.
Самое популярное слово в русском языке – предлог «в» (первое место) и союз «и» (на втором месте).
Векторная модель – вес документа= TF*IDF , где
TF-частота слова в документе,
IDF-редкость слова в коллекции.
- Чем чаще искомое слово встречается в документе , тем выше ранг документа.
Векторную математическую модель используют все популярные поисковые системы.
Вероятностная мат.модель – сравнивание с набором эталонных документов.
Качество поиска
Релевантность – степень отношения к делу (к теме).
Асессор – сотрудник ПС , который вручную оценивает работу мат.модели , используемой поисковой системой. Работа асессоров используется для улучшения математической модели ПС.
- Офисы Яндекса расположены в Петербурге и в Одессе.
Критерии качества поиска
Точность – доля релевантных документов в выдаче.
Полнота – доля найденных релевантных документов в общем числе релевантных документов коллекции.
Актуальность – соответствие ссылок в выдаче реальным документам в интернете.
- Поисковые системы сегодня далеки от совершенства
Коллекция – количество документов известных ПС.
- Яндексу известно ~4,5 млрд. документов .
2/3 – русскоязычный интернет ,
1/3 – зарубежный(в основном англоязычный).
Илья Сегалович – главный создатель и разработчик Яндекса.
Самая актуальная выдача у поисковика MSN Их поисковый робот самый активный.Чаще других сканирует сайты.
Лицензии ПС
Общие пункты всех лицензий (Яндекс , Рамблер , Google)
· Запрет на коммерческое использование результатов поиска , их тиражирование и автоматический доступ к ним.
· Отказ от гарантий на содержание сайтов , на точность, полноту и актуальность информации , т.е. на качество поиска.
· Право как предоставлять , так и не предоставлять услуги. Соблюдение robots.txt
· Гарантии неподкупности результатов поиска.
· Декларация борьбы с поисковым спамом.
· Политика конфиденциальности.
- Программы вроде SEmonitor, Yazzl … нарушают пункт 1 лицензии ПС. Т.е. поисковики их не любят и ведут с ними борьбу.
- Яндекс XML – выдача Яндекса в формате XML. Можно использовать в работе для анализа и других нужд.
- Все поисковики нарушают стандарт robots.txt
- Лицензия ПС составлена таким образом что-бы ни один пользователь не мог выиграть в суде у ПС.
- Предъявлять какие либо претензии ПС – бессмысленно.
Индексация документов
Сбор информации – получение документа напрямую и дальнейший переход по ссылкам (документы прямой видимости).
Особенности индексации
- Инверсный индекс плюс прямой индекс (сохраненная копия).
- Ограничения по доменам. Иноземные зоны для Яндекса.
- Объем индексации на одном сайте – домены 2-го и 3-го уровня.
- Частота переиндексации.
Ссылка берется из тега <Title> документа
Сниппет (snippet) – описание документа подготовленное поисковиком .
Сниппет зависит от запроса (запросозависимый).
Для составления сниппета поисковик выбирает слова из сохраненной копии документа в своей коллекции (сохраненная копия документа называется – прямой индекс) .
Набор слов для сниппета зависит от поискового запроса.
Один и тот же документ при разных запросах будет иметь разные сниппеты.
В выдаче показываются документы с разных сайтов , даже если самые релевантные запросу документы расположены на одном сайте . Показываются самые релевантные запросу документы с каждого сайта. На первой странице выдачи 10 мест , будут показаны документы с 10 разных сайтов. Даже если на одном из них 1000000 релевантных документов , а на другом только 10.
Ограничения индексации
Существует лимит индексации документов с одного сайта.
Для домена второго уровня (типа site.ru)– Яндекс проиндексирует 100-150 тыс. документов.
Для доменов третьего уровня ( типа first.site.ru) – Яндекс проиндексирует 10-30 тыс. документов.
Если для сайта на домене второго уровня нужно проиндексировать больше чем 150 тыс. документов , то выход – создать несколько поддоменов (домены третьего уровня) и разместить документы на них.
Яндекс может индексировать более 200 до 1000(непроверенная информация) доменов третьего уровня.
Доменные зоны
Русская зона интернета определяется по домену:
RU , SU , UA (Украина единственная страна где у Яндекса есть филиал , поэтому домен UA в русской зоне)
Зарубежная интернет зона:
COM , INFO , NET ….
Для этих зон Яндекс достаточно долго индексирует документы первый раз. От двух недель до 1,5 месяцев.
После того как Яндекс обнаружит там тексты на русском языке , повторная индексация будет проходить как и в русской доменной зоне.
Частота индексации
Если на странице ничего не меняется , она не переиндексируется ПС.
Узнавая новый документ , робот повторно приходит на него на следующий день , сравнивает содержимое. Если ничего не поменялось , в следующий раз робот придет через три дня. Если опять ничего не поменялось , в следующий раз робот приходит через неделю. Т.е. робот , со временем, подбирает автоматически оптимальную частоту переиндексации страниц сайта.
Можно заставить ПС робота чаще переиндексировать страницу на которой ничего не менялось (рассмотрено в теме «Сателиты»).
Особенности морфологии
Морфология ПС
- Лингвистическая обработка при индексации . Словари.
Яндекс преобразует и сохраняет слова в обратном индексе в единственном числе в именительном падеже. Для этого ПС использует СЛОВАРИ.
- Служебные символы не индексируются : точки , пробелы , знаки препинания.
- Стоп-слова (союзы , предлоги , …) – полноценные участники ранжирования.(индексируются Яндексом)
- Словоформы (множественное число, падежи слова) – учитываются при индексации.
Проблемы ПС
Размер индекса. (Большие объемы данных , к которым должен обеспечиваться стабильный и быстрый доступ)
У Яндекса 5 дата центров , объединенных оптоволоконной связью , по 3 тысячи серверов в каждом. 4 дата центра находятся в Москве.
- Дубликаты. (Лишняя (дублирующаяся) информация , хранящаяся в индексных файлах)
Пока не очень хорошо определяется дублированный контент , но ведется работа в этом направлении.
- Поисковый спам . (Поисковый мусор – информация которая не отвечает ожиданиям пользователя)
На сегодняшний момент дорвеи живут в индексе Яндекса 2-3 дня.
- Обновление (Поддержка актуальности информации в индексе)
- Понимание пользователя . (Попытки предугадать чего хочет пользователь)
В случае неверного набора искомого слова , Яндекс исправляет слово и выдает документы с правильно написанным словом. Т.е. продвигать ключевые слова неграмотно написанные НЕТ СМЫСЛА.
Виды запросов пользователей Яндекса
Поведение пользователя
1 пользователь = 5 запросов =1-2 страницы
1,2 слова (1997) – 2,5 (2008)
Одно слово – 27%
Два слова – 27%
Три слова – 20%
Четыре и более – 26%
Существительные – 75%
Прилагательные – 26%
Глаголы – 5%
14-15% запросов содержат различные ошибки и искажения .Две трети всех ошибок – орфографические (пропущенные буквы , неправильное написание и т.п.).
Виды запросов пользователей
Навигационные – (10%) поиск конкретного сайта. (сайт фирмы , организации …)
Информационные – поиск информации независимо от источника.
Транзакционные – (4%) результатом поиска становится действие.(Скачать фильм, купить телефон , авиабилеты…)
Продолжение курса – часть 2 , часть 3 , часть 4 , часть 5