Рейтинг@Mail.ru
Евгений Попов раскрывает Все технические моменты онлайн-бизнеса в видеоформате 2011.
02.12.2011 – 03:08 | Нет комментариев

Вышел новый обучающий видеокурс от Евгения Попова - “Все технические моменты онлайн-бизнеса в видеоформате 2011”. Здесь есть ВСЕ!

Читать запись полностью »
Бесплатное

курсы ,тренинги ,уроки ,советы новичкам

SEO

Поисковая оптимизация , раскрутка и продвижение

О разном

Прикольное , любопытное , интересное , полезное.

Сервисы

Онлайн инструменты. Веб сервисы

Wordpress

Полезные плагины, хаки, советы

Главная » SEO, Бесплатное

Курс SEO . конспект 1-й части

Опубликовал в 04.05.2011 – 23:54Нет комментариев

SEO курс - конспект 1-й части   KashirinKonstantin  

 

Обзор курса . Видео  №1

 

Принципы работы поисковых систем

 читает Константин Каширин

 

 

 

SEO Термины

  •  Документ – страница в интернете , имеющая уникальный адрес (URL) (ссылки с якорями (#) не в счет)

  • Ссылка – прямая ссылка вида <a href=**>текст или картинка</a> , нажав на которую пользователь переходит на указанный адрес.
  • Анкор (anchor)  текст ссылки.
  • Донор – документ , на котором стоит ссылка на продвигаемый документ.
  • Акцептор – документ на который ведет ссылка с донора.
  • Стоп-слова – служебные части речи:союзы и предлоги.
  • Коллекция – совокупность всех документов в БД поисковой системы (ПС)
  • Апдейт – обновление информации в БД (индексе) ПС.
  • Дэнс – процесс изменения выдачи, видимый пользователю.
  • Кэш – сохраненная страница выдачи по определенному запросу.

 

 

 Как работают поисковые системы

Алгоритмы поиска

Прямой поиск – это последовательный перебор всех имеющихся документов коллекции.

+ нет искажений

-очень долго

Инвертированный (обратный) индекс – файл , содержащий список слов документа в алфавитном порядке c указанием позиций и других параметров вхождения этого слова в документ

+быстродействие

-потеря информации

Этот алгоритм используют все основные поисковые системы (Яндекс,Google,Yahoo,Рамблер,…)

SerchEngines

Как работает этот алгоритм ?

С каждого документа создается «образ».Этот «образ» называется инвертированным (обратным) индексом. Это текстовый файл , содержащий список всех слов документа в алфавитном порядке , с указанием позиции (координат слова) и других параметров вхождения слова в документ (эти параметры нам не известны , но они есть).

Поисковые системы ищут не в интернете , а в обратных индексах («образах» документов).

Математические модели работы ПС

 

 Математическая модель – упрощение реальности , в результате которого получается формула , позволяющая считать документы найденными и ранжировать (от слова ранг) их , т.е размещать в определенном порядке , в зависимости от степени соответствия документа искомой фразе , или слову.

Задача SEO – продвигать документ к самому высокому рейтингу (рангу) в выдаче поисковой системы. Т.е. наш документ должен быть первым в выдаче ПС.

Булевская мат. модель (или логическая) – есть искомое слово в документе-документ найден , не встречается слово– значит документ не найден.

Самое популярное слово в русском языке – предлог «в» (первое место) и союз «и» (на втором месте).

 

Векторная модель – вес документа= TF*IDF , где

TF-частота слова в документе,

IDF-редкость слова в коллекции.

  • Чем чаще искомое слово встречается в документе , тем выше ранг документа.

Векторную математическую модель используют все популярные поисковые системы.

Вероятностная мат.модель – сравнивание с набором эталонных документов.

 

Качество поиска

 

Релевантность – степень отношения к делу (к теме).

Асессор – сотрудник ПС , который вручную оценивает работу мат.модели , используемой поисковой системой. Работа асессоров используется для улучшения математической модели ПС.

  • Офисы Яндекса расположены в Петербурге и в Одессе.

 

Критерии качества поиска

 

Точность – доля релевантных документов в выдаче.

Полнота – доля найденных релевантных документов в общем числе релевантных документов коллекции.

Актуальность – соответствие ссылок в выдаче реальным документам в интернете.

  • Поисковые системы сегодня далеки от совершенства

Коллекция – количество документов известных ПС.

  • Яндексу известно ~4,5 млрд. документов .

2/3 – русскоязычный интернет ,

1/3 – зарубежный(в основном англоязычный).

Segalovich_IИлья Сегалович – главный создатель и разработчик Яндекса.

Самая актуальная выдача у поисковика MSN MSNИх поисковый робот самый активный.Чаще других сканирует сайты.

 

Лицензии ПС

 

Общие пункты всех лицензий (Яндекс , Рамблер , Google)

· Запрет на коммерческое использование результатов поиска , их тиражирование и автоматический доступ к ним.

· Отказ от гарантий на содержание сайтов , на точность, полноту и актуальность информации , т.е. на качество поиска.

· Право как предоставлять , так и не предоставлять услуги. Соблюдение robots.txt

· Гарантии неподкупности результатов поиска.

· Декларация борьбы с поисковым спамом.

· Политика конфиденциальности.

  • Программы вроде SEmonitor, Yazzl … нарушают пункт 1 лицензии ПС. Т.е. поисковики их не любят и ведут с ними борьбу.
  • Яндекс XML – выдача Яндекса в формате XML. Можно использовать в работе для анализа и других нужд.
  • Все поисковики нарушают стандарт robots.txt
  • Лицензия ПС составлена таким образом что-бы ни один пользователь не мог выиграть в суде у ПС.
  • Предъявлять какие либо претензии ПС – бессмысленно.

 

Индексация документов

 

Сбор информации – получение документа напрямую и дальнейший переход по ссылкам (документы прямой видимости).

SE_robot

Особенности индексации

  • Инверсный индекс плюс прямой индекс (сохраненная копия).
  • Ограничения по доменам. Иноземные зоны для Яндекса.
  • Объем индексации на одном сайте – домены 2-го и 3-го уровня.
  • Частота переиндексации.

Ссылка берется из тега <Title> документа

snippet

Сниппет (snippet)описание документа подготовленное поисковиком .

Сниппет зависит от запроса (запросозависимый).

Для составления сниппета поисковик выбирает слова из сохраненной копии документа в своей коллекции (сохраненная копия документа называется – прямой индекс) .

Набор слов для сниппета зависит от поискового запроса.

Один и тот же документ при разных запросах будет иметь разные сниппеты.

 

В выдаче показываются документы с разных сайтов , даже если самые релевантные запросу документы расположены на одном сайте . Показываются самые релевантные запросу документы с каждого сайта. На первой странице выдачи 10 мест , будут показаны документы с 10 разных сайтов. Даже если на одном из них 1000000 релевантных документов , а на другом только 10.

 

Ограничения индексации

 

Существует лимит индексации документов с одного сайта.

Для домена второго уровня (типа site.ru)– Яндекс проиндексирует 100-150 тыс. документов.

Для доменов третьего уровня ( типа first.site.ru) – Яндекс проиндексирует 10-30 тыс. документов.

Если для сайта на домене второго уровня нужно проиндексировать больше чем 150 тыс. документов , то выход – создать несколько поддоменов (домены третьего уровня) и разместить документы на них.

Яндекс может индексировать более 200 до 1000(непроверенная информация) доменов третьего уровня.

 

Доменные зоны

 Русская зона интернета определяется по домену:

RU , SU , UA (Украина единственная страна где у Яндекса есть филиал , поэтому домен UA в русской зоне)

Зарубежная интернет зона:

COM , INFO , NET ….

Для этих зон Яндекс достаточно долго индексирует документы первый раз. От двух недель до 1,5 месяцев.

После того как Яндекс обнаружит там тексты на русском языке , повторная индексация будет проходить как и в русской доменной зоне.

 

 

Частота индексации

 

Если на странице ничего не меняется , она не переиндексируется ПС.

Узнавая новый документ , робот повторно приходит на него на следующий день , сравнивает содержимое. Если ничего не поменялось , в следующий раз робот придет через три дня. Если опять ничего не поменялось , в следующий раз робот приходит через неделю. Т.е. робот , со временем, подбирает автоматически оптимальную частоту переиндексации страниц сайта.

Можно заставить ПС робота чаще переиндексировать страницу на которой ничего не менялось (рассмотрено в теме «Сателиты»).

 

 

Особенности морфологии

Морфология ПС

  • Лингвистическая обработка при индексации . Словари.

Яндекс преобразует и сохраняет слова в обратном индексе в единственном числе в именительном падеже. Для этого ПС использует СЛОВАРИ.

  • Служебные символы не индексируются : точки , пробелы , знаки препинания.
  • Стоп-слова (союзы , предлоги , …) – полноценные участники ранжирования.(индексируются Яндексом)
  • Словоформы (множественное число, падежи слова) – учитываются при индексации.

 

Проблемы ПС

     Размер индекса. (Большие объемы данных , к которым должен обеспечиваться стабильный и быстрый доступ)

У Яндекса 5 дата центров , объединенных оптоволоконной связью , по 3 тысячи серверов в каждом. 4 дата центра находятся в Москве.

  • Дубликаты. (Лишняя (дублирующаяся) информация , хранящаяся в индексных файлах)

Пока не очень хорошо определяется дублированный контент , но ведется работа в этом направлении.

  • Поисковый спам . (Поисковый мусор – информация которая не отвечает ожиданиям пользователя)

На сегодняшний момент дорвеи живут в индексе Яндекса 2-3 дня.

  • Обновление (Поддержка актуальности информации в индексе)
  • Понимание пользователя . (Попытки предугадать чего хочет пользователь)

В случае неверного набора искомого слова , Яндекс исправляет слово и выдает документы с правильно написанным словом. Т.е. продвигать ключевые слова неграмотно написанные НЕТ СМЫСЛА.

 

 

Виды запросов пользователей Яндекса

 

Поведение пользователя

Яндекс

1 пользователь = 5 запросов =1-2 страницы

1,2 слова (1997) – 2,5 (2008)

Одно слово – 27%

Два слова – 27%

Три слова – 20%

Четыре и более – 26%

Существительные – 75%

Прилагательные – 26%

Глаголы – 5%

14-15% запросов содержат различные ошибки и искажения .Две трети всех ошибок – орфографические (пропущенные буквы , неправильное написание и т.п.).

Виды запросов пользователей

Навигационные – (10%) поиск конкретного сайта. (сайт фирмы , организации …)

Информационные – поиск информации независимо от источника.

Транзакционные – (4%) результатом поиска становится действие.(Скачать фильм, купить телефон , авиабилеты…)

Продолжение курса – часть 2 , часть 3 , часть 4 , часть 5

Technorati Теги: SEO,курс,бесплатно


Читайте также:


Оставьте комментарий

Вы должны войти , чтобы оставить комментарий.