Сегодня настало время развеять различные seo-мифы по поводу текстового ранжирования. Я попытаюсь это сделать. Опираться буду как на свой большой практический опыт, так и на официальные данные поисковых систем. Естественно — это не обязательно 100% данные, так как ими владеть могут только сами поисковые системы, но, в тоже время, уверен, что многие из Вас откроют глаза на многие моменты.

Факторы, которые учитываются в текстовом ранжировании

Встречаемость слов из запроса в документе

Встречаемость слов из запроса в документе

  • Wsin gle — Встречаемость слов из запроса в документе;
  • TF — количество вхождений леммы в документ (количество всех словоформ запроса);
  • DocLength — длинна документа в словах. Подсчитывается после предварительной лемматизации слов запроса и слов документа;
  • Hdr — сумма весов слова за HTLM форматирование документа и позицию слова из запроса в документе. При этом учитывается вхождение в 1 и 2 предложениях, а также внутри выделяющих HTML тегов;
  • CF —  Число вхождений леммы в коллекцию;
  • D — Число документов в коллекции.

Встречаемость пар слов

Встречаемость пар слов в документе

  • Wpair — Встречаемость пар слов в документе;
  • TF — количество вхождений пары в текст с учетом весов вхождений;
  • p1 и p2 — рассчитываются по формуле для p (см. в разделе «Встречаемость слов из запроса в документе») для каждого первого и второго слова пары.

За разные случаи дается разный вес:

  • +1 — если слова встречаются в тексте подряд;
  • +0.5 — слова встречаются через слово;
  • +0.5 — обратный порядок слов;
  • +0.1 — слова идущие в запросе через одно, идут подряд. Например, «Продвижение любых сайтов в Москве». Для запроса «продвижение сайтов» будет дан вес +0.1, так как эти слова идут подряд через слово «любых».

Учет всех слов запроса в документе

uchet-vsex-slov-zaprosa-v-dokumente
W AllWords — бонус за наличие всех слов запроса в документе, который пропорционален сумме IDF слов запроса.

Бонус за точное вхождение запроса в документе - формула

  • W Phrase — бонус за точное вхождение фразы в документе;
  • TF — количество вхождений запроса в текст документа.

Учет количества предложений похожих на запрос

Бонус за значительное количество слов запроса в тексте - формула

  • W halfphrase — бонус, который дается за наличие в документе предложений, у которых IDF слов запроса в предложении больше половины суммы IDF всех слов запроса;
  • TF — количество таких предложений в тексте.

P.S. Напомню, что IDF — это обратная документная частота. Определяется по формуле: IDF=(Количество документов в коллекции)/(Количество документов в коллекции содержащих наш термин)

Общая формула текстовой релевантности и выводы

С учетом вышеприведенных факторов поисковой системой Яндекс была составлена следующая формула определения текстовой релевантности:

показатель релевантности документа запросу - формула

  • Score — показатель релевантности документа запросу, на основании которого и производится ранжирование;
  • k1 и k2 — коэффициенты.
  • WPRF — бонус документам использующим схожую лексику с лидерами. Суть: сайты, которые имеют лексику схожую с лидерами, получившими высокий бал от ассесоров, получают также бонус и при текстовом ранжировании.

Выводы

Что это все значит? Это значит, что многим сеошникам надо перевернуть мышление и осознать, что  «волшебного» правила, которое бы описывало сколько раз нужно употреблять запрос, в тексте просто нет. Все эти показатели типа — тошнота, водность, плотность и так далее — они не работают и не могут являться сколь нибудь действенной метрикой в повышении текстовой релевантности. Нужно уже сейчас это осознать. Все гораздо сложнее. И это не я придумал — это официальные материалы того же Яндекса.

Конечно, может в текущем поисковом алгоритме Яндекса текстовая релевантность определяется не точно по таким формулах, но база осталась той же. Это подтверждают и мои практические эксперименты по написанию статей для трафикового продвижения. Именно для НЧ запросов и легко проверить данные формулы. Кстати, они работают и для Google.

Итак, на основании данных формул можно сделать практические выводы о том, как оптимизировать статью под поисковые системы. А они получились следующими:

  • текст должен быть максимально естественным, читабельным;
  • необходимо использовать не списки ключевых слов, пихая их во всевозможные места в тексте, а длинные запросы для размещения их в одном пассаже;
  • необходимо избегать разбиения пассажей. Какие знаки препинания и html теги разбивают пассажи Вы можете почитать в моей статьей здесь;
  • точные вхождения имеют максимальный вес. Но если выбор стоит между точным вхождением запроса и естественностью, то выбираем, конечно, естественность;
  • страница должна оправдывать ожидания пользователей. Другими, словами, страница должна максимально соответствовать введенному пользователем запросу;
  • используем синонимы в тексте документа. Это отличны способ повысить релевантность, снизив при этом риск нарваться на переспам;
  • тексты должны быть только оригинальными. Рерайт возможен только с глубокой переработкой текста. Хочу заметить, что 100% по advego — вовсе не означает высокую уникальность текста для поисковиков. Со 100% уникальным текстом по адвего вполне можно попасть под АГС.
  • используем заголовки h1-h6. Здесь аналогию с содержанием книги можно привести. H1 — только 1 раз употребляется, а h2-h6 — любое количество раз, согласно смысла.