Растолкованное текстовое ранжирование: как оптимизировать статью под поисковые системы?


Рубрика:  База знаний SEO | Автор: Юрий Макаров


Сегодня настало время развеять различные seo-мифы по поводу текстового ранжирования. Я попытаюсь это сделать. Опираться буду как на свой большой практический опыт, так и на официальные данные поисковых систем. Естественно - это не обязательно 100% данные, так как ими владеть могут только сами поисковые системы, но, в тоже время, уверен, что многие из Вас откроют глаза на многие моменты.

Факторы, которые учитываются в текстовом ранжировании

Встречаемость слов из запроса в документе

Встречаемость слов из запроса в документе

  • Wsin gle - Встречаемость слов из запроса в документе;
  • TF - количество вхождений леммы в документ (количество всех словоформ запроса);
  • DocLength - длинна документа в словах. Подсчитывается после предварительной лемматизации слов запроса и слов документа;
  • Hdr - сумма весов слова за HTLM форматирование документа и позицию слова из запроса в документе. При этом учитывается вхождение в 1 и 2 предложениях, а также внутри выделяющих HTML тегов;
  • CF -  Число вхождений леммы в коллекцию;
  • D - Число документов в коллекции.

Встречаемость пар слов

Встречаемость пар слов в документе

  • Wpair - Встречаемость пар слов в документе;
  • TF - количество вхождений пары в текст с учетом весов вхождений;
  • p1 и p2 - рассчитываются по формуле для p (см. в разделе "Встречаемость слов из запроса в документе") для каждого первого и второго слова пары.

За разные случаи дается разный вес:

  • +1 - если слова встречаются в тексте подряд;
  • +0.5 - слова встречаются через слово;
  • +0.5 - обратный порядок слов;
  • +0.1 - слова идущие в запросе через одно, идут подряд. Например, "Продвижение любых сайтов в Москве". Для запроса "продвижение сайтов" будет дан вес +0.1, так как эти слова идут подряд через слово "любых".

Учет всех слов запроса в документе

uchet-vsex-slov-zaprosa-v-dokumente
W AllWords - бонус за наличие всех слов запроса в документе, который пропорционален сумме IDF слов запроса.

Бонус за точное вхождение запроса в документе - формула

  • W Phrase - бонус за точное вхождение фразы в документе;
  • TF - количество вхождений запроса в текст документа.

Учет количества предложений похожих на запрос

Бонус за значительное количество слов запроса в тексте - формула

  • W halfphrase - бонус, который дается за наличие в документе предложений, у которых IDF слов запроса в предложении больше половины суммы IDF всех слов запроса;
  • TF - количество таких предложений в тексте.

P.S. Напомню, что IDF - это обратная документная частота. Определяется по формуле: IDF=(Количество документов в коллекции)/(Количество документов в коллекции содержащих наш термин)

Общая формула текстовой релевантности и выводы

С учетом вышеприведенных факторов поисковой системой Яндекс была составлена следующая формула определения текстовой релевантности:

показатель релевантности документа запросу - формула

  • Score - показатель релевантности документа запросу, на основании которого и производится ранжирование;
  • k1 и k2 - коэффициенты.
  • WPRF - бонус документам использующим схожую лексику с лидерами. Суть: сайты, которые имеют лексику схожую с лидерами, получившими высокий бал от ассесоров, получают также бонус и при текстовом ранжировании.

Выводы

Что это все значит? Это значит, что многим сеошникам надо перевернуть мышление и осознать, что  "волшебного" правила, которое бы описывало сколько раз нужно употреблять запрос, в тексте просто нет. Все эти показатели типа - тошнота, водность, плотность и так далее - они не работают и не могут являться сколь нибудь действенной метрикой в повышении текстовой релевантности. Нужно уже сейчас это осознать. Все гораздо сложнее. И это не я придумал - это официальные материалы того же Яндекса.

Конечно, может в текущем поисковом алгоритме Яндекса текстовая релевантность определяется не точно по таким формулах, но база осталась той же. Это подтверждают и мои практические эксперименты по написанию статей для трафикового продвижения. Именно для НЧ запросов и легко проверить данные формулы. Кстати, они работают и для Google.

Итак, на основании данных формул можно сделать практические выводы о том, как оптимизировать статью под поисковые системы. А они получились следующими:

  • текст должен быть максимально естественным, читабельным;
  • необходимо использовать не списки ключевых слов, пихая их во всевозможные места в тексте, а длинные запросы для размещения их в одном пассаже;
  • необходимо избегать разбиения пассажей. Какие знаки препинания и html теги разбивают пассажи Вы можете почитать в моей статьей здесь;
  • точные вхождения имеют максимальный вес. Но если выбор стоит между точным вхождением запроса и естественностью, то выбираем, конечно, естественность;
  • страница должна оправдывать ожидания пользователей. Другими, словами, страница должна максимально соответствовать введенному пользователем запросу;
  • используем синонимы в тексте документа. Это отличны способ повысить релевантность, снизив при этом риск нарваться на переспам;
  • тексты должны быть только оригинальными. Рерайт возможен только с глубокой переработкой текста. Хочу заметить, что 100% по advego - вовсе не означает высокую уникальность текста для поисковиков. Со 100% уникальным текстом по адвего вполне можно попасть под АГС.
  • используем заголовки h1-h6. Здесь аналогию с содержанием книги можно привести. H1 - только 1 раз употребляется, а h2-h6 - любое количество раз, согласно смысла.

 


Оставьте отзыв в виде оценки к записи: " Растолкованное текстовое ранжирование: как оптимизировать статью под поисковые системы?"

1 звезда2 звезды3 звезды4 звезды5 звёзд (Оставлено голосов: 1, оценка: 5,00 из 5)
Загрузка...

Комментарии и отзывы

5 коммент. к записи "Растолкованное текстовое ранжирование: как оптимизировать статью под поисковые системы?"
  1. Andrei :

    Юрий, хотел бы уточнить про адвего. Это ваше предположение или вы встречали на практике случаи попадания сайта под фильтр за неуникальный контент, который по адвего был 100% уникальным? Спасибо.

  2. Юрий Макаров :

    Добрый! Да я встречал такие случаи. Дело в том, что advego использует оччень плохой алгоритм определения уникальности по шинглам. Поисковики так точно не проверяют уникальность. Ведь вы и сами можете посмотреть. Если поменять окончания в тексте, то в адвего текст уже будет уникальным. А ведь это не уникальный текст по факту получается.

    text.ru позволяет на ура выявлять рерайт, в то время как advego покажет 100%. Так если он это делает, так и поисковики и в помине.

  3. LadyWow :

    Юрий, хотела уточнить про заголовки h1-h6. А не лучше ли использовать до h4, иначе идет распыление идеи, которая описана в h2. И как на это смотрят поисковики?

  4. Юрий Макаров :

    LadyWow, я абсолютно с Вами согласен! Я так и работаю — использую заголовки максимум до уровня h4. Хотя в 99% случаем хватает и h3 заголовка.

  5. Альберт :

    На сегодняшний день Аdvego выявляет и рерайт.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *