Что такое латентно-семантическое индексирование? 7 вещей, которые нужно знать

Вокруг LSI существует много путаницы. И противоречия тоже. В этой статье я объясню, что это такое, как поисковые системы используют его, и как вы можете использовать его, чтобы занять более высокое место в результатах поиска.

1. Что такое латентное семантическое индексирование?

Что именно представляет собой латентно-семантическое индексирование?

Латентно-семантическое индексирование — это математический метод поиска закономерностей в том, как слова группируются в онлайн-контенте. Затем эта информация индексируется, чтобы ее можно было использовать для ответов на запросы.

Говоря иначе, латентное семантическое индексирование изучает совпадение слов. При этом он находит скрытые (латентные) отношения между словами, которые, в свою очередь, позволяют понять значение (семантику).

Латентно-семантическое индексирование стало большим шагом вперед в области понимания текста, поскольку оно учитывает тот факт, что значение слов меняется в зависимости от контекста.

Вот несколько примеров:

  • Руки сгибаются в локтях.
  • Германия продает оружие Саудовской Аравии.
  • Разработайте решение в своей голове.
  • Нагрейте раствор при температуре 75° Цельсия.
  • Ключ сломался в замке.
  • Ключевой проблемой была не проблема качества, а проблема количества.

В основе латентного семантического индексирования лежит теория, называемая гипотезой распределения. Согласно этой теории, слова, повторяющиеся в одном и том же контексте, имеют схожие значения. Как сказал один лингвист: «Вы узнаете слово по компании, которую оно составляет».

Короче говоря, слова, которые имеют схожий контекст, как правило, имеют схожие значения.

«Вы узнаете слово по компании, которую оно составляет».

2. Анализ ключевых слов и латентное семантическое индексирование

Как это связано с поисковыми системами?

В конце 1990-х годов, когда появились первые поисковые системы, плотность ключевых словбыла единственной доступной мерой релевантности. Чем больше раз ключевое слово встречается в контенте, тем более релевантным оно было для поискового запроса.

Конечно, плотность ключевых слов не понимала контекста. Кроме того, им было легко манипулировать. Веб-сайты занимали бы высокие позиции в результатах поиска, если бы их содержание было наполнено заданным ключевым словом.

Но когда на сцене появилось латентно-семантическое индексирование, набивка ключевых слов перестала быть эффективной.

Поскольку при латентно-семантическом индексировании поисковые системы ищут не одно ключевое слово — они ищут шаблоны ключевых слов .

Говоря иначе: поисковые системы отходят от анализа ключевых слов в сторону тематического авторитета.

3. Латентно-семантическое индексирование и тематический авторитет

Выявляя закономерности в том, как слова группируются в онлайн-контенте, латентно-семантическое индексирование позволяет определить группы слов, которые составляют темы и подтемы.

По сути, о какой бы теме вы ни писали, поисковые системы знают, какая группа слов связана с этой темой или подтемой. А это значит, что поисковые системы могут измерить тематический авторитет фрагмента контента.

Но для ранжирования сейчас необходимо доказать, что ваш контент обладает тематическим авторитетом. А это означает использование всего кластера слов, которые были идентифицированы с вашей темой с помощью латентного семантического индексирования.

4. Латентно-семантическое индексирование и тематическая авторитетность

Тематическая авторитетность побеждает доменную авторитетность

Тематическая авторитетность становится важным фактором ранжирования для поисковых систем. В Google, например, можно опередить сайты с гораздо более высоким авторитетом домена (т.е. сайты с гораздо более сильным ссылочным профилем), создавая контент с очень высоким тематическим авторитетом.

Когда мой авторитет домена составлял всего 24, я регулярно опережал сайты с DA 80-х и 90-х годов, просто создавая контент с высоким тематическим авторитетом.

Веб-сайты также обладают тематическим авторитетом

До сих пор я говорил о тематическом авторитете в отношении одной веб-страницы или одного сообщения в блоге.

Но сайт сам по себе обладает тематическим авторитетом. А поисковые системы, такие как Google, уже имеют очень хорошее представление о том, каков тематический авторитет вашего сайта.

Например, если вы пишете только о джазовой музыке 1930-х годов, ваш сайт будет иметь очень высокий тематический авторитет по этой теме. Когда вы публикуете статьи на эту тему, ваша веб-страница будет ранжироваться очень высоко. Скорее всего, вы превзойдете сайты с более высоким тематическим авторитетом.

Но если ваш сайт охватывает все жанры и эпохи джаза, которые когда-либо существовали, ваша веб-страница о джазе 1930-х годов, вероятно, не будет ранжироваться так высоко, как статья другого сайта.

5. Латентно-семантическое индексирование и векторный анализ

Мы много говорили о латентно-семантическом индексировании. Но это не единственный инструмент, с помощью которого компьютеры пытаются понять значение слов.

Существует также нечто, называемое векторным анализом.

Что такое векторный анализ в применении к словам?

Вектор слов — это ряд математических значений, связанных с одним словом. Каждое значение в ряду отражает один аспект значения слова.

Вот пример:

latent semantic indexing

Каждое число в ряду пытается заключить в себе значение слова в соответствии с одним из четырех различных векторов (животное, одомашненный, домашний, пушистый).

Разница между латентным семантическим индексированием и векторами слов заключается в том, что LSI — это модель, основанная на подсчете — она просто подсчитывает, сколько раз слова встречаются в определенном контексте. Но векторы слов являются моделью, основанной на предсказании — они пытаются предсказать значение слова, основываясь на векторном анализе.

Например, благодаря векторному анализу алгоритм Google «понимает, что Париж и Франция связаны так же, как Берлин и Германия (столица и страна), а не так, как Мадрид и Италия»

6. Использует ли Google латентно-семантическое индексирование?

Вот здесь и начинаются споры.

Латентно-семантическое индексирование как «старая технология»

В последнее время в Интернете появился ряд статей, в которых утверждается, что Google не использует латентно-семантическое индексирование. Некоторые из них идут дальше и утверждают, что понимание того, как работает LSI, не поможет вашему SEO.

Но давайте рассмотрим вероятность (или нет) того, что Google использует латентно-семантическое индексирование.

Некоторые утверждают, что поскольку LSI был разработан в 1980-х годах, это «старая технология» и поэтому маловероятно, что Google будет использовать LSI в своем алгоритме.

Существует проблемас этим аргументом.

Дата открытия LSI не имеет значения для того, используется ли он Google сегодня.

На самом деле, дата открытия любой технологии не имеет никакого отношения к тому, используем ли мы ее сегодня.

Wilhelm Conrad Roentgen, discoverer of X rays

Вильгельм Конрад Рентген, первооткрыватель рентгеновских лучей

Например, рентгеновские лучи были открыты в 1895 году (Вильгельмом Конрадом Рентгеном, профессором Вюрцбургского университета в Германии). Поэтому, строго говоря, они являются «старой технологией».

Но было бы абсурдно для больниц говорить: «поскольку рентген основан на старой технологии, мы больше не будем его использовать».

Вот еще один пример, более близкий к дому.

what is latent semantic indexing

Готфрид Вильгельм Лейбниц, изобретатель двоичной системы

Компьютеры основаны на двоичной системе, где все данные сводятся к «0» или «1».

Двоичная система была изобретена Готфридом Вильгельмом Лейбницем, который опубликовал свое изобретение в 1701 году в работе под названием «Essay d’une nouvelle science des nombres».

Таким образом, можно утверждать, что современные компьютеры основаны на изобретении XVIII века.

La macchina di Turing, precursore del computer moderno

Машина Тьюринга, предшественница современного компьютера

Некоторые утверждают, что имеет более позднее происхождение . Они прослеживают путь современного компьютера к изобретению Аланом Тьюрингом в 1936 году «универсальной машины» (сейчас она называется машиной Тьюринга).

В любом случае, компьютеры основаны на «старой технологии» (1701 или 1936 год, в зависимости от вашей точки зрения).

Таким образом, тот факт, что LSI была обнаружена в 1980-х годах, не означает ни здесь, ни там, что LSI больше не актуальна и не полезна.

Патентная заявка Google 2009 года

Как я уже говорил, Google очень осторожно относится к тому, как работают ее алгоритмы.

Но в марте 2009 года Google подала заявку на патент в США (US 8,145,636 B1). Заявка на патент была озаглавлена «Классификация текста по иерархическим категориям».

Google patent application, 2009

В заявке содержится следующий параграф:

«Методы классификации текста могут быть использованы для отнесения текста к одной или нескольким тематическим категориям. Классификация/категоризация текста — это область исследований в информационной науке, которая занимается отнесением текста к одной или нескольким категориям на основе его содержания. Типичные методы классификации текстов основаны, например, на классификаторах наивного Байеса, tf-idf, латентном семантическом индексировании, машинах опорных векторов и искусственных нейронных сетях».

Google patent application, 2009

Значит, Google использует латентно-семантическое индексирование?

Мы точно не знаем.

Но было бы удивительно, если бы это было не так (и уж точно не потому, что LSI — «старая технология»).

7. Как LSI может помочь вам улучшить рейтинг в Google?

Существует несколько способов, с помощью которых LSI может помочь вам занять более высокое место в Google. Самое главное — просто понять, что Google ориентируется на темы, а не на ключевые слова.

Как я уже упоминал выше, с помощью латентно-семантического индексирования Google способен отображать целые темы и подтемы, составляющие эти темы. Это, в свою очередь, означает, что алгоритм может измерить, насколько хорошо тот или иной фрагмент контента охватывает определенную тему.

Говоря иначе, Google может измерить тематический авторитет вашего контента.

Вот некоторые способы обеспечить высокий тематический авторитет вашего контента:

Проведите тематический анализ. Просмотрите первые пять результатов поиска по вашему ключевому слову и обратите внимание на темы и подтемы, которые охватывают эти веб-страницы. Постарайтесь, чтобы ваш контент охватывал больше тем и подтем, чем любой другой фрагмент контента

Создайте тематические группы. Напишите основную статью, которая подробно освещает какую-либо тему. А затем напишите статьи-«сателлиты», которые более подробно освещают подтемы.

Например, вы можете написать основную статью о британских истребителях во Второй мировой войне. А затем вы можете написать статью о Spitfires, другую о Hurricanes, третью о Gloster Gladiators и так далее.

Сателлитные статьи об отдельных истребителях повысят тематический авторитет вашей основной статьи.

Используйте Google Auto Suggest. Начните вводить свое основное ключевое слово в Google и обратите внимание на вариации длинного хвоста, которые предлагает Google. Это все подтемы, которые относятся к вашей основной теме. Постарайтесь включить эти подтемы в качестве заголовков в свою статью.

Сделайте то же самое с «Людьми, которые тоже спрашивают» (обычно это третья часть страницы результатов) и «Связанные поиски» Google (внизу страницы результатов) — это все связанные темы или подтемы. Включите их в заголовки, за которыми следует несколько абзацев, и вы повысите тематический авторитет своей статьи.