Принцип работы поисковых систем


2011-07-29

Юрий Макаров

Много людей знает, что такое поисковая система (ПС). Но, к сожалению, очень мало из них знает принципы работы ПС. Так как же работает поисковая система?

Все существующие на сегодняшние день поисковики являются индексирующими. Индекс - это алфавитный указатель, если перевести на русский язык. Этот термин еще существовал задолго до интернета. Если взять любую большую книгу, особенно техническую, и открыв ее в конце, можно увидеть алфавитный указатель ключевых слов с указанием того на каких страницах данные слова встречаются. То есть если человеку нужно найти что-то в толстой книге, например, по физике, то он вместо того чтобы листать каждую страницу - идет в алфавитный указатель и находит номер страницы (ссылку) на которой расположена нужная информация.

По такому же принципу работают и поисковики. И когда пользователь набирает интернет запрос в поиске - то ПС не просматривает все сайты именно сейчас - она ищет в своей заранее построенной базе данных (индексе). И показывает итоговую выдачу именно из индекса. Стоит отметить, что на сегодняшний день - это самый современный и быстрый способ работы ПС. Минусом лишь является то, что Мы видим в выдаче не текущий результат, а только тот который был на момент построения индекса. Поэтому иногда может быть такая ситуация, что текущая информация может не совпадать с той которая была на момент построения индекса, например, вчера на странице была информация про автомобили, а сегодня уже про квартиры. Просмотреть информацию которая была на момент построения индекса можно нажав на кнопку "Сохраненная копия". Я думаю каждый знает, где ее искать.

Поисковая система состоит из 2 частей:

  • cобственно робот (паук, червяк, бот, индексатор, кроулер и т.д);
  • сам поисковик.

Робот, это часть поисковой системы (программа), который занимается постоянным сканированием интернета в поисках новых или изменившихся страниц и наполняет индексую базу. Когда, индексная база наполнена, она передается второй части - поисковику, который с ней и работает. Насколько быстро это происходит (или если говорить на жаргоне оптимизаторов - апдейты) - это конечно зависит от самой ПС. У яндекса - среднем апдейт проходит раз в 3 дня. То есть робот посчитал новую порцию информации и отдал ее яндексу. После таких "подсчетов" часть страниц могут изменить свои позиции, оптимизаторы в таком случае говорят о "шторме". Шторм - это примерный показатель того, сколько страниц в масштабах всего интернета изменили свои позиции.

Разберемся как вообще робот строит индексную базу данных. Современные поисковые системы могут работать с большим количеством типов документов (HTML, офисные документы (WORD, EXCEL), FLASH (если в нем есть текстовое содержимое)). Но в основном современные поисковики рассчитывают на HTML. Робот заходит на страницу сайта и выкачивает к себе HTML код. Первое что делает робот вычленяет из этой страницы все ссылки. Для него это крайне важно. Потому что у него есть так называемая очередь на индексацию, которая постоянно пополняется. У робота есть список внутренних ссылок которые нужно пройти. То есть достаточно ему узнать одну страницу Вашего сайта и по внутренним ссылкам он узнает обо всех остальных страницах. Точно также если на Вашу страницу сайта кто - то сослался внешней ссылкой.

Далее происходит работа с текстом страницы. Первое что делает робот - делит текст на пассажи (значимые части предложения). Он просто напросто вычленяет пассажи из всего текста и с ними уже работает. Далее из каждого пассажа удаляются шумовые слова (стоп-слова), как правило это предлоги и незначимые морфологические части речи. Все эти данные поисковые системы записывают в базу данных.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *