Много людей знает, что такое поисковая система (ПС). Но, к сожалению, очень мало из них знает принципы работы ПС. Так как же работает поисковая система?

Все существующие на сегодняшние день поисковики являются индексирующими. Индекс — это алфавитный указатель, если перевести на русский язык. Этот термин еще существовал задолго до интернета. Если взять любую большую книгу, особенно техническую, и открыв ее в конце, можно увидеть алфавитный указатель ключевых слов с указанием того на каких страницах данные слова встречаются. То есть если человеку нужно найти что-то в толстой книге, например, по физике, то он вместо того чтобы листать каждую страницу — идет в алфавитный указатель и находит номер страницы (ссылку) на которой расположена нужная информация.

По такому же принципу работают и поисковики. И когда пользователь набирает интернет запрос в поиске — то ПС не просматривает все сайты именно сейчас — она ищет в своей заранее построенной базе данных (индексе). И показывает итоговую выдачу именно из индекса. Стоит отметить, что на сегодняшний день — это самый современный и быстрый способ работы ПС. Минусом лишь является то, что Мы видим в выдаче не текущий результат, а только тот который был на момент построения индекса. Поэтому иногда может быть такая ситуация, что текущая информация может не совпадать с той которая была на момент построения индекса, например, вчера на странице была информация про автомобили, а сегодня уже про квартиры. Просмотреть информацию которая была на момент построения индекса можно нажав на кнопку «Сохраненная копия». Я думаю каждый знает, где ее искать.

Поисковая система состоит из 2 частей:

  • cобственно робот (паук, червяк, бот, индексатор, кроулер и т.д);
  • сам поисковик.

Робот, это часть поисковой системы (программа), который занимается постоянным сканированием интернета в поисках новых или изменившихся страниц и наполняет индексую базу. Когда, индексная база наполнена, она передается второй части — поисковику, который с ней и работает. Насколько быстро это происходит (или если говорить на жаргоне оптимизаторов — апдейты) — это конечно зависит от самой ПС. У яндекса — среднем апдейт проходит раз в 3 дня. То есть робот посчитал новую порцию информации и отдал ее яндексу. После таких «подсчетов» часть страниц могут изменить свои позиции, оптимизаторы в таком случае говорят о «шторме». Шторм — это примерный показатель того, сколько страниц в масштабах всего интернета изменили свои позиции.

Разберемся как вообще робот строит индексную базу данных. Современные поисковые системы могут работать с большим количеством типов документов (HTML, офисные документы (WORD, EXCEL), FLASH (если в нем есть текстовое содержимое)). Но в основном современные поисковики рассчитывают на HTML. Робот заходит на страницу сайта и выкачивает к себе HTML код. Первое что делает робот вычленяет из этой страницы все ссылки. Для него это крайне важно. Потому что у него есть так называемая очередь на индексацию, которая постоянно пополняется. У робота есть список внутренних ссылок которые нужно пройти. То есть достаточно ему узнать одну страницу Вашего сайта и по внутренним ссылкам он узнает обо всех остальных страницах. Точно также если на Вашу страницу сайта кто — то сослался внешней ссылкой.

Далее происходит работа с текстом страницы. Первое что делает робот — делит текст на пассажи (значимые части предложения). Он просто напросто вычленяет пассажи из всего текста и с ними уже работает. Далее из каждого пассажа удаляются шумовые слова (стоп-слова), как правило это предлоги и незначимые морфологические части речи. Все эти данные поисковые системы записывают в базу данных.