При проведении базового аудита сайта seo специалист всегда должен проанализировать такой важный файл как robots.txt. Данный файл должен быть у каждого сайта. Robots.txt предназначен для ограничения доступа роботам к сайту Если данного файла все же нет, то его необходимо создать. Файл всегда находится в корневой директории сайта, например у меня: https://www.seowind.ru/robots.txt. Создается файл в обычном текстовом редакторе.

На этапе аудита выявляются ошибки, для того чтобы потом произвести правильную настройку robots.txt. Ошибки приводят к ухудшению индексации ресурса, занижению позиций при ранжировании. Главная причина — дубли которые могут быть на сайте и которые не закрыты в роботсе.

Основные директивы и спецсимволы robotx.txt

Скажу сразу, можно сутками читать различные информационные ресурсы по роботс, например такие как robotstxt.org.ru или www.robotstxt.org, что тоже нужно и полезно, а можно просто почитать мой пост, который построен на основании практического опыта.

Итак, основными директивами файла, являются:

  • директива User-agent;
  • директива Disallow;
  • директива Allow;
  • директива Host (для робота Яндекса);
  • директива Sitemap.

Все! Других директив знать не надо. Все остальное лишнее.

Первая директива User-agent предназначена для деления файла роботса на секции для различных поисковых роботов. Я советую всегда делить роботс на следующие секции:

  • User-agent: Googlebot
  • User-agent: Yandex
  • User-agent: *

Как видите у меня на https://www.seowind.ru/robots.txt так и сделано. Googlebot — название поискового робота гугла, Yandex — яндекса, а * — все поисковые роботы сразу (в том числе и других поисковых систем). Каждый робот находит свою секцию, а если её нет, то общую.

  • Disallow — директива запрета индексирования. Основая в robots. Собственно, используя данную директиву мы можем закрывать от индексирования в поисковиках как целый сайт, так и отдельные каталоги и страницы. Закрывают страницы, чтобы сохранить конфиденциальную информацию, закрыть дубли, а также страницы, которые просто не имеет смысла индексировать.
  • Allow — наоборот, указывает то, что нужно разрешить индексировать.
  • Crawl-delay — позволяет задать минимальное время между окончанием скачивания одной загрузки и началом закачки другой. Данную директиву обязательно рекомендую для больших проектов!
  • Host — обязательная директива для робота яндекса, позволяющая указать главное зеркало сайта.
  • Sitemap — используется для указания пути к XML карте. Вы можете добавить путь к XML карте в Вебмастере, но я все же советую добавить данную команду еще и в роботсе.

Чтобы узнать, что именно закрывать, я использую замечательную программу Xenu, которая, кстати, предназначена еще для проверки на битые ссылки. И мне достаточно посмотреть результат сканирования ресурса данной программой, чтобы быстро составить правильный robots.txt.

При создании файла активно используются спецсимволы «*» и «$». Спецсимвол ‘*’ означает любую (в том числе пустую) последовательность символов, а чтобы отменить ‘*’ на конце правила, используется спецсимвол ‘$’. С их помощью создаются правила в директиве Disallow. Например, Disallow: /page* — блокирует доступ к страницам начинающимся с /page. В тоже время такое сочетание Disallow: /page$ — показывает роботу, что нельзя индексировать только страницу /page, а каталог /page/ можно.

Практические кейсы по работе с файлом robots.txt

Следующая конструкция запрещает индексацию роботом всего сайта (запрет всего сайта):

User-agent: *
Disallow: /

Разрешение индексации всего сайта (нет запретов):

User-agent: *
Disallow:

А вот такая комбинация:

Allow: /seo-teoriya/nastrojka-robots-txt/
Disallow: /seo-teoriya/

Разрешает доступ только к одной странице /seo-teoriya/nastrojka-robots-txt/ в разделе /seo-teoriya/.

Можно исключать из индексирования и отдельные файлы, например, в следующем примере мы запретим файл index.html папки /admin/:

Disallow: /admin/index.html

Запрет name, name.html, name/: Disallow: /name*

Запрет всех htm, но не html: Disallow: /*.htm$

Все моменты и нюансы в рамках одной статьи не опишешь, но ясно одно, правильная настройка robots.txt для качественного продвижения сайтов — это необходимость. Пишите, буду рад помочь оказать Вам профессиональную помощь в составлении данного файла. Также Вы можете почитать справочную информацию, которую предоставляют «Яндекс» и «Google».

Также Вы можете посмотреть интересное видео на данную тему.