Настройка robots.txt


Рубрика:  База знаний SEO | Автор: Юрий Макаров


При проведении базового аудита сайта seo специалист всегда должен проанализировать такой важный файл как robots.txt. Данный файл должен быть у каждого сайта. Robots.txt предназначен для ограничения доступа роботам к сайту Если данного файла все же нет, то его необходимо создать. Файл всегда находится в корневой директории сайта, например у меня: https://www.seowind.ru/robots.txt. Создается файл в обычном текстовом редакторе.

На этапе аудита выявляются ошибки, для того чтобы потом произвести правильную настройку robots.txt. Ошибки приводят к ухудшению индексации ресурса, занижению позиций при ранжировании. Главная причина - дубли которые могут быть на сайте и которые не закрыты в роботсе.

Основные директивы и спецсимволы robotx.txt

Скажу сразу, можно сутками читать различные информационные ресурсы по роботс, например такие как robotstxt.org.ru или www.robotstxt.org, что тоже нужно и полезно, а можно просто почитать мой пост, который построен на основании практического опыта.

Итак, основными директивами файла, являются:

  • директива User-agent;
  • директива Disallow;
  • директива Allow;
  • директива Host (для робота Яндекса);
  • директива Sitemap.

Все! Других директив знать не надо. Все остальное лишнее.

Первая директива User-agent предназначена для деления файла роботса на секции для различных поисковых роботов. Я советую всегда делить роботс на следующие секции:

  • User-agent: Googlebot
  • User-agent: Yandex
  • User-agent: *

Как видите у меня на https://www.seowind.ru/robots.txt так и сделано. Googlebot - название поискового робота гугла, Yandex - яндекса, а * - все поисковые роботы сразу (в том числе и других поисковых систем). Каждый робот находит свою секцию, а если её нет, то общую.

  • Disallow - директива запрета индексирования. Основая в robots. Собственно, используя данную директиву мы можем закрывать от индексирования в поисковиках как целый сайт, так и отдельные каталоги и страницы. Закрывают страницы, чтобы сохранить конфиденциальную информацию, закрыть дубли, а также страницы, которые просто не имеет смысла индексировать.
  • Allow - наоборот, указывает то, что нужно разрешить индексировать.
  • Crawl-delay - позволяет задать минимальное время между окончанием скачивания одной загрузки и началом закачки другой. Данную директиву обязательно рекомендую для больших проектов!
  • Host - обязательная директива для робота яндекса, позволяющая указать главное зеркало сайта.
  • Sitemap - используется для указания пути к XML карте. Вы можете добавить путь к XML карте в Вебмастере, но я все же советую добавить данную команду еще и в роботсе.

Чтобы узнать, что именно закрывать, я использую замечательную программу Xenu, которая, кстати, предназначена еще для проверки на битые ссылки. И мне достаточно посмотреть результат сканирования ресурса данной программой, чтобы быстро составить правильный robots.txt.

При создании файла активно используются спецсимволы "*" и "$". Спецсимвол '*' означает любую (в том числе пустую) последовательность символов, а чтобы отменить '*' на конце правила, используется спецсимвол '$'. С их помощью создаются правила в директиве Disallow. Например, Disallow: /page* - блокирует доступ к страницам начинающимся с /page. В тоже время такое сочетание Disallow: /page$ - показывает роботу, что нельзя индексировать только страницу /page, а каталог /page/ можно.

Практические кейсы по работе с файлом robots.txt

Следующая конструкция запрещает индексацию роботом всего сайта (запрет всего сайта):

User-agent: *
Disallow: /

Разрешение индексации всего сайта (нет запретов):

User-agent: *
Disallow:

А вот такая комбинация:

Allow: /seo-teoriya/nastrojka-robots-txt/
Disallow: /seo-teoriya/

Разрешает доступ только к одной странице /seo-teoriya/nastrojka-robots-txt/ в разделе /seo-teoriya/.

Можно исключать из индексирования и отдельные файлы, например, в следующем примере мы запретим файл index.html папки /admin/:

Disallow: /admin/index.html

Запрет name, name.html, name/: Disallow: /name*

Запрет всех htm, но не html: Disallow: /*.htm$

Все моменты и нюансы в рамках одной статьи не опишешь, но ясно одно, правильная настройка robots.txt для качественного продвижения сайтов - это необходимость. Пишите, буду рад помочь оказать Вам профессиональную помощь в составлении данного файла. Также Вы можете почитать справочную информацию, которую предоставляют «Яндекс» и «Google».

Также Вы можете посмотреть интересное видео на данную тему.


Оставьте отзыв в виде оценки к записи: " Настройка robots.txt"

1 звезда2 звезды3 звезды4 звезды5 звёзд (Оставлено голосов: 1, оценка: 5,00 из 5)
Загрузка...

Комментарии и отзывы

6 коммент. к записи "Настройка robots.txt"
  1. Andrei :

    Здравствуйте, Юрий.
    На данный момент, если я не ошибаюсь, порядок директив Disallow и Allow, уже не имеет значения. Так ли это?Робот смотрит на длину урла, который мы запретили или разрешили. Просто не так давно ещё у вас на курсах в Артоксе учили, что главное очередность. А вообще Гугл, по моему, слабо рагирует на robots.txt. У меня в выдаче, вернее в соплях, куча страниц, которые запрещены для индексации.

  2. Юрий Макаров :

    Добрый день!
    Да, по поводу применения директив Disallow и Allow Вы абсолютно правы.
    Для google рекомендую использовать

    А если хотите почистить сопли, то используйте инструмент удаления URL в вебмасте Google.

    p.s. Андрей, кстати Вы сейчас побеждаете в конкурсе «ТОП комментаторов» и как я обещал скоро размещу ссылку на главной странице на ваш сайт, который вы указываете в нике:)

    • Andrei :

      Это хорошая новость!))
      Хорошо когда получается совмещать приятное с полезным. А вообще, конечно, вопросов много. И мне очень интересно и познавательно пообщаться с СЕО-специалистом вашего уровня, который работает в солидной СЕО-компании.

  3. Andrei :

    Это хорошая новость!))
    Хорошо когда получается совмещать приятное с полезным. А вообще, конечно, вопросов много. И мне очень интересно и познавательно пообщаться с СЕО-специалистом вашего уровня, который работает в солидной СЕО-компании.

  4. Юрий Макаров :

    Спрашивайте, я всегда рад помочь. А насчет — seo компании — если Вы про artox-media — то я там, слава Богу, уже не работаю:) уже как год

  5. Кис :

    Здрасте, у меня такая вот проблемка, сделал сайтик на php и mysql, так вот, у меня все данные берутся из бд, а поисковики видят тока статику, в итоге весь контент пролетает, не подскажите как сделать, чтобы поисковики видели страницы с результатом поиска. Спасибо

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *