Дублирование контента

Дубликаты контента — одна из основных проблем низкого ранжирования сайта в поисковых системах. К данной проблеме приводит наличие на сайте страниц, которые полностью или частично идентичны друг другу. Естественно для поисковых систем наличие на сайте мусорных страниц представляет серьёзную проблему, так как приходится тратить на их обработку серверные мощности. Поисковым системам нет смысла тратить физические ресурсы на индексацию такого бесполезного контента. Поэтому они борются с такими сайтами, накладывая на них фильтр, либо занижает в ранжировании, что приводит к низким позициям по продвигаемым запросам.

Дубликаты и SEO

Наличие на сайте страниц дубликатов приводит к тому что:

  • Полезный ссылочный вес распыляется на эти бесполезные страницы.
  • Страница-дубликат после очередного апдейта вытесняет целевую страницу и та теряет позиции.
  • Дублированный контент снижает уникальность всех страниц на которых он размещён.
  • По мере того, как поисковая система борется с такими страницами, удаляя их из поиска — она может исключить и продвигаемую страницу.

Классификация дубликатов и решения по их устранению

Дубликаты бывают полными и частичными. Полные дубликаты — это когда страницы полностью идентичны. Соответственно, частичные дубли — это когда страницы совпадают не полностью. Полные дубликаты устраняют через robots.txt и настройку 301 редиректа. Частичные дубликаты устраняются путем проведения необходимых правок на сайте.

Привожу перечень чек-листов, которые нужно пройти, чтобы выявить и решить проблему дубликатов:

  • Поиск дубликатов главной страницы сайта. Например, могут быть следующие варианты главной страницы: http://www.domen.com/, http://www.domen.com/index.php, http://www.domen.com, http://domen.com/, https://www.domen.com/, http://www.domen.com/index.html. Как видите вариантов много, но оптимальным является вариант http://www.domen.com/. Для устранения остальных копий главной страницы используется 301 редирект и закрытие в robots.txt (в случае с конструкциями вида https://www.domen.com/.
  • Проверка фундаментального (золотого правила SEO) — каждая страница должна быть доступна только по одному адресу. Нельзя, чтобы адреса варьировались следующим образом: http://www.domen.com/stranica1/stranica2/ и http://www.domen.com/stranica2/stranica1/.
  • Проверка на наличие переменных в урле. Их, в адрессе страницы, быть не должно. Например, генерация урлов вида: http://www.domen.ru/index.php?dir=4567&id=515 — это ошибка. Правильным будет следующий вариант урла: http://www.domen.ru/dir/4567/id/515.
  • Проверка на наличие в урлах идентификаторов сессии. Например, урлы вида http://www.domen.ru/dir/4567/id/515.php?PHPSESSID=3451 — недопустимы. Такие урлы содержат бесконечное количество копий каждой страницы. Поэтому необходимо закрывать все идентификаторы сессий в robots.txt.