Дублирование контента


Рубрика:  База знаний SEO | Автор: Юрий Макаров


Дубликаты контента - одна из основных проблем низкого ранжирования сайта в поисковых системах. К данной проблеме приводит наличие на сайте страниц, которые полностью или частично идентичны друг другу. Естественно для поисковых систем наличие на сайте мусорных страниц представляет серьёзную проблему, так как приходится тратить на их обработку серверные мощности. Поисковым системам нет смысла тратить физические ресурсы на индексацию такого бесполезного контента. Поэтому они борются с такими сайтами, накладывая на них фильтр, либо занижает в ранжировании, что приводит к низким позициям по продвигаемым запросам.

Дубликаты и SEO

Наличие на сайте страниц дубликатов приводит к тому что:

  • Полезный ссылочный вес распыляется на эти бесполезные страницы.
  • Страница-дубликат после очередного апдейта вытесняет целевую страницу и та теряет позиции.
  • Дублированный контент снижает уникальность всех страниц на которых он размещён.
  • По мере того, как поисковая система борется с такими страницами, удаляя их из поиска - она может исключить и продвигаемую страницу.

Классификация дубликатов и решения по их устранению

Дубликаты бывают полными и частичными. Полные дубликаты - это когда страницы полностью идентичны. Соответственно, частичные дубли - это когда страницы совпадают не полностью. Полные дубликаты устраняют через robots.txt и настройку 301 редиректа. Частичные дубликаты устраняются путем проведения необходимых правок на сайте.

Привожу перечень чек-листов, которые нужно пройти, чтобы выявить и решить проблему дубликатов:

  • Поиск дубликатов главной страницы сайта. Например, могут быть следующие варианты главной страницы: http://www.domen.com/, http://www.domen.com/index.php, http://www.domen.com, http://domen.com/, https://www.domen.com/, http://www.domen.com/index.html. Как видите вариантов много, но оптимальным является вариант http://www.domen.com/. Для устранения остальных копий главной страницы используется 301 редирект и закрытие в robots.txt (в случае с конструкциями вида https://www.domen.com/.
  • Проверка фундаментального (золотого правила SEO) - каждая страница должна быть доступна только по одному адресу. Нельзя, чтобы адреса варьировались следующим образом: http://www.domen.com/stranica1/stranica2/ и http://www.domen.com/stranica2/stranica1/.
  • Проверка на наличие переменных в урле. Их, в адрессе страницы, быть не должно. Например, генерация урлов вида: http://www.domen.ru/index.php?dir=4567&id=515 - это ошибка. Правильным будет следующий вариант урла: http://www.domen.ru/dir/4567/id/515.
  • Проверка на наличие в урлах идентификаторов сессии. Например, урлы вида http://www.domen.ru/dir/4567/id/515.php?PHPSESSID=3451 - недопустимы. Такие урлы содержат бесконечное количество копий каждой страницы. Поэтому необходимо закрывать все идентификаторы сессий в robots.txt.


Оставьте отзыв в виде оценки к записи: " Дублирование контента"

1 звезда2 звезды3 звезды4 звезды5 звёзд (Оставлено голосов: 1, оценка: 5,00 из 5)
Загрузка...

Комментарии и отзывы

11 коммент. к записи "Дублирование контента"
  1. Andrei :

    Здравствуйте, Юрий.
    В последнее время проблема дубликатов стала особенно острой для меня. В индексе Гугла, не смотря на все мои потуги, сопливых страниц становится всё больше и больше. Что я только с ними не делал: и в robots.txt их запрещал, и через вебмастер их удалял, а их сволочей всё больше и больше. Эти фиды, трэкбеки и прочая хрень всё лезет и лезет. До поры хотя бы Яша радовал в этом плане, но в последнее время наблюдаю странное увеличение страниц в индексе (смотрю по разным источникам). И хреново то, что даже не посмотришь что-там за страницы. Правда сегодня обнаружил один такой интересный момент. На главной у меня выводятся анонсы, а потом ссылка «читать далее» и при нажатии открывается страница, правда, урл заканчивается на #more-618 (цифры, разумеется, разные всегда). Ну так вот к чему я собственно. По идее из-за этого дублей не должно быть, т.к. в плагине «All in one SEO» предусмотрена возможность выбора канонического адреса. Но я сегодня интереса ради попробовал удалить такого рода урл (т.е. с #more-618) в ВМ Яндекса, и его поставили в очередь на удаление. Это меня несколько озадачило. Значит по идее страница с таким урлом есть в индексе Яши.
    Короче основная мысль такая:» Если у меня на сайте имеется, скажем, 80 страниц. Как можно сделать, чтобы и в индексе Яши и Гоши тоже было что-то около того, но никак не 160 и не 350? И как поудалять все эти сопли?»
    Был бы вам очень благодарен, Юрий, если бы вы подсказали куда рыть и что исправлять. Спасибо.

  2. Юрий Макаров :

    Я Вас понял. У самого такая проблема была. И сейчас есть, но в гораздо меньших масштабах.
    Если у Вас WP — то ссылки с feed рекомендую удалить. Для этого надо устранить причину. На примере Вашего сайта:
    у Вас в header есть такие строчки —

    Именно они и плодят feed!!!

    Что надо сделать — так это просто их удалить. У google просто тема такая, что если есть ссылка на любую страницу — пусть и закрытую в robots.txt или еще где-то, он все-равно ее не в основной индексе, так 100% в сопли помещает.

    В общем идея такая, чтобы не было соплей и т.д — нужно устранить первопрочину, а уже потом удалять их. В любом случае их придется удалять вручную через вебмастер google — другого выхода я не знаю. Яндекс же должен удалять такие вещи сам, но это порой не сразу происходит.

    Насчет — #more-618 — я слабо верю, что такие страницы в индексе могут быть. В любом случае Вы можете вбить такой урл в выдачу яндекса и если он в индексе есть, то Вы это увидите.

  3. Andrei :

    Прошу прощения, Юрий, но в вашем комментарии я не вижу про какие строчки вы говорите. После тире пустота.

  4. Юрий Макаров :

    Странно. Вырезались такие строчки

    link rel=»alternate» type=»application/rss+xml» title=»GoodMotivaciya.ru RSS Feed» href=»http://goodmotivaciya.ru/feed»
    link rel=»alternate» type=»application/atom+xml» title=»GoodMotivaciya.ru Atom Feed» href=»http://goodmotivaciya.ru/feed/atom»

  5. Andrei :

    Спасибо большое, Юрий! Вот эта информация была абсолютна новая для меня. Я даже и понятия не имел, что тут нужно искать корень проблем. Почистил header.php, удалил там три строчки, посмотрю какая сейчас ситуация будет.

  6. Юрий Макаров :

    Ситуация будет такая, что новых feed добавляться в сопли не будет, но Вам нужно через вебмастер удалить старые.

  7. Andrei :

    Юрий, по поводу доступности страницы только по одному урл есть такой вопрос. Если есть две страницы:
    Site.ru/o-proekte
    Site.ru/o-pRoekte
    Вторая по идее не должна быть доступна, т.е. выдавать 404 Not Found, а не 200 ОК. Подскажите, пожалуйста, как это можно сделать?

  8. admin :

    Я встречал 3 варианта реализации исправления такой проблемы:
    1) Делать 404 ошибку при вводе страницы Site.ru/o-pRoekte. Сразу скажу что я не знаю как такое делать — это всегда делает на клиентских сайтах программист. Но этот способ мне кажется не «человечным» в плане юзабильности, так как пользователь мог ошибиться при вводе урла и ввести большую букву вместо маленькой, а страницу то он уже не увидит, на которую пытался зайти. Вместо нее будет 404 ошибка.
    2) Делать 301 редирект со страниц вида Site.ru/o-pRoekte на Site.ru/o-proekte — уже получше, но все же 3 метод лучше.
    3) И наиболее правильный метод, как мне кажется на страницах вида Site.ru/o-pRoekte выводить link rel=»canonical»
    на Site.ru/o-proekte и тогда проблем не будет.

    Кстати так сделано у меня на блоге.

  9. Andrei :

    Третий вариант, если я не ошибаюсь реализовывается с помощью плагина All in One SEO Pack? И он же вроде как помогает от дублирования страниц, на которые мы переходим по ссылке «читать далее». Там же урл отличается только тем что на конце #more, правильно?

  10. Юрий Макаров :

    Да. All in One SEO PACK выводит rel=»canonical». #more — это якорная ссылка, то есть ссылка на себя же (помогают при создании навигации в рамках одной страницы). Тут rel=»canonical» не причем.

  11. Татьяна :

    Здравствуйте, Юрий!
    Помогите, пожалуйста, удалить из индекса Гугла страницы с /feed.
    Данные страницы были закрыты в роботе, но Гуглу это не помешало проиндексировать, правда, с описанием: «Описание веб-страницы недоступно из-за ограничений в файле robots.txt. Подробнее…»
    Пробовала удалить пользуясь описанным выше Вами советом, но в header не нашла строк, плодящих подобные урлы.
    Дело в том, что при создании сайта я изначально пользовалась другим шаблоном, там была подписка RSS, я ее настроила. Через некоторое время решила сменить шаблон. На новом, который в данный момент на сайте, подписки RSS нет. Но через исходный код страницы вижу что-то, связанное с feed, но где и как удалять это я не найду (((( (Чайник в этом деле 🙁 ) Помогите, пожалуйста!

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *