Плагины для проверки дублированного контента являются важной частью инструментария любого блоггера.
Потому что WordPress автоматически создает дублированный контент, и этот дублированный контент может повредить вашему рейтингу.
Но сначала о том, что такое дублированный контент и почему он вредит рейтингам поисковых систем?
1. Что такое дублированный контент?
Проще говоря, дублированный контент — это идентичный контент, доступный по двум или более различным URL-адресам.
Дублирование может происходить:
- на вашем собственном сайте
- на другом сайте: междоменное дублирование происходит, когда другой сайт копирует ваш контент.
Давайте рассмотрим эти два различных случая дублирования контента:
1.1 Дублирование контента на вашем сайте
К сожалению, если ваш сайт работает на WordPress, очень вероятно, что у вас есть дублированный контент.
Почему WordPress создает дублированный контент?
Ну, строго говоря, это не так. В базе данных WordPress существует только одна версия вашей статьи или записи в блоге.
Но WordPress позволяет обнаружить этот фрагмент контента множеством различных способов, каждый из которых имеет свой собственный URL. А с точки зрения поисковых систем, эти разные URL представляют собой дублированный контент.
Допустим, вы пишете статью о маркетинге электронной почты и присваиваете ей пермалинку ’email marketing’. Вот некоторые способы, с помощью которых можно попасть на эту страницу через различные URL-адреса:
- http://www.yourdomain.com/email-marketing
- http:// yourdomain.com/email-marketing
- http:// yourdomain.com/tag/email-marketing
- http://www. yourdomain.com/tag/email-marketing
- http:// yourdomain.com/category/email-marketing
- http://www. yourdomain.com/Category/email-marketing
- https://www.yourdomain.com/email-marketing
- https:// yourdomain.com/email-marketing
- https:// yourdomain.com/tag/email-marketing
- https://www. yourdomain.com/tag/email-marketing
- https:// yourdomain.com/category/email-marketing
- https://www. yourdomain.com/Category/email-marketing
Помните: это один и тот же контент. Я просто перечислил различные способы, с помощью которых этот контент потенциально может быть найден через органический поиск.
В дополнение к приведенному выше списку альтернативных URL, идентификатор сессии и параметры отслеживания (UTM), которые используются на многих сайтах электронной коммерции, также создают уникальные URL, которые затем могут привести к дублированию контента в результатах поиска.
1.2 Дублирование контента на другом сайте
Если вы создаете много оригинального контента, рано или поздно другие люди захотят скопировать этот контент и разместить его на своем сайте.
Может быть, они ленивы, может быть, у них нет навыков письма, а может быть, они даже не говорят и не пишут по-английски.
Как бы то ни было, рано или поздно это произойдет с вами, особенно когда повысится авторитет домена вашего сайта.
Недавно я обнаружил случай, когда весь мой сайт был скопирован на другой домен.
В данном случае преступник приобрел .org версию моего сайта и просто скопировал мой сайт на свой домен, как показано на скриншоте ниже:
Дублирование контента на других сайтах часто является результатом работы «скреперов контента» — другими словами, это было сделано программой.
А это значит, что созданные вами внутренние ссылки все еще находятся в украденном контенте.
А это, в свою очередь, означает, что когда плагиатное содержание становится доступным, оно создает обратные ссылки на ваш сайт.
И вот как я обнаруживаю большую часть контента, который был продублирован с моего сайта на другой сайт: моя программа проверки обратных ссылок (MonitorBacklinks) присылает мне уведомление о том, что я получил новую обратную ссылку.
Конечно, это обратная ссылка, которая мне не нужна, и я быстро от нее отказываюсь.
Но это позволяет мне отслеживать, кто ворует мой контент, и сообщать об этом в Google (подробнее об этом позже).
2. Почему дублированный контент вредит вашему SEO?
Почему дублированный контент вредит вашему поисковому рейтингу?
Существует два способа, с помощью которых дублированный контент может нанести вред вашему рейтингу:
- SEO для этого фрагмента контента размывается, поскольку различные версии конкурируют друг с другом
- В конце концов, Google может начать штрафовать ваш сайт в результатах поиска
Проще говоря, поисковые системы путаются — они находят множество версий одного и того же контента и не знают, какую версию показывать в результатах поиска.
Поисковые системы не будут показывать результаты, содержащие одинаковое содержимое для данного поискового запроса, поэтому они вынуждены выбирать между версиями.
Это означает, что разные версии одного и того же контента будут появляться в разных результатах поиска случайным образом.
И это, конечно, разбавляет рейтинг для каждой из версий.
Но проблема на этом не заканчивается. Разные люди будут находить в результатах поиска разные версии вашего контента и ссылаться на ту версию, которую они нашли.
Это означает, что ваш ссылочный капитал, который мог приходиться на один URL, распределяется между всеми различными URL, содержащими один и тот же контент.
Ссылочный капитал, который вы получаете за этот фрагмент контента, составляет лишь малую часть того, что могло бы быть.
Вторая проблема заключается в том, что со временем Google может начать штрафовать ваш сайт за дублированный контент.
3. Как найти дублированный контент
При поиске дубликатов важно помнить, что существует два типа дублированного контента:
- Дублированный контент на вашем сайте
- Дублированный контент на других сайтах
3.1 Поиск дублированного контента на вашем сайте
Google Search Console
Хорошим способом поиска дублированного контента на вашем сайте является Google Search Console.
Войдите в свой GSC и в левой панели, внизу, нажмите на «Перейти к старой версии»:
В старой версии GSC перейдите в раздел Search Appearance и затем HTML Improvements. Если у вас есть проблемы с дублированным контентом, вы увидите их здесь:
Site Liner
Просто зайдите на Site Liner и введите URL вашего сайта:
Site Liner предоставит вам отчет о дублированном контенте, который показывает дублированный контент в процентах от общего объема контента (так вы сможете увидеть размер проблемы) и список инкриминируемых URL.
3.2 Поиск дублированного контента на других сайтах
Ручной поиск
Один из способов узнать, дублировался ли ваш контент на других сайтах, — выполнить ручной поиск.
Просто возьмите предложение из семи или более слов из вашей статьи или сообщения в блоге и скопируйте его в поиск Google, заключив в скобки.
Однако, если у вас 100 или более записей в блоге, это становится очень трудоемким.
Copyscape
Вот более быстрый способ поиска дублированного контента. Это не бесплатно, но за цену двух чашек кофе это стоит сделать.
Зайдите на Copyscape и купите кредит в 10 долларов (минимальный). Затем просто введите URL вашего сайта.
Так я обнаружил, что весь мой сайт был скопирован на другой домен:
4. Как бороться с дублированным контентом
Так же, как есть два типа дублированного контента, есть два способа борьбы с ним:
4.1 Борьба с дублированным контентом на вашем сайте
Помните, как мы говорили о различных URL на вашем сайте, которые могут показывать одно и то же содержание?
Вот некоторые из его форм и способы борьбы с ним:
Canonical URL
Решением проблемы дублированного контента, создаваемого WordPress, является «Canonical URL» — это оригинальный URL, о котором хотят знать поисковые системы.
В настоящее время существует тег, который вы можете поместить в верхней части каждой создаваемой вами страницы, называемый ‘rel=canonical’ или ‘каноническая ссылка’. Он сообщает поисковым системам, что это предпочтительная версия данной конкретной страницы или контента.
Когда существует множество различных URL-адресов, содержащих одинаковое содержимое, этот тег быстро сообщает поисковым системам, какой из них предпочтительнее и какой из них следует показывать в результатах поиска.
По умолчанию плагин Yoast SEO автоматически вставляет тег ‘rel=canonical’ на каждую созданную вами страницу или пост. Поэтому, просто установив бесплатную версию Yoast SEO, вы сможете избежать проблем с дублированным контентом на своем сайте.
Категории и теги
Большая часть дублированного контента на сайте WordPress возникает из-за категорий и тегов WordPress.
Категории и теги WordPress — это два основных способа организации контента на сайте WordPress. Категории группируют сообщения или статьи по одной теме, а теги присваивают конкретные ключевые слова определенным сообщениям или статьям.
Категории и теги очень полезны, но являются ли они также основной причиной дублирования контента?
Поскольку WordPress присваивает URL-адреса категориям и тегам. И эти URL будут отображаться в результатах поиска как дублированный контент.
Но для этого есть простое решение: используйте тег «noindex, follow». Этот тег указывает роботам поисковых систем следовать ссылкам в категориях и тегах, но не индексировать их.
Чтобы применить «noindex, follow» для категорий, перейдите в Yoast (бесплатная версия) в вашей приборной панели WordPress и нажмите на ‘Search Appearance’, а затем на ‘Taxonomies’.
Измените кнопку ‘Show categories’ на ‘No’:
Прокрутите вниз и сделайте то же самое для тегов:
Теперь Yoast применит тег «noindex, follow» к вашим категориям и тегам, и они перестанут появляться в результатах поиска.
URL-адреса вложений
Всякий раз, когда вы вставляете медиа (например, фотографии) в сообщение блога или страницу, WordPress создает новую страницу специально для этого медиа.
Проблема с вложенными URL заключается в том, что после обновления Panda Update Google наказывает тонкий контент.
И это именно то, чем являются URL-адреса вложений. Они отображаются в результатах поиска как страница, но там нет ничего, кроме элемента media.
Таким образом, хотя URL-адреса вложений не являются дубликатом контента, они генерируются каждый раз, когда вы создаете новый контент, и могут навредить вашему SEO.
Самый простой способ справиться с URL вложений — использовать тег, который перенаправляет URL вложений на родительскую статью.
Вы можете сделать это одним махом, изменив настройки в Yoast.
Если вы перейдете на вкладку «Медиа» в Yoast, вы увидите следующее объяснение того, почему лучше всего перенаправлять URL вложений на родительский пост, из которого они взяты:
Просто переключите кнопку на «Да», и все URL вложений «тонкого контента» будут автоматически перенаправлены на пост блога, к которому они относятся.
Вы должны знать, однако, что в прошлом Yoast выпустил обновления, которые случайно отключили эту настройку.
Если это произойдет, ваши прикрепленные URL-адреса внезапно начнут появляться в результатах поиска Google как «тонкий контент», и вы можете получить штраф Google.
Это случилось с Митчеллом Райтом, и он написал сообщение в своем блоге. Его решением было использование плагина WP под названием Attachment Pages Redirect.
301 Redirect
301 Redirect просто перенаправляет трафик с одного URL на другой.
Например, когда я только начинал вести блог, я позволил WordPress создать для меня slug поста.
Это привело к появлению URL-адресов, которые выглядели так:
С тех пор я понял, что длинные URL-адреса — не бог весть что для SEO, и что все, что мне нужно в slug — это ключевое слово.
Итак, я просмотрел все свои старые записи в блоге и изменил многие слизни на более короткую версию, например:
Но это может привести к созданию дублирующего контента.
Вот два плагина для создания 301 редиректа:
Redirection — я использовал этот плагин для перенаправления со старой версии сообщения на новую.
Yoast SEO — в премиум-версии Yoast при изменении slug поста или страницы Yoast выводит сообщение о создании 301 редиректа. Yoast также предоставляет возможность отменить перенаправление
www vs non-www
Это может быть еще одним источником дублированного контента. Когда люди ссылаются на ваш сайт, они могут использовать любую форму URL.
Google часто будет рассматривать их как отдельные URL, что приведет к дублированию контента.
Способ обращения с ними заключается в том, чтобы сообщить Google, какой формат URL вы предпочитаете (с ‘www’ или без).
Зайдите в свой аккаунт поиска Google (старая версия), нажмите на шестеренку в правом верхнем углу экрана и выберите, какой вариант URL является предпочтительным:
Установка предпочтительного URL также полезна для SEO.
Потому что если половина ваших ссылок находится в формате «www», а половина — в формате «не www», ни один из этих форматов не получает полного объема ссылочного капитала, который вы могли бы получить от этих обратных ссылок.
4.2 Работа с дублированным контентом на другом сайте
Если вы обнаружили, что другой сайт скопировал ваш контент без вашего разрешения, есть три способа справиться с этим:
Сообщите об этом хостеру
Как я уже говорил выше, недавно я обнаружил, что весь мой сайт был скопирован на другой домен.
Я сразу же проверил сайт-нарушитель на сайте ICANN «Who Is Lookup» и обнаружил, что сайт-нарушитель находится на хостинге GoDaddy.
Компания GoDaddy проводит очень жесткую политику в отношении нарушений DMCA. Я немедленно отправил электронное письмо в отдел GoDaddy по борьбе с нарушениями авторских прав с просьбой удалить украденный материал.
Сообщить об этом Google
Если кто-то нарушил ваши авторские права, украв содержимое вашего сайта и разместив его на своем сайте, вам следует сообщить об этом Google.
Перейдите на юридическую страницу Google и заполните онлайн-форму.
Конечно, все, что может сделать Google, это удалить сайт-нарушитель из результатов поиска (на самом деле он не может добиться удаления сайта-нарушителя).
Используйте междоменный тег ‘rel=canonical’
В 2009 году Google ввел новый тег для ситуаций, когда ваш контент появляется дословно на чужом сайте. Это дублирование может быть с вашего разрешения или без него.
Возможно, вы дали кому-то разрешение на воспроизведение вашей статьи или он украл ее с вашего сайта. В любом случае, при использовании этого тега именно ваша версия будет появляться в результатах поиска.
Используя междоменный канонический тег, Moz оценивает, что около 90% сока ссылок, авторитета и сигналов ранжирования будут перенесены с дублирующего контента на вашу страницу.
5. Семь лучших плагинов WordPress для проверки дублированного контента
Следующие плагины WP проверят ваш сайт на дублированный контент.
Некоторые из этих плагинов решают проблему дублированного контента на вашем сайте, а другие — проблему дублированного контента на других сайтах.
1. Yoast SEO
Yoast SEO — это плагин, на который я ссылаюсь в этой статье.
Плагин Yoast SEO позволяет:
- Создайте канонический тег URL для каждого нового сообщения блога или статьи
- Удалите категории и теги из результатов поиска Google
- Перенаправьте URL вложений на родительский пост, из которого они пришли
По моему мнению, это лучший плагин для быстрого и легкого устранения проблем дублированного контента в WordPress.
2. Duplicate Content Cure
Duplicate Content Cure — это довольно простой плагин, который делает ваш сайт WordPress более SEO дружественным, не позволяя поисковым системам индексировать архивы, теги и категории, которые обычно содержат дублированный контент.
Плагин делает это путем добавления тега ‘nofollow, noindex’ к этим страницам.
3. Dooplee Duplicate Content Checker
Dooplee Duplicate Content Checker отслеживает последние 10 записей вашего блога на предмет наличия случаев, когда скреперы или «автоблоги» скопировали ваш контент на другой сайт.
Плагин также содержит форму для подачи жалобы DMCA и советы о том, как поступать с плагиатом или украденным контентом.
Плагин пытается удалить оскорбительное содержимое. Если это невозможно, плагин пытается добиться удаления оскорбительного материала из поисковых систем Google и Bing, чтобы он не конкурировал с оригинальной версией.
4. Удаление дубликатов сообщений
Удаление дубликатов сообщений просто ищет и удаляет дубликаты сообщений и их метаданные. Основная цель плагина — очистить пространство на вашем сайте WordPress, а не решить проблемы SEO, возникающие из-за дублированного контента.
5. Fix Duplicates
Fix Duplicates предназначен для сайтов, которые принимают пользовательский контент. Плагин решает проблему, связанную с тем, что пользователи отправляют одно и то же сообщение несколько раз.
Этот инструмент удаляет дублированный контент и создает 301 редирект на оригинальную версию, тем самым сохраняя ссылочную массу удаленного контента.
6. Плагиат
Плагиат предназначен в первую очередь для проверки того, что ваш контент не дублирует чужой. Он проверяет содержимое поста, в который вы публикуете сообщение, на предмет дублирования. Он проверяет содержание сообщения, которое вы собираетесь опубликовать, чтобы убедиться, что оно не содержит плагиата.
Но этот плагин также можно использовать для проверки сайтов, которые соскребли ваш существующий контент.
7. Google Plus Authorship
Один из лучших способов защиты вашего онлайн-контента — установить в Google, что вы являетесь его автором.
Вы можете сделать это с помощью Google Authorship, системы, введенной Google в 2011 году. Хотя Google удалил богатые сниппеты Authorship из результатов поиска, Google Authorship все еще можно использовать, чтобы указать Google, что вы являетесь автором фрагмента контента.
01 Плагин Google Plus Authorship делает это, связывая вашу статью с вашим аккаунтом Google+.
Заключение
Дублированный контент бывает двух видов: дублированный контент, создаваемый платформой WordPress, и дублированный контент, возникающий, когда кто-то берет ваш контент и размещает его на другом сайте.
Обе формы дублированного контента могут серьезно повредить вашим SEO-показателям, поэтому важно принять меры по устранению обеих форм.
Следуйте советам из этой статьи, и вам больше никогда не придется беспокоиться о дублированном контенте.