Дублированный контент-обозначает не уникальный, уже существующий контент. ПС не хотят индексировать дублированный контент. Одно дело когда дублированный контент это новости представленные на разных сайтах, то скорее всего страницы с попадут в поисковый индекс. Но если находится продублирована информация на определенном количестве страниц одного и того же сайта, то в индексе с большой вероятностью окажется лишь малая часть страниц от этого количества.
Сайты с дублированным контентом зачастую располагаются в дополнительных результатах выдачи, попадая под фильтр не уникального контента. Для того чтобы проверить существуют ли на вашем сайте дубли, можно посмотреть, находятся ли в дополнительных результатах страницы вашего сайта.
Например, в Google это можно сделать по запросу:
site:allproall.com
В конце страницы с выдачей по данному запросу, будет ссылка «повторить поиск, включив опущенные результаты». Если ссылка будет, то на сайте найден дублированный контент, а это значит, что надо проанализировать где именно он находится и удалить его.
Виды дублированного контента
С появлением алгоритма Panda, огромного количество сайтов ощутили данный фильтр на себе. Задача этого алгоритма стало бороться с сайтами, у которых много дублированного или некачественного контента. По началу пострадали откровенные ГС, на которых вообще не было уникального поста. Затем Panda добралась и до сайтов, которые совсем немного балуются дублированием контента. Более того, если раньше на внутренние дубли никто особого внимания не обращал, то теперь и они тоже стали большой угрозой.
Полные дубликаты
Это происходит когда две и более страницы одного сайта совершенно идентичны, но имеют разные адреса.
Частичные дубликаты
Когда страницы одного сайта очень похожи, но не совсем идентичны друг другу.
Внешние дубликаты
Это дубликаты на разных доменах. Могут быть как частичными, так и полными.
Как не допустить дублированный контент
На страницах постов, статических страницах, всегда используйте мета-тег
REL=’CANONICAL’
Если вы размещаете статью на внешних ресурсах измените хотя бы некоторые абзацы вашего текста
Постраничную навигацию, навигацию по комментариям, Архивы, Теги, поиск по сайту лучше всего закрыть от индексации в robots.txt. Что опять возвращает нас к моему прошлому посту о robots.txt.
Можно вот по такому примеру:
DISALLOW: */COMMENTS*
DISALLOW: /SEARCH
DISALLOW: /?S=*
DISALLOW: /AUTHOR/*
DISALLOW: /TAG/*
DISALLOW: /TRACKBACK
DISALLOW: /20*/*
DISALLOW: /PAGE/*
DISALLOW: /COMMENT-PAGE*
DISALLOW: /*?REPLYTOCOM*
Нужно так же избавиться от дублирования контента в рубриках, либо закрыть ее от индексации.
Я старался объяснить вам, что такое дублированный контент и как от него можно избавиться. Если я что-то упустил или вы знаете еще что то, либо другое способы, как избавиться от дублированного контента на сайте, то прошу упомянуть это в комментариях к этому посту.