Дубли страниц на сайте: как найти и удалить

Дубли представляют собой страницы с идентичным контентом. Часто это одна и та же страница, которая находится под разными url. Они проявляются, если настройки были выполнены неправильно, при изменении структуры сайта, при ошибках кластеризации и при автогенерации. Дубли отрицательно влияют на SEO продвижение, так как страницы с похожим контентом плохо ранжируются поисковыми системами. Большое количество пустых и несодержательных страниц снижают оценку сайта. Поэтому важно своевременно разбираться в проблемах. Из нашего обзора вы узнаете, как быстро отыскать дубли сайтов и избавиться от них, чтобы обезопасить себя от негативного влияния. Наш материал будет полезен не только SEO - специалистам, но и владельцам сайтов.

Зарегистрироваться на бесплатный курс

Изучи базовое SEO за 5 дней и начни зарабатывать от 100 000 руб./месяц

23.08.2023

Евгений Милованцев

17 мин.

Содержание:

Почему дубли плохо влияют на сайт

Дубли – это страницы с одинаковым содержимым, так как дублируют сами себя. Это очень не хорошее явление, даже если появляется по естественным причинам. Поисковые роботы плохо ранжируют одинаковые страницы. И чем таких страниц будет больше, тем больше рисков, что сайт не появится в топе выдачи.

При наличии дубликатов страниц у сайта могут быть следующие проблемы:

снижение релевантности ресурса. Обе страницы потеряют трафик и позиции;

уменьшение уникальности контента. В результате снижается ценность всего сайта;

происходит снижение веса URL – адресов сайта. По каждому запросу в выдачу поиска попадает только одна страница, если же таких несколько, все потеряют в весе;

увеличение времени на индексацию. Чем больше страниц, тем больше времени потребуется поисковикам для индексации ресурса;
попадание в бан;

возникают сложности со сбором статистики;

повышение времени индексации для важных документов, так как робот затрачивает ресурсы на тестирование и проверку дубликатов;

неправильно распределяется внутренний ссылочный вес.

Дубли негативно отражаются на процессах индексации. Робот при проверке посещает каждую страницу по отдельности. В результате скорость обхода полезных страниц сильно замедляется.

Стоит отметить и влияние дубликатов на сложности в интерпретации сведений веб – аналитики. Страница из группы дублей подбирается поисковыми системами автоматически. И такой выбор может изменяться. При обновлении поисковой базы может измениться адрес страницы дубликата. В результате сбор статистики будет затруднен.

Даже небольшие ошибки негативно отражаются на сайте и мешают его выводу в Топ 10. Из этого следует, что дубли всегда лишние и даже вредные для сайте. Поэтому важно понять, как их можно отыскать и обезвредить.

Дубли часто формируются при автоматической генерации. CMS создает ссылки не только с ЧПУ, но и с техническим адресом. Некорректные настройки ссылок могут привести к появлению ссылок с адресами, которых не существует на самом деле.

Смотри кейсы студентов, которые стали
SEO-специалистами

Разновидности дублей

Дубликаты могут быть в трех вариациях:

полные – с полностью идентичным контентом;
частичные – с частично повторяющимся контентом;
смысловые, когда на нескольких страницах один и тот же смысл, но с разными словами.

При проведении анализа особое внимание уделяется полным совпадениям, но про смысловые и частичные также забывать нельзя.

Полные

Дубли такого типа ухудшают продвижение сайта и хостовые факторы. В результате ресурс может не попасть в топ выдачи. Поэтому их следует сразу же удалять после обнаружения. В качестве примеров можно привести такие варианты:

страницы с или без www. Такое происходит, если не было указано зеркало в панелях Гугл и Яндекс;
разные копии главной страницы в виде site.net/index/ или site.net/index.html;
страницы, которые формируются при неправильной иерархии разделов. К примеру site.net/products/category/gift/;
UTM-метки, которые применяют для передачи информации и анализа рекламы, а также источников переходов. Они не индексируются поисковиками, но случаются и исключения;
в некоторых случаях в адрес попадают GET параметры;
страницы, которые генерируются реферальной ссылкой. Они могут содержать специальный параметр, который добавляется к URL. С таких ссылок должен ставиться редирект на обычный URL. Но часто об этом забывают;
страницы с ошибками 404, провоцирующие дубли.

Чтобы устранить полные дубли, можно убрать ошибки из программы, закрыть файлы от индексации или поставить редирект.

Частичные

Дубли такого типа отличаются не таким сильным воздействием, как полные. Но если их будет много, они ухудшат ранжирование веб ресурса. Также они препятствуют продвижению по ключевым запросам.

Такие дубликаты возникают в следующих ситуациях.

Подстановка контента

Для увеличения видимости по определенным запросам в шапку добавляют выбор региона. При нажатии на вкладку может меняться номер телефона. Также у каждой страницы могут появиться одинаковые версии с различными ссылками. Нельзя допускать такой генерации и применяйте 301 редирект.

Характеристики в карточке товара

В некоторых случаях при переключении на вкладку в товарной карточке модно увидеть, как меняется URL – адрес. Чаще всего часть контента не меняется, в результате чего создается дубль.

Версия для печати

Такие версии нужно закрывать от индексации в robots.txt, так как они копируют контент.

Пагинация

При неправильной настройке CMS, переход на следующую страницу в категории поменяет URL, но не изменит Description или Title. В результате образуется несколько различных ссылок с идентичными мета-тегами.

Такие URL адреса поисковики индексируют, как отдельные документы. Чтобы избежать дублирования, необходимо проверить автогенерацию. На каждой странице нужно указать каноническую страницу, которая станет главной.

Смысловые

Смысловые дубликаты представляют собой статьи, которые пишутся под запросы из одного кластера. Чтобы их отыскать, можно применить результаты парсинга сайта, который проводится специальным сервисом. Заголовки статей нужно скопировать и добавить в любой Hard-кластеризатор с порогом группировки 3,4. Если в один кластер попадут несколько статей, оставьте самую лучшую, а для остальных нужно поставить 301 редирект.

Наши продукты

КУРС СТАРТ В SEO

ПРОФЕССИЯ SEO-СПЕЦИАЛИСТ С 0 ДО MIDDLE УРОВНЯ

КУРС SENIOR SEO-СПЕЦИАЛИСТ

Эффективные инструменты для поиска

Чтобы найти дублирующиеся документы, используйте специальные программы и онлайн-сервисы. Одни из них бесплатные, а другие платные. Есть условно-бесплатные с ограничением функций и пробными версиями.

Screaming Frog Seo Spider

Программой можно пользоваться бесплатно, но только какое – то время. Бесплатно можно проверить около 500 ссылок. Затем потребуется приобрести платную версию. Эта программа осуществляет поиск более эффективно и быстро, чем Xenu.

Яндекс. Вебмастер и Google Search Console

Для поиска дубликатов выполните такие действия:

выберите вкладку «индексирование»;
откройте раздел «страницы в поиске»;
посмотрите количество «исключенных страниц».

В вебмастере необходимую информацию можно скачать в удобном формате файла. Дубли можно увидеть в строке «статус», где они обозначаются, как DUPLICATE.

В Яндексе. Вебмастере дубликаты легко находить через раздел «заголовки и описания». В этом же блоке можно увидеть страницы с мета-описаниями и идентичными тайтлами.

Страницы убирают из индекса по различным причинам, включая повторяющийся контент. Причину можно увидеть в описании перед ссылкой.

Чтобы найти дубли в обновленном варианте Google Search Console, обратите внимание на такие вкладки, как «Покрытие» и «Предупреждение». Системы отображает проблемы и показывает страницы, которым требуется особое внимание.

Анализ отчетов можно провести в личных кабинетах. Но важно понимать, что сведения могут отображаться не в полном объеме и с задержкой. Это особенно актуально для гугла.

В Гугле дубликаты можно увидеть в отчетах по исключенным страницам:

копии страниц. Канонические элементы пользователи не выбрали;
страницы с тегом canonical;
url не выбран в качестве канонического;
канонические варианты, выбранные пользователем и системой не идентичные.

Xenu

Этот сервис бесплатный альтернативный вариант, в котором можно анализировать ресурсы, которые не были проиндексированы. В процессе сканирования программа находит мета – описания и повторяющиеся заголовки.

Сервис лайфхак

Выполнить полноценный технический анализ поможет программа Wizard.Sape. сервисе можно сделать аудит в автоматическом режиме за 2-4 часа. После внесения оплаты повторную проверку можно будет произвести в течение месяца. Инструмент поможет выявить дубли контента и мета-тегов, а также покажет следующие сведения:

страницы, на которых отсутствует контент;
битые картинки и ссылки;
весь перечень 301 редиректов;
обработки заранее адресов с ошибками.

Netpeak Spider

Этот сервис предлагает платные услуги, но предусмотреть и двухнедельный пробный период. При проведении поиска по заданному сайту, программа отображает все дубликаты и найденные ошибки.

SiteAnalyzer

Этой программой можно пользоваться абсолютно бесплатно. У сервиса есть определенные отличия от Screaming Frog Seo Spider. В этой программе нельзя сравнить повторы по тексту. Не получится выбраь область, чтобы сделать сканирование контента.

CatchUniqueChecker

К узкоспециализированным сервисам относится эта программа. С ее помощью выполняют проверку уникальности используемого контента, но при этом не учитываются мета-теги. Сервис позволяет сравнить текстовую информацию сразу на двух страницах.

Как еще можно осуществлять поиск дублей

Чтобы найти дубликаты в процессе оптимизации можно использовать и другие способы. Например, ручной метод. Если SEO специалист примерно предполагает, где можно найти дубли, он быстро найдет большую часть копий. В этом случае просто подбираются разные вариации урлов.

К простым способам стоит отнести использование команды «site». После этой надписи необходимо ввести название домена, а также часть текста. В результате Google найдет разные варианты с дублями.

Чек – лист проверки полных дублей

Для ресурса, который собираются подвигать, проводят проверку таких дублей:

дубликаты, отличающиеся различными протоколами. Это https с http;
дубли, имеющие отличия в www. Страницы могут иметь название без него;
URL со слешем в конце и без него;
в названии прописные и строчные буквы;
в конце URL могут быть разные добавления home.html или home.html;
большое количество слешей в конце;
множество слешей в середине названия;
наличие произвольных символов в конце названия создает дополнительные копии;
добавление символов с существующее вложение;
замена тире не нижнее подчеркивание или наоборот;
добавление произвольных цифр способствует созданию новых вложенностей. Такие дубликаты часто получаются при публикации страниц на WordPress ;
отсутствие внутренних вложенностей или замена их местами;
копирование первой вложенности и добавление ее в самом конце URL;
дубли, которые завершаются такими расширениями, как php или html.

И такое большое количество дублей может быть в любом проекте. Поэтому рекомендуется своевременно выявлять дубли, чтобы они не успели попасть в индексы поисковых систем. Даже при отсутствии ссылок на такие страницы, поисковики их найдут и проиндексируют. Проверка ручным способом занимает много времени.

Стоит учитывать, что для разных типов контента могут применяться разные CMS. Блог может размещаться на WordPress, а интернет магазин на Битрикс. И дубли этих CMS будут значительно различаться. Поэтому стоит попробовать использовать для проверки специализированные сервисы.

Способы удаления дубликатов

В процессе удаления дублей, важно не только убрать все копии, но и предотвратить появление новых.

Noindex и nofollow

К самым простым способам относится применение метатега noindex,nofollow, которые размещают в шапке. Страницу с таким оформлением поисковики не индексируют и не учитывают ссылки, которые на ней находятся. При использовании таких метатегов, важно проверить, чтобы для данной страницы не была закрыта индексация через robots.txt.

Тег noindex относится к не самым лучшим, но эффективным способам. Шаблон содержит на страницах большой объем текста, который совпадает на всех страницах. В результате страницы могут быть признаны дублями. В таких случаях применяют тег noindex. Это позволяет запретить индексировать совпадающие тексты – подвал сайта или меню навигации.

Canonical

К другим способам относится использование метатега canonical. Он сигнализирует поисковым системам, что они попали на дубль страницы. Также позволяют увидеть, где располагается основная страница. Метатег размещают в шапке между тегами head.

Этот атрибут может также выступать не как указание для роботов, а как подсказка. Даже при неправильной настройке канониклов сложно, что либо сломать. Но при его использовании не добиться такого же эффекта, как при применении 301 – редиректа.

Удаление дубликатов на страницах с пагинацией

При присутствии на сайте каталога со множеством страниц, часто возникают частичные дубли. На каждой странице могут дублироваться Title, Description и текст. В этом случае SEO специалист может выполнить такие действия:

использование уникальных мета тегов для каждой страницы, при желании их можно сделать шаблонными;
отображение текста на первой странице;
не должны использоваться динамические параметры в адресах страниц пагинации.

Своевременное устранение дублей, поможет избежать попадания в индекс копий, которые помешают продвижению в поисковых системах.

Clean-param

Эта директива сигнализирует роботам Яндекса, что не нужно перегружать дублирующую информацию много раз. В этом случае можно заметно уменьшить нагрузки на сервер. Кроме того, краулинговый бюджет будет тратиться медленнее.

При указании директивы в robots.txt, все адреса будут сведены системой к одному. В результате будут переданы все накопленные показатели со страниц с дублями.

Физическое устранение

Самый простой способ – это убрать повторяющиеся страницы ручным способом. Но прежде чем приступить к процедуре ликвидации стоит разобраться со следующими моментами:

причина появления дубля. Физическое устранение часто не помогает избавиться от источника возникновения проблемы;
удалять страницы нужно после того, как вы убедитесь в том, что на них не ссылаются другие ресурсы. Это также можно проверить с помощью специализированного инструмента.

Настройка 301 редиректа

Если дублей не так много и на них присутствуют ссылки, сделайте настройку редиректа на продвигаемую страницу или на главную. Настройку выполняют через редактирование файла .htaccess или при помощи плагинов. Через какое-то время старый документ не будет индексироваться. В результате ссылочный вес перейдет к новой странице.

Введение запретов на индексирование с помощью Robots.txt

Файл robots.txt представляет собой определенное руководство по проведению индексации поисковиками. С его помощью можно наложить запрет на индексацию дублей и служебных страниц. При оформлении файла используют директиву Disallow, запрещающую индексацию поисковым системам.

Важно правильно прописать директивы, чтобы не заблокировать нужные разделы или убрать ресурс из поисковых систем. Запрет на индексацию касается всех поисковых роботов. Но установленную директиву роботы Яндекса и Гугл соблюдают по разному. В первом случае запрещенные страницы через какое-то время будут удалены из индекса. А во втором они могут быть оставлены, если на документ ведут ссылки.

Формирование канонической страницы

Создание такой страницы – это способ показать поисковикам, какой документ основной. Способ применяют, чтобы показать, какая страница должна быть проиндексирована при сортировке или пагинации. Для этого на дубликатах указывается ссылка на страницу оригинал. Чтобы отметить канонические URL на сайтах, создаваемых на WordPress, нужно применить плагины All in One SEO Pack и Yoast SEO.

Представители Яндекса говорят, что поисковые системы могут сами удалять дубли. В какой-то мере это действительно так, но в реальности все происходит не так, как хотелось бы. Например, роботы выбирают в качестве основной страницы, совсем не ту, которую хотели бы владельцы сайта.

Любые дубликаты, как полные, так и частичные, сильно осложняют продвижение сайта. Поэтому так важно проводить регулярную проверку смысловые или сгенерированные дубли. Своевременное устранение ненужных страниц избавит ваш ресурс от проблем с продвижением.

Читайте статьи о SEO

Поведенческие факторы ранжирования сайтов: нужно ли их накручивать?

Почему ваш сайт не в топе или что не так с SEO

Как написать SEO текст: советы и примеры для оптимизации контента

Как провести аудит сайта самостоятельно