Как удалить дубли страниц на сайте

Когда пользователь вводит поисковые слова и начинает поиск, поисковая система в свою очередь, по определённому алгоритму начинает искать страницу, в соответствии заданным словам. В любом случае поисковой системой будет выдан конечный результат, но вот какую именно выберет система, при наличии дубликата страницы сайта, сразу узнать проблематично. Таким образом, разные поисковые системы, например как Яндекс и Google, могут выдавать различные результаты по поиску одних и тех же ключевых слов, что в свою очередь может привести к негативным результатам для владельца ресурса, у которого есть на сайте дубликаты страниц.

Основные негативные последствия для владельца сайта с дублями страниц следующие:

  1. Происходит уменьшение семантического соответствия заданного запроса к главной странице сайта, что в свою очередь ухудшает оптимизационные свойства всего ресурса.

  2. Позиции ключевых cлов для ресурса постоянно изменяются, всё это происходит благодаря тому, что поисковые системы выдают в результате, то одну страницу, то её дубликат.

  3. Ухудшается уровень ранжирования, а вместе с ним и все показатели, связанные с ним. Именно все выше перечисленные негативные последствия заставляют разработчиков и оптимизаторов веб сайтов предусмотреть их, когда происходит раскрутка ресурса и оптимизация, удалить дубликаты страниц.

Какими бывают дубликаты

Дубликаты страниц сайта бывают двух видов:

  • полный. Такой вид в точности повторяет одну из страниц ресурса и находиться под другим адресом, причём количество таких страниц не ограниченно и может быть любым.
  • частичный. В таком виде дубли содержат часть контента дублируемой страницы, но не являются её точной копией.

Для каждого вида дубля, процесс их поиска и удаления не много отличается.

Как появляются полные дубликаты страниц сайта

  1. При создании сайта не было выбрано главное зеркало сайта. В таком случае дубль страницы может быть открыт по интернет адресу без www, или с ним.
  2. Главная страница ресурса не была чётка заданна в параметрах хостинга или движка, на котором разрабатывался сайт.
  3. Разработчики ресурса не учли автоматический переход на адрес без параметра, при запросе пользователя данной страницы с параметром.
  4. При разработке сайта, разработчики не правильно прописали иерархические адреса страниц ресурса.
  5. Не правильно настроена страница с ошибкой 404, что в свою очередь приводит к появлению огромного количества дублей страниц.

Как появляются частичные дубли страниц сайта?

Частичные дубли страниц возникают также как и в случае с полными, в основном из-за различных возможностей каждого взятого движка, на котором строится ресурс. Такие дубли на много тяжелей обнаруживать, чем полные, а также тяжелей их удалять.

Приведём наиболее распространённые случаи:

  1. Страницы ресурса, которые содержат формы для различного рода поиска, сортировки, вывода информации по различным видам водимых параметров и тому подобное. Такое часто происходит, когда при разработке этих алгоритмов, были использованы другие возможности, отличные от скриптов.
  2. Страницы сайта, на которых пользователи могут оставить на ресурсе, свою информацию.
  3. Страницы ресурса, предоставляющие возможность пользователю увидеть определённые страницы в версии для печати, а также содержащие документы в формате *.pdf, доступные для скачивания.
  4. При разработке html страницы, использовалась технология AJAX.

Если полные дубли страниц сайта приводят к быстрому ухудшению ранжирования сайта по времени, то частичные дубли действуют более медленно, и создают очень много проблем оптимизаторам сайтов, в течении относительно долгого времени.

Как найти дубли страниц?

Если изучаемый ресурс содержит в себе, не большое количество страниц, то нахождение дублей можно провести в ручную.

Для ресурсов содержащих большое количество страниц, можно использовать следующие основные методы обнаружения.

C помощью специального программного обеспечения, функциональные возможности которых, позволяют выявлять дубли страниц ресурса. Основной принцип работы таких программ, состоит в том, чтобы про сканировать весь ресурс и найти на нём все ссылки. Таким образом программа находит все ссылки и потом уже легко можно будет найти дубликаты страниц.

Проверить сайт на дубли страниц онлайн можно в поисковой системе Google, в поисковой консоли(Google search console), нужно выбрать пункт меню "Оптимизация html", таким образом будут найдены страницы с повторяющимся контентом. Эти страницы и будут потенциальными дублями исследуемого ресурса.

Как предупреждать и удалять, уже имеющиеся дубли, и как происходит удаление неявных дублей ?

  1. Если дубли страниц находятся на статистических адресах, то у владельца ресурса, как правило имеется доступ к управлению сайтом и значит есть возможность, при обнаружении дубля на хосте, его удалить.
  2. В файле robots.txt запретить индексацию страниц ресурса.
  3. Правильная настройка и конфигурация перехода, при пере направлении 301. В зависимости от движка сайта, нужно использовать редирект страницы со слешем и без.
  4. Для страниц сайта, содержащих формы поиска, фильтрации и тому подобное, применить правильную установку необходимых тегов. Тоже самое относится к страницам, содержащие печатные версии, просматриваемых страниц.
  5. Удалить из индекса страницы, которые были про индексированы ранее поисковыми системами, но оказались дублями, достаточно просто. Так для поисковой системы Яндекс, необходимо зайти на данный адрес -
    https://webmaster.yandex.ru/tools/del-url/, и с помощью инструмента для веб мастеров, удалить дублируемую страницу. Другие поисковые системы содержат подобные средства, и принцип удаления дублей аналогичен.
loader
Комментарии
К этому посту больше нельзя оставлять новые комментарии
Логические задачи с собеседований