viktoria

Дублирование страниц: к чему может привести и как его избежать?

В этой теме 2 сообщения

 

Одна из самых распространенных проблем при работе с сайтом с точки зрения SEO – возрастающее число страниц-дублей, которое может привести к серьезным трудностям в его продвижении, а именно:

• Страдает качество индексирования веб-ресурса. Предположим, что на каждую интернет-страницу создается хотя бы по одному дублю, то есть размер интернет-ресурса возрастает вдвое. Если же их создается не одна, то объем ресурса возрастает в три, в четыре, а то и в пять раз! Таким образом, теряется краулинговый бюджет, то есть лимит на число индексируемых документов, которые робот поисковых систем может обойти за конкретный промежуток времени. Это означает, что важные веб-страницы будут индексированы менее часто.

• Изменяются релевантные интернет-страницы. Поисковый бот вероятно примет за релевантную (покажет пользователю) не продвигаемую интернет-страничку, а её дубль. Что приведет к существенному снижению позиций.

• Уменьшается эффективность распределения внутренней ссылочной массы. Здесь оригиналы могут оказаться менее значимыми, нежели страницы-дубликаты. Так, если посетитель попадает на страницу-дубль, то, показатели измеряются для страницы-дубля, а не оригинальной ее версии.

• Теряется внешняя ссылочная масса. Предположим, что пользователю понравился продукт на определенном веб-ресурсе, и он решил поделиться информацией о нем. Если он в данный момент был на странице-дубле, то сошлется именно на нее, из-за чего, для самого веб-сайта потеряется естественная ссылка.

Но все эти проблемы можно избежать, для этого всего лишь необходимо искать страницы-дубли и избавляться от них.

 

Какие типы страниц-дублей бывают?

 

1) полные – когда интернет-страницы имеют одинаковый контент, доступный по разным URL-адресам;

2) неполные – когда дублируется только часть контента.

Полное совпадение содержания интернет-страниц является наиболее опасным с точки зрения поисковой оптимизации, поскольку может привести к значительным потерям позиций и трафика. Причин его появления довольно много, перечислим самые основные:

• Интернет-ресурс доступен при обращении к хостам с www и без. В этот же пункт можно отнести доступность веб-ресурса при обращении через протоколы HTTP и HTTPS.

• Некорректная обработка запросов к веб-страницам с URL, к которым добавлены популярные файловые расширения, например:

_BI4nioGAEnPtlGNku-cJWJvKDXUBc92r_ZudjNERxcMfnnFn4olnhmJvo61gu6qpTH4IeJ7wqNcmcWx7Het-lYMpHVslskuRsHoGbRs_IVbw-gVVGaYm2_U_Pygh7WxQKbB2K1U-cAem7ZT_g

Сюда же можно и отнести случай, когда ресурс доступен при обращении к неосновному виду URL, например:

qE9OTiH3Ef-JkaoasHqeUMLBzqgkbmTg3ULbC27BKejPQYS7ZdmoxcMA5spWm9YctCR6aAqDwaLwNbdGxA6TbQnEeKyqJWT4ynJ2w7ynqEOUnqqieYdGrTvp80CzmQTE0Y_HEnM0o98nMGLyaQ

• Доступность одного продукта по разным URL-адресам (проблема, связанная с иерархией URL-адреса), например:

IiM_V8xhmtBnifu8KYao9PkBK8HjYFHh6S7MJid28PDs84TadRlP0fOl9AK6a2-QySxrftnQI3CZPgWfhB8IeIDtB0plcx24J34YVi1vqHyEMRlYS17uyK40SSIElcJ-w57mwb-dUJA2rt1VcA

• Дублирование посадочных интернет-страниц, т.е. они доступны по ссылкам вида /?page=0 и /?page=1, полностью повторяющие содержание категорий, например:

JjT4xhenpQdcTm1P-2lnXnCzb2LXtU__bbBf3WPtQqW_lNcFv8kcvWbGTL5UVF2BvefxmBJSh_wp7tXiKzIPKK0Ochi04BG0UcgOnhw31JoL2WMf_cgT5XKfdLUDXNzAIB7UBE2OmaacV1_6oQ

 

Зачастую, причина возникновения полного совпадения контента – особенности CMS сайта. Однако, его не так трудно найти и удалить по сравнению с частичным совпадением, которое приводит к потерям позиций незаметно как для владельцев веб-ресурса, так и для специалистов.

К частичным страницам-дублям относится:

• Повторение содержания страниц-листингов, когда категория с одной и той же продукцией расположена по разным URL-адресам. Например, на веб-сайте присутствуют категории «Деревянные диваны» и «Диваны из дерева», которые дублируют товары полностью или же частично.

•Дублирование за счет сортировок и фильтров. Зачастую, выбирая различные фильтры и сортировки, меняется ассортимент товара, меняется URL, но при этом SEO-элементы остаются неизменными.

Неполное дублирование, как правило, появляется за счет создания новых интернет-страничек после итерационного расширения семантического ядра. Например, в семантическом ядре есть страничка «пластиковые стулья». Из-за ошибки семантолога в запросы для нее не попали «стулья из пластика». При расширении ядра эти запросы появились и их порекомендовали к созданию, в итоге, на сайте появились неявные страницы-дубликаты.

 

Как обнаружить дубли на сайте?

 

• Искать страницы-дубликаты вручную.

Этот способ подходит, когда возникает повторение содержимого на пагинационных веб-страниц, а также когда ресурс доступен при обращении к хостам с www и без, и через протоколы HTTP и HTTPS

• При помощи программ-парсеров. После выгрузки результатов, с помощью сервиса JustMagic следует раскластеризовать полученные результаты. Странички, попавшие в один кластер – могут быть дубликатами, далее вручную по совпадению H1 и URL нужно проверить, действительно ли они являются дубликатами.

Этот метод подойдет в случае дублирования листингов, а также помогает выявить проблему, связанную с иерархией.

• Идентифицировать повторение контента можно с помощью инструмента Яндекс.Вебмастер. Сервис при исключении веб-страницы из индекса указывает причину ее исключения – дубль.

Этот метод также можно использовать для поиска дубликатов на страницах-листингах и при доступности одного и того же продукта по разным адресам.

После обнаружения страниц-дублей следует:

• Удалить дубликаты вручную. Данный способ скорее применяется, если веб-сайт небольшой;

• Установить постоянный редирект (301 Redirect) на «нужные» странички, таким образом «склеить» страницы-дубликаты и страницы-оригиналы. В случае с листингами страницами часто возникает вопрос, какую же веб-страницу следует считать «нужной»? Здесь все очень просто, решение принимается в пользу веб-страниц с наибольшим количеством подходящих товаров и с SEO текстом.

• Настроить robots.txt. Этот метод помогает скрыть страницы-дубликаты от индексации с помощью использования команды Disallow.

• Применить мета-тег «noindex». Здесь также, как и в предыдущем случае, страницы-дубли скрываются от индексирования.

• Указать для интернет-страницы канонический (предпочитаемый) адрес, который будет участвовать в поиске. Для этого используется атрибут rel=”canonical.

0

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты
On 13.06.2017 at 14:22, viktoria said:

Зачастую, причина возникновения полного совпадения контента – особенности CMS сайта. Однако, его не так трудно найти и удалить по сравнению с частичным совпадением, которое приводит к потерям позиций незаметно как для владельцев веб-ресурса, так и для специалистов.

Есть 2 похожие страницы - по каким критериям определить, что они являются частичными дублями? В каких случаях похожие страницы не являются дублями, и с ними не нужно бороться?

On 13.06.2017 at 14:22, viktoria said:

• При помощи программ-парсеров. После выгрузки результатов, с помощью сервиса JustMagic следует раскластеризовать полученные результаты. Странички, попавшие в один кластер – могут быть дубликатами, далее вручную по совпадению H1 и URL нужно проверить, действительно ли они являются дубликатами.

Как через JustMagic можно кластеризовать страницы? Сервис же с запросами работает.

0

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Создайте учетную запись или войдите, чтобы комментировать

Вы должны быть пользователем, чтобы оставить комментарий

Создать учетную запись

Зарегистрируйте новую учётную запись в нашем сообществе. Это очень просто!


Регистрация нового пользователя

Войти

Уже есть аккаунт? Войти в систему.


Войти