Як виявити та виправити дубльований контент?

Якщо ви працюєте у світі SEO, ви напевно опинялися в ситуації, коли доводилося мати справу з однією з найпоширеніших проблем, що впливає на ранжування в пошукових системах і може призвести до санкцій: дубльований контент. Пошукові системи, як-от Google, Bing чи Yahoo, мають за головну мету показувати найбільш релевантну інформацію для пошукового наміру користувачів. Для цього вони ранжують у спадному порядку, винагороджуючи оригінальний, високоякісний контент і санкціонуючи контент, який скопійовано, дубльовано, нерелевантний або був маніпульований для вищих позицій на сторінках результатів.
У цій статті ми пояснимо, що таке дубльований контент, як його виявляти та виправляти, його вплив на SEO та інструменти, якими можна користуватися для роботи з ним. Приєднаєтеся? Поїхали!
Що таке дубльований контент?
Як ми вже згадували, пошукові системи, як-от Google, штрафують сторінки з дубльованим контентом, який інтерпретується як дві сторінки з різними URL, але однаковим контентом. Тому, наскільки можливо, уникайте копіювання контенту з іншого сайту й вставлення його на свій сайт (зекономите собі чимало нервів з Google і потенційних юридичних дій від власників сайтів, з яких ви це взяли!).
Порада SEO Alive: Як агенція, спеціалізована на оптимізації для пошукових систем, ми наполегливо рекомендуємо дбати про контент на вашому сайті й уникати цієї поганої практики. Будьте терплячі та наполегливі, пишіть оригінальний контент — і результати з'являться раніше, ніж ви думаєте. У цьому контексті Google дуже чітко висловлює свою позицію, як ми можемо бачити в офіційній документації щодо дубльованого контенту, тож треба дуже уважно ставитися до контенту, який ми пишемо.
У SEO-ранжуванні можна виокремити два типи дубльованого контенту: внутрішній та зовнішній.
Внутрішній дубльований контент
Цей тип дубльованого контенту зазвичай виникає через погану реалізацію URL-параметрів або погане керування таксономіями в категоріях і тегах. Можливі причини, що можуть генерувати внутрішній дубльований контент:
- Помилки у створенні категорій і тегів: Ця помилка поширена в блогах, де є великий список статей, а категорії й теги створюють без жодного порядку чи логіки. Розгляньмо приклад:
Уявіть, що у нас блог про цифровий маркетинг із кількома категоріями:
https://myblogdigital.com/category-a/topic/
https://myblogdigital.com/category-b/topic/
https://myblogdigital.com/category-c/topic/ Щоб уникнути дубльованого контенту, потрібно позначити, яка з них головна, і канонізувати дві інші на головний URL.
- Домени «без www» vs «з www» і «http» vs «https»: Це ще одна помилка, на яку треба зважати. Якщо ми не вказали пошуковим системам, який домен канонічний, вони можуть отримати доступ до інших версій і згенерувати дубльований контент. Тому в SEO Alive ми рекомендуємо встановити, який домен буде канонічним, і налаштувати 301 перенаправлення на ту версію, яку хочете зробити основною.
- Параметризовані URL: Ця помилка поширена на сайтах ecommerce, де URL з параметрами дозволяють фільтрування для пропозиції інформації користувачам. Припустімо, у нас є сайт з продажу годинників і такий URL:
https://www.mywatchstore.com/watches/garmin?color=black Ця сторінка показуватиме всі моделі «Garmin» чорного кольору.
Можливість встановлювати фільтри на сторінках може стати серйозною незручністю, якщо нею погано керувати, оскільки пошукові системи можуть показати кілька комбінацій URL:
https://www.mywatchstore.com/watches/garmin?color=black&type=sport
https://www.mywatchstore.com/watches/garmin?type=sport&color=black Тому в SEO Alive ми рекомендуємо встановити канонічну версію на нефільтровану сторінку, щоб решта параметризованих URL зберігали свій авторитет сторінки (URL Ratio).
Зовнішній дубльований контент
Зовнішній дубльований контент стосується будь-якого контенту, який повністю чи частково скопійовано з одного або кількох сайтів, що належать іншим вебмайстрам або адміністраторам.
Це практика, яку пошукові системи розглядають як спам; тому, як ми згадували на початку статті, цього слід уникати за будь-яку ціну.
Ще одна причина зовнішнього дубльованого контенту може бути пов'язана зі стратегіями синдикації, коли сайти спрямовують трафік на інші сайти, щоб маніпулювати пошуковими системами. Алгоритм Google сьогодні достатньо розумний, щоб виявляти такі практики.
Як перевірити, чи є на нашому сайті дубльований контент?
Уміння виявляти дубльований контент має критичне значення в контентній стратегії сайту. Якщо ми не контролюємо цей фактор, є ризик, що наші сторінки поступово сповзатимуть з топу результатів Google, оскільки Google постійно вдосконалює SERP у пошуках оригінального, високоякісного контенту. Тому ми наведемо приклад, як можна виявити контент на нашому сайті, та подамо кілька стратегій уникнення такого контенту.
Припустімо, у нас є онлайн-магазин (ecommerce), де є друкована версія кожної зі сторінок продуктів. Це вважається дублюванням, оскільки існують дві «версії» одного й того ж контенту під різними URL:
Сторінка деталей продукту: https://mywebsite.com/product3560
Сторінка для друку: https://mywebsite.com/product3560_print Щоб уникнути цього типу дубльованого контенту, можемо застосувати такі стратегії:
Стратегія №1: Використання 301 перенаправлень
Якщо ми реструктурували наш сайт, можемо налаштувати 301 перенаправлення (постійні перенаправлення) через SEO-плагіни, що входять до різних репозиторіїв систем керування контентом (CMS), або через файл .htaccess, щоб розумно перенаправляти користувачів, ботів пошукових систем та інші інструменти з функцією краулера.
Стратегія №2: Використання тегу canonical
Тег rel="canonical" використовують, щоб повідомити пошуковим системам, яка сторінка є оригінальною (канонічна версія), а які — копією. Завдяки цьому павук пошукової системи зосередить свій crawl budget індексації на сторінці, позначеній цим метатегом.
Щоб використати тег canonical, спершу маємо вибрати, яку сторінку хочемо показувати в пошукових системах, і додати такий рядок до HTML-коду в розділі </head> (розгляньмо приклад canonical на сторінці продукту сайту Zalando):
<link rel="canonical" ahref= "https://www.zalando.es/adidas-originals-stripe-circle-camiseta-estampada-white-ad121000k-a11.html"/> Наприклад, якщо на одному URL ми показуємо деталі продукту, а на іншому URL — ті ж деталі з іншими кольорами, можемо повідомити Google, який URL є канонічним і який ми хочемо показувати користувачам.
Стратегія №3: Використання файлу robots.txt
Редагуючи цей файл, можемо повідомити ботам пошукових систем не краулити певні сторінки чи розділи нашого сайту. Уявіть, що в нас на сайті такі сторінки продуктів:
https://www.mywebsite.com/category/product-page.html/
https://www.mywebsite.com/category/product-page1.html/ (версія з дубльованим контентом)
З такою директивою у файлі robots.txt:
- Disallow /product-page.1html/
Можемо запобігти виникненню дубльованого контенту, окрім, звісно, встановлення першого URL як канонічної версії.
Вплив дубльованого контенту на SEO-ранжування
Після випуску першої версії алгоритму Google Panda ще у 2011 році, який санкціонував домени з thin content та дубльованим контентом, Matt Cutts опублікував у 2013 році відео про те, як Google поводиться з дубльованим контентом і які негативні наслідки той може мати для позицій у ранжуванні з погляду SEO:
Висновки, які можна зробити з відео Matt Cutts: хоча, за словами Google, 25-30% вебу — це дубльований контент, пошукова система не розглядає його напряму як спам, якщо тільки намір не полягає в шахрайському створенні чи копіюванні контенту у великих кількостях або прямій маніпуляції позиціями у сторінках результатів пошуку «black hat»-тактиками.
Коротко кажучи, створення такого типу контенту може генерувати сигнали поганої якості для пошукових систем, як-от Google, а також стати бар'єром для консолідації лінкових метрик (як-от авторитет, релевантність чи довіра) контенту з погляду зовнішніх посилань (backlinks), що можуть посилатися на різні версії цього контенту.
Інструменти для виявлення дубльованого контенту
Коли йдеться про виявлення дубльованого контенту, на ринку існує безліч інструментів, що можуть полегшити це завдання. Розгляньмо їх!
Інструменти для виявлення дубльованого контенту на нашому сайті
- Ahrefs: За допомогою Ahrefs можемо побачити в межах функціоналу «site audit» (за умови, що ми додали проєкт для SEO-аудиту), чи є на нашому сайті дубльований контент. Для цього перейдемо у вкладку «duplicate content». Опинившись там, побачимо графік, де можна ідентифікувати можливі помилки, які треба виправити:

Перегляд функціоналу «Duplicate Content» в Ahrefs
- Screaming Frog: За допомогою цього відомого програмного краулера також можна виявляти дубльований контент. Для цього треба ввести домен для сканування й експортувати дані «internal» у формат .csv. Опинившись у таблиці, можна переглядати, сортувати й фільтрувати, які сторінки мають дубльовані тайтли, мета-описи, заголовки тощо.
Порада SEO Alive: Використовуйте правила умовного форматування у вашій таблиці, щоб встановити, які URL ви виправлятимете, на основі рівня дубльованого контенту й важливості та релевантності кожної сторінки.
- Safecont: Цей інструмент справді цікавий, оскільки зосереджений виключно на аналізі контенту й використовує «machine learning» для виявлення та пошуку кластерів і подібностей контенту. Він доволі комплексний, і його використання може принести нам багато переваг, якщо хочемо виявити дубльований контент на нашому сайті.

Перегляд функціоналу «Similarity» в Safecont
Інструменти для виявлення дубльованого контенту з іншого сайту
- Copyscape: Якщо хочемо дізнатися, чи є фрагмент контенту дубльованим стосовно іншого сайту, Copyscape — це пошуковик, спеціалізований на виявленні вебсторінок, що плагіатять контент. У цьому пошуковику достатньо ввести URL, де розміщений контент, який ви хочете перевірити, — і інструмент повертає сторінки, що містять той самий контент, відсортовані за ступенем збігу.
- Plagium: Це ще один інструмент, дуже схожий на Copyscape, з відмінністю, що треба ввести текст для перевірки замість URL. Слід зазначити, що він має платну версію, тож «безкоштовна» версія має ліміт до 5 000 символів для перевірки.
Висновки
У SEO Alive ми 100% «White Hat SEO» агенція, тож наша рекомендація на завершення статті — завжди уникати дубльованого контенту. Якщо ви виявили такий тип контенту на вашому сайті, спирайтеся на всі стратегії та поради, які ми надали. Пам'ятайте: Google любить оригінальний, високоякісний контент!
А ви — мали поганий досвід з дубльованим контентом або зазнавали через нього санкцій? Як ви це вирішили? Розкажіть, якщо хочете, у коментарях! Ми із задоволенням відповімо. До зустрічі!
Автор: David Kaufmann

Останні 10+ років я повністю занурений у SEO — і чесно кажучи, не хотів би інакше.
Моя кар'єра вийшла на новий рівень, коли я працював старшим SEO-спеціалістом у Chess.com — одному зі 100 найвідвідуваніших сайтів у всьому інтернеті. Робота в такому масштабі навчила мене того, чого не дав би жоден курс чи сертифікат.
З цього досвіду я заснував SEO Alive — агенцію для брендів, які серйозно ставляться до органічного зростання. І оскільки не знайшов інструмента, що добре справляється з обома світами — класичним і AI, побудував SEOcrawl. Якщо ви шукаєте досвідченого SEO-партнера, який любить цю справу — буду радий поговорити!
Дізнайтесь більше контенту цього автора

