Jak detekovat a opravit duplicitní obsah?

Pokud pracujete v SEO, pravděpodobně jste se ocitli v situaci, kdy jste museli řešit jeden z nejčastějších problémů, který ovlivňuje pozice ve vyhledávačích a může vést k penalizacím: duplicitní obsah. Vyhledávače jako Google, Bing nebo Yahoo mají hlavní cíl zobrazit nejrelevantnější informace pro vyhledávací záměr uživatelů. K tomu řadí výsledky sestupně, odměňují originální a kvalitní obsah a penalizují obsah, který byl okopírován, duplikován, je irelevantní nebo zmanipulován k vyšším pozicím.
V tomto článku si vysvětlíme, co je duplicitní obsah, jak ho detekovat a opravit, jeho dopad na SEO a nástroje, které k práci s ním můžeme použít. Půjdete do toho s námi? Jdeme na to!
Co je duplicitní obsah?
Jak jsme již zmínili, vyhledávače jako Google penalizují stránky s duplicitním obsahem, který je interpretován jako dvě stránky s odlišnými URL, ale stejným obsahem. V rámci možností se tedy vyhněte kopírování obsahu z jiného webu a vkládání na váš (ušetříte si spoustu starostí s Googlem i potenciálních právních akcí od vlastníků webů, ze kterých byste obsah vzali!).
Tip SEOcrawl**:** Jako agentura specializovaná na optimalizaci pro vyhledávače důrazně doporučujeme starat se o obsah na webu a vyhnout se této špatné praxi. Buďte trpěliví a vytrvalí, pište originální obsah a výsledky přijdou dříve než později. V tomto ohledu má Google velmi jasný postoj, jak vidíme v jeho oficiální dokumentaci k duplicitnímu obsahu, takže s tím, co píšeme, musíme být velmi opatrní.
V SEO rozlišujeme dva typy duplicitního obsahu: interní a externí.
Interní duplicitní obsah
Tento typ duplicitního obsahu obvykle vzniká kvůli špatné implementaci URL parametrů nebo špatnému řízení taxonomií u kategorií a tagů. Možné příčiny vzniku interního duplicitního obsahu jsou:
- Chyby při tvorbě kategorií a tagů: Tato chyba je častá u blogů s velkým seznamem článků, kde se kategorie a tagy vytvářejí bez řádu a logiky. Příklad:
Představme si digitální marketingový blog s několika kategoriemi:
https://mujblogdigital.cz/kategorie-a/tema/
https://mujblogdigital.cz/kategorie-b/tema/
https://mujblogdigital.cz/kategorie-c/tema/ Aby se předešlo duplicitnímu obsahu, je nutné označit, která je hlavní, a další dvě canonicalizovat na hlavní URL.
- Domény „non-www“ vs „www“ a „http“ vs „https“: To je další chyba, kterou musíme hlídat. Pokud jsme vyhledávačům nespecifikovali, která je kanonická doména, mohou přistupovat k ostatním verzím a generovat duplicitní obsah. Proto v SEOcrawl doporučujeme stanovit, která bude vaše kanonická doména, a nastavit 301 přesměrování na verzi, kterou chcete preferovat.
- Parametrizované URL: Tato chyba je běžná u e-commerce webů, kde URL s parametry umožňují filtrovat informace pro uživatele. Předpokládejme, že máme web s prodejem hodinek a URL:
https://www.mujhodinarsky-eshop.cz/hodinky/garmin?color=cerna Tato stránka by zobrazila všechny hodinky modelu „Garmin“ v černé.
Možnost nastavovat filtry na stránkách může být vážnou nepříjemností, pokud se nespravuje správně, protože vyhledávače mohou zobrazovat různé kombinace URL:
https://www.mujhodinarsky-eshop.cz/hodinky/garmin?color=cerna&type=sport
https://www.mujhodinarsky-eshop.cz/hodinky/garmin?type=sport&color=cerna Proto v SEOcrawl doporučujeme nastavit kanonickou verzi na nefiltrovanou stránku, aby si zbylé parametrizované URL zachovaly autoritu stránky (URL Ratio).
Externí duplicitní obsah
Externí duplicitní obsah se týká jakéhokoli obsahu, který je extrahován, plně či částečně okopírován z jednoho nebo více webů vlastněných jinými webmastery či administrátory.
Jde o praxi, která je v očích vyhledávačů považovaná za spam, takže, jak jsme zmínili na začátku článku, je třeba se jí za každou cenu vyhnout.
Další příčinou externího duplicitního obsahu mohou být syndikační strategie, kdy weby posílají návštěvnost na jiné stránky s cílem manipulovat s vyhledávači. Algoritmus Googlu je dnes dostatečně chytrý na to, aby tyto praktiky odhalil.
Jak ověříme, zda náš web má duplicitní obsah?
Vědět, jak duplicitní obsah detekovat, je v obsahové strategii webu zásadně důležité. Pokud tento faktor nehlídáme, riskujeme, že naše stránky budou postupně klesat z předních pozic v Googlu, protože Google neustále ladí SERPy ve snaze najít originální a kvalitní obsah. Proto si představíme příklad, jak bychom obsah na webu mohli detekovat, a uvedeme strategie, jak se tomuto typu obsahu vyhnout.
Předpokládejme, že máme online obchod (ecommerce), kde máme verzi produktové stránky pro tisk. To je považováno za duplicitní, protože existují dvě „verze“ stejného obsahu pod různými URL:
Detail produktu: https://mujweb.cz/produkt3560
Verze pro tisk: https://mujweb.cz/produkt3560_print Abychom se tomuto duplicitnímu obsahu vyhnuli, můžeme aplikovat tyto strategie:
Strategie #1: Použití 301 přesměrování
Pokud jsme web restrukturalizovali, můžeme nastavit 301 přesměrování (trvalá přesměrování) přes SEO pluginy zahrnuté v různých repozitářích CMS, nebo přes soubor .htaccess, abychom inteligentně přesměrovali uživatele, boty vyhledávačů a další nástroje s funkcí crawleru.
Strategie #2: Použití canonical tagu
Tag rel="canonical" se používá k tomu, aby vyhledávačům řekl, která stránka je originální (kanonická verze) a které jsou kopiemi. Tímto způsobem pavouk vyhledávače zaměří svůj indexovací crawl budget na stránku označenou tímto meta tagem.
Pro použití canonical tagu musíme nejprve vybrat, která stránka má být tou, kterou vyhledávače zobrazí, a do HTML kódu v sekci </head> přidat následující řádek (podívejme se na příklad canonicalu na produktové stránce webu Zalando):
<link rel="canonical" ahref= "https://www.zalando.es/adidas-originals-stripe-circle-camiseta-estampada-white-ad121000k-a11.html"/> Pokud například na jedné URL ukazujeme detail produktu a na jiné URL ukazujeme stejný detail v jiných barvách, můžeme Googlu sdělit, která je kanonická URL, kterou chceme uživatelům ukazovat.
Strategie #3: Použití souboru robots.txt
Editací tohoto souboru můžeme botům vyhledávačů sdělit, aby nekrčili určité stránky či sekce webu. Představme si, že máme tyto produktové stránky:
https://www.mujweb.cz/kategorie/produktova-stranka.html/
https://www.mujweb.cz/kategorie/produktova-stranka1.html/ (verze s duplicitním obsahem)
Direktivou v robots.txt:
- Disallow /produktova-stranka.1html/
Lze předejít duplicitnímu obsahu, samozřejmě navíc nastavením první URL jako kanonické verze.
Dopad duplicitního obsahu na SEO pozice
Po vydání první verze algoritmu Google Panda v roce 2011, který penalizoval domény s thin contentem a duplicitním obsahem, publikoval Matt Cutts v roce 2013 video o tom, jak Google s duplicitním obsahem zachází a jaké negativní efekty může mít na ranking z pohledu SEO:
Závěry, které z videa Matta Cuttse můžeme vyvodit, jsou, že ačkoli podle Googlu je 25–30 % webu duplicitní obsah, vyhledávač s ním přímo nezachází jako se spamem, pokud záměrem není podvodně vytvářet nebo kopírovat obsah ve velkém množství či přímo manipulovat s pozicemi ve výsledcích pomocí „black hat“ taktik.
Stručně řečeno, vytváření tohoto typu obsahu může generovat signály nízké kvality pro vyhledávače jako Google a stejně tak představovat překážku pro konsolidaci linkových metrik (jako autorita, relevance nebo trust) obsahu z pohledu externích odkazů (backlinků), které mohou vést na různé verze daného obsahu.
Nástroje pro detekci duplicitního obsahu
Když dojde na detekci duplicitního obsahu, na trhu je nespočet nástrojů, které tuto úlohu zjednoduší. Pojďme se na ně podívat!
Nástroje pro detekci duplicitního obsahu na našem webu
- Ahrefs: S Ahrefs můžeme v rámci funkce „site audit“ — pokud jsme přidali projekt pro SEO audit — vidět, zda náš web má duplicitní obsah, či nikoli. K tomu jdeme na záložku „duplicate content“. Tam se nám zobrazí graf, kde identifikujeme možné chyby, které je potřeba opravit:

Pohled na funkci „Duplicate Content“ v Ahrefs
- Screaming Frog: S tímto známým softwarovým crawlerem je rovněž možné detekovat duplicitní obsah. Stačí zadat doménu k procrawlování a exportovat data „internal“ do .csv. V tabulce pak můžete prohlížet, řadit a filtrovat, které stránky mají duplicitní titulky, meta description, nadpisy atd.
Tip SEOcrawl: Použijte v tabulce pravidla podmíněného formátování pro označení URL, které opravíte podle úrovně duplicitního obsahu a důležitosti či relevance každé stránky.
- Safecont: Tento nástroj je opravdu zajímavý, protože se zaměřuje výhradně na analýzu obsahu a používá „machine learning“ k detekci a hledání clusterů a podobností obsahu. Je poměrně komplexní a jeho použití nám může přinést spoustu výhod, pokud chceme detekovat duplicitní obsah na našem webu.

Pohled na funkci „Similarity“ v Safecont
Nástroje pro detekci duplicitního obsahu z jiného webu
- Copyscape: Pokud chceme zjistit, zda je část obsahu duplicitní s jiným webem, Copyscape je vyhledávač specializovaný na detekci stránek, které plagují obsah. V tomto vyhledávači stačí zadat URL, kde je obsah, který chcete ověřit, a nástroj vrátí stránky, které tento obsah sdílejí, seřazené sestupně podle míry shody.
- Plagium: Další nástroj velmi podobný Copyscape, s tím rozdílem, že místo URL se zadává text k ověření. Stojí za zmínku, že má placenou verzi, takže „free“ verze má limit 5 000 znaků k ověření.
Závěry
V SEOcrawl jsme 100% „White Hat SEO“ agentura, takže naším doporučením na závěr článku je vyhýbat se duplicitnímu obsahu vždy. Pokud takový obsah na svém webu detekujete, opřete se o všechny strategie a tipy, které jsme uvedli. Pamatujte: Google má rád originální a kvalitní obsah!
A vy, měli jste s duplicitním obsahem špatnou zkušenost nebo jste kvůli němu utrpěli penalizaci? Jak jste to vyřešili? Napište nám do komentářů, pokud chcete! Rádi odpovíme. Tak zase někdy příště!
Autor: David Kaufmann

Posledních 10+ let jsem byl naprosto posedlý SEO — a upřímně, jinak bych to mít ani nechtěl.
Moje kariéra dostala nový rozměr, když jsem pracoval jako senior SEO specialista pro Chess.com — jeden ze 100 nejnavštěvovanějších webů celého internetu. Pracovat v takovém měřítku, na milionech stránek, v desítkách jazyků a v jedné z nejkonkurenčnějších SERP, mě naučilo věci, které žádný kurz ani certifikát nemůže předat. Tato zkušenost změnila mou perspektivu na to, jak vypadá opravdu skvělé SEO — a stala se základem všeho, co jsem od té doby vybudoval.
Z této zkušenosti jsem založil SEO Alive — agenturu pro značky, které to s organickým růstem myslí vážně. Nejsme tady, abychom prodávali dashboardy a měsíční reporty. Jsme tady, abychom stavěli strategie, které opravdu pohnou výsledky, kombinací toho nejlepšího z klasického SEO se vzrušujícím novým světem Generative Engine Optimization (GEO) — abychom zajistili, že se vaše značka objeví nejen v modrých odkazech Googlu, ale i uvnitř odpovědí generovaných AI, které ChatGPT, Perplexity a Google AI Overviews každý den dodávají milionům lidí.
A protože jsem nenašel nástroj, který by oba tyto světy zvládal pořádně, postavil jsem si vlastní — SEOcrawl, enterprise SEO intelligence platformu, která spojuje rankings, technické audity, monitoring backlinků, zdraví crawlu a sledování viditelnosti značky v AI na jednom místě. Je to platforma, kterou jsem si vždy přál, aby existovala.
Objevte další obsah od tohoto autora


Nástroje AI odpovídají na otázky vašich zákazníků, aniž by na vás kdy odkázaly. Answer Engine Optimization (AEO) je způsob, jak značky citují ChatGPT, Perplexity a Google AI Overviews — zde se dozvíte, co to je, jak to funguje a jak měřit výsledky.