Hoe detecteer en herstel je duplicate content?

Als je in de wereld van SEO werkt, heb je je waarschijnlijk al in de situatie bevonden dat je een van de meest voorkomende problemen moest oplossen die de rankings in zoekmachines beïnvloedt en kan leiden tot penalty's: duplicate content. Zoekmachines zoals Google, Bing of Yahoo hebben als hoofddoel de meest relevante informatie weer te geven voor de zoekintentie van gebruikers. Hiervoor rangschikken ze in aflopende volgorde, waarbij ze originele, hoogwaardige content belonen en content die is gekopieerd, gedupliceerd, irrelevant is, of gemanipuleerd om hoger te ranken op de resultatenpagina's bestraffen.
In dit artikel leggen we uit wat duplicate content is, hoe we het kunnen detecteren en herstellen, de impact ervan op SEO, en de tools die we kunnen gebruiken om eraan te werken. Doe je mee? Laten we beginnen!
Wat is duplicate content?
Zoals we al hebben vermeld, bestraffen zoekmachines zoals Google pagina's die duplicate content bevatten, wat wordt geïnterpreteerd als twee pagina's met verschillende URL's maar dezelfde content. Vermijd daarom zoveel mogelijk content van een andere website te kopiëren en op je site te plakken (je bespaart jezelf veel hoofdpijn met Google en mogelijke juridische stappen van de eigenaars van de websites waar je het vandaan hebt gehaald!).
Tip van SEO Alive**:** Als bureau gespecialiseerd in zoekmachineoptimalisatie raden we je sterk aan om voor de content op je website te zorgen en deze slechte praktijk te vermijden. Wees geduldig en volhardend, schrijf originele content, en de resultaten zullen sneller komen dan je denkt. In dit opzicht is Google heel duidelijk over zijn standpunt, zoals we kunnen zien in zijn officiële documentatie over duplicate content, dus we moeten heel voorzichtig zijn met de content die we schrijven.
In SEO ranking kunnen we twee soorten duplicate content onderscheiden: interne en externe duplicate content.
Interne duplicate content
Dit type duplicate content komt over het algemeen voor door slechte implementatie van URL-parameters of slechte beheer van taxonomieën in categorieën en tags. De mogelijke oorzaken die interne duplicate content kunnen genereren zijn:
- Fouten bij het aanmaken van categorieën en tags: Deze fout komt veel voor in blogs waar een grote lijst met artikelen is en categorieën en tags zonder enige orde of logica worden aangemaakt. Laten we een voorbeeld bekijken:
Stel je voor dat we een digital marketing-blog hebben met verschillende categorieën:
https://myblogdigital.com/category-a/topic/
https://myblogdigital.com/category-b/topic/
https://myblogdigital.com/category-c/topic/ Om duplicate content te vermijden, is het noodzakelijk om aan te geven welke de hoofdcategorie is en de andere twee te canonicaliseren naar de hoofd-URL.
- "Non-www" vs "www" en "http" vs "https" domeinen: Dit is een andere fout waar we op moeten letten. Het is mogelijk dat als we niet aan zoekmachines hebben gespecificeerd wat het canonieke domein is, ze toegang kunnen krijgen tot de andere versies en duplicate content kunnen genereren. Daarom raden we vanuit SEO Alive aan om vast te stellen wat je canonieke domein zal zijn en 301-redirects op te zetten naar de versie die je als de voorkeursversie wilt hebben.
- Geparametriseerde URL's: Deze fout komt veel voor op ecommerce-websites waar URL's met parameters het filteren toestaan om informatie aan gebruikers te bieden. Stel dat we een horloge-verkoopsite hebben en de volgende URL:
https://www.mywatchstore.com/watches/garmin?color=black Deze pagina zou alle "Garmin"-modelhorloges in zwart tonen.
De mogelijkheid om filters op pagina's in te stellen kan een ernstig ongemak zijn als het niet goed wordt beheerd, aangezien zoekmachines verschillende URL-combinaties kunnen weergeven:
https://www.mywatchstore.com/watches/garmin?color=black&type=sport
https://www.mywatchstore.com/watches/garmin?type=sport&color=black Daarom raden we vanuit SEO Alive aan om de canonieke versie in te stellen op de ongefilterde pagina, zodat de rest van de geparametriseerde URL's hun pagina-autoriteit (URL Ratio) behouden.
Externe duplicate content
Externe duplicate content verwijst naar elke content die volledig of gedeeltelijk wordt geëxtraheerd of gekopieerd van een of meer websites die eigendom zijn van verschillende webmasters of beheerders.
Dit is een praktijk die in de ogen van zoekmachines als spam wordt beschouwd; daarom moet het, zoals we aan het begin van het artikel vermeldden, koste wat kost worden vermeden.
Een andere oorzaak van externe duplicate content kan te wijten zijn aan syndicatiestrategieën, waarbij websites verkeer naar andere sites sturen om zoekmachines te manipuleren. Het algoritme van Google is tegenwoordig slim genoeg om dit type praktijk te detecteren.
Hoe controleren we of onze website duplicate content heeft?
Weten hoe je duplicate content moet detecteren is van cruciaal belang in de contentstrategie van een website. Als we deze factor niet beheersen, lopen we het risico dat onze pagina's geleidelijk wegglippen uit de topresultaten op Google, aangezien Google de SERP's continu verfijnt op zoek naar originele, hoogwaardige content. Daarom presenteren we een voorbeeld van hoe we content op onze website zouden kunnen detecteren en geven we enkele strategieën om dit type content te vermijden.
Stel dat we een online winkel (ecommerce) hebben waar we een afdrukbare versie hebben van elk van de productpagina's. Dit wordt als duplicate beschouwd, omdat er twee "versies" van dezelfde content onder verschillende URL's bestaan:
Productdetailpagina: https://mywebsite.com/product3560
Afdrukbare versiepagina: https://mywebsite.com/product3560_print Om dit type duplicate content te vermijden kunnen we de volgende strategieën toepassen:
Strategie #1: Gebruik van 301-redirects
Als we onze website hebben geherstructureerd, kunnen we 301-redirects (permanente redirects) instellen via SEO-plugins die in de verschillende repositories van de contentmanagementsystemen (CMS) zijn opgenomen, of via het .htaccess-bestand, om gebruikers, zoekmachine-bots en andere tools met crawlerfunctionaliteit intelligent door te sturen.
Strategie #2: Gebruik van de canonical-tag
De rel="canonical"-tag wordt gebruikt om zoekmachines te vertellen welke de originele pagina is (canonieke versie) en welke pagina's een kopie zijn. Op deze manier zal de spider van de zoekmachine zijn indexatie-crawlbudget richten op de pagina die met deze meta-tag is gemarkeerd.
Om de canonical-tag te gebruiken, moeten we eerst kiezen welke pagina we door zoekmachines getoond willen hebben en de volgende regel toevoegen aan de HTML-code in de </head>-sectie (laten we een voorbeeld bekijken van canonical op een productpagina op de website van Zalando):
<link rel="canonical" ahref= "https://www.zalando.es/adidas-originals-stripe-circle-camiseta-estampada-white-ad121000k-a11.html"/> Bijvoorbeeld, als we op één URL de details van een product tonen en op een andere URL dezelfde details met verschillende kleuren, kunnen we Google vertellen welke de canonieke URL is die we aan gebruikers willen tonen.
Strategie #3: Gebruik van het robots.txt-bestand
Door dit bestand te bewerken kunnen we zoekmachine-bots vertellen bepaalde pagina's of secties van onze website niet te crawlen. Stel je voor dat we de volgende productpagina's op onze website hebben:
https://www.mywebsite.com/category/product-page.html/
https://www.mywebsite.com/category/product-page1.html/ (versie met duplicate content)
Met de volgende richtlijn in het robots.txt-bestand:
- Disallow /product-page.1html/
Kunnen we voorkomen dat duplicate content optreedt, naast natuurlijk het instellen van de eerste URL als canonieke versie.
Impact van duplicate content op SEO ranking
Na de release van de eerste versie van het Google Panda-algoritme in 2011, dat domeinen met thin content en duplicate content bestrafte, publiceerde Matt Cutts in 2013 een video over hoe Google omgaat met duplicate content en welke negatieve effecten het kan hebben op rankingposities vanuit een SEO-perspectief:
De conclusies die we kunnen trekken uit de video van Matt Cutts zijn dat, hoewel volgens Google 25-30% van het web duplicate content is, de zoekmachine het niet direct als spam behandelt tenzij de bedoeling is om frauduleus content in grote hoeveelheden te creëren of kopiëren of direct posities op de zoekresultatenpagina's te manipuleren met "black hat"-tactieken.
Kortom, het creëren van dit type content kan signalen van slechte kwaliteit naar zoekmachines zoals Google genereren, en een barrière vormen voor het consolideren van linkmetrics (zoals autoriteit, relevantie of vertrouwen) van de content, vanuit het oogpunt van externe links (backlinks) die naar verschillende versies van die content kunnen linken.
Tools om duplicate content te detecteren
Als het gaat om het detecteren van duplicate content, zijn er talloze tools op de markt die deze taak kunnen vergemakkelijken. Laten we ze bekijken!
Tools om duplicate content op onze website te detecteren
- Ahrefs: Met Ahrefs kunnen we, binnen de "site audit"-functionaliteit en zolang we een project voor SEO-auditing hebben toegevoegd, zien of onze website duplicate content heeft of niet. Hiervoor gaan we naar het tabblad "duplicate content". Eenmaal daar krijgen we een grafiek te zien waarin we de mogelijke fouten kunnen identificeren die we moeten corrigeren:

Weergave van de "Duplicate Content"-functionaliteit van Ahrefs
- Screaming Frog: Met deze bekende software-crawler is het ook mogelijk om duplicate content te detecteren. Hiervoor moeten we een domein invoeren om te scrapen en de "internal" data exporteren naar .csv-formaat. Eenmaal in het rekenblad kun je bekijken, sorteren en filteren welke pagina's dubbele titels, meta descriptions, headers, enz. hebben.
Tip van SEO Alive: Gebruik regels voor voorwaardelijke opmaak in je rekenblad om in te stellen welke URL's je zult corrigeren op basis van het niveau van duplicate content dat je hebt en het belang en de relevantie van elke pagina.
- Safecont: Deze tool is echt interessant omdat hij zich uitsluitend richt op contentanalyse en "machine learning" gebruikt om clusters en contentovereenkomsten te detecteren en te vinden. Hij is vrij uitgebreid en zijn gebruik kan ons veel voordelen brengen als we duplicate content op onze website willen detecteren.

Weergave van de "Similarity"-functionaliteit van Safecont
Tools om duplicate content van een andere website te detecteren
- Copyscape: Als we willen weten of een stuk content gedupliceerd is ten opzichte van een andere website, is Copyscape een zoekmachine die gespecialiseerd is in het detecteren van webpagina's die content plagiëren. In deze zoekmachine hoef je alleen de URL in te voeren waar de content die je wilt controleren wordt gehost, en de tool retourneert de pagina's die die content delen, gesorteerd van hoogste tot laagste graad.
- Plagium: Dit is een andere tool die erg lijkt op Copyscape, met het verschil dat we de tekst moeten invoeren om te controleren in plaats van de URL. Het is vermeldenswaard dat het een betaalde versie heeft, dus de "gratis" versie heeft een limiet van maximaal 5.000 karakters om te controleren.
Conclusies
Bij SEO Alive zijn we een 100% "White Hat SEO"-bureau, dus onze aanbeveling aan het einde van het artikel is om duplicate content te allen tijde te vermijden. Als je dit type content op je website detecteert, vertrouw dan op alle strategieën en tips die we hebben gegeven. Onthoud: Google houdt van originele, hoogwaardige content!
En jij, heb je een slechte ervaring gehad met duplicate content of heb je daardoor een penalty geleden? Hoe heb je het opgelost? Vertel het ons als je wilt, in de commentbox! We beantwoorden je graag. Tot de volgende keer!
Auteur: David Kaufmann

Ik heb de afgelopen 10+ jaar volledig in het teken van SEO gestaan — en eerlijk gezegd zou ik het voor geen goud anders willen.
Mijn carrière bereikte een nieuw niveau toen ik als senior SEO-specialist werkte voor Chess.com — een van de 100 meest bezochte websites van het hele internet. Werken op die schaal, verspreid over miljoenen pagina's, tientallen talen en in een van de meest competitieve SERPs die er bestaan, heeft me dingen geleerd die geen cursus of certificering ooit zou kunnen. Die ervaring veranderde mijn kijk op hoe geweldige SEO er echt uitziet — en werd de basis voor alles wat ik sindsdien heb gebouwd.
Vanuit die ervaring heb ik SEO Alive opgericht — een bureau voor merken die serieus werk willen maken van organische groei. Wij zijn er niet om dashboards en maandelijkse rapporten te verkopen. Wij zijn er om strategieën te bouwen die daadwerkelijk het verschil maken, door het beste van klassieke SEO te combineren met de spannende nieuwe wereld van Generative Engine Optimization (GEO) — zodat jouw merk niet alleen opduikt in de blauwe links van Google, maar ook binnen de AI-gegenereerde antwoorden die ChatGPT, Perplexity en Google AI Overviews elke dag opnieuw aan miljoenen mensen leveren.
En omdat ik geen tool kon vinden die beide werelden goed aanpakte, heb ik er zelf een gebouwd — SEOcrawl, een enterprise SEO intelligence platform dat rankings, technische audits, backlinks-monitoring, crawl-gezondheid en AI brand visibility tracking op één plek samenbrengt. Het is het platform waarvan ik altijd had gewild dat het bestond.
Ontdek meer content van deze auteur

