Duplicate Content erkennen und beheben

David Kaufmann

24. September 2020

SEO Tutorials

9 min read

Wenn du in der SEO-Welt arbeitest, hast du dich wahrscheinlich schon einmal in der Situation befunden, dich mit einem der haeufigsten Probleme auseinandersetzen zu muessen, das sich auf das Suchmaschinenranking auswirkt und zu Abstrafungen fuehren kann: Duplicate Content. Suchmaschinen wie Google, Bing oder Yahoo haben das Hauptziel, die fuer die Suchabsicht der Nutzer relevantesten Informationen anzuzeigen. Dazu sortieren sie absteigend, belohnen originelle, hochwertige Inhalte und bestrafen Inhalte, die kopiert, dupliziert, irrelevant sind oder manipuliert wurden, um auf den Ergebnisseiten besser zu ranken.

In diesem Artikel erklaeren wir dir, was Duplicate Content ist, wie wir ihn erkennen und beheben koennen, welche Auswirkungen er auf das SEO hat und welche Tools wir einsetzen koennen. Bist du dabei? Los geht's!

Was ist Duplicate Content?

Wie wir bereits erwaehnt haben, bestrafen Suchmaschinen wie Google Seiten mit doppeltem Inhalt, was als zwei Seiten mit unterschiedlichen URLs, aber demselben Inhalt interpretiert wird. Vermeide also so weit wie moeglich, Inhalte von einer anderen Webseite zu kopieren und auf deiner Seite einzufuegen (du sparst dir viel Aerger mit Google und potenzielle rechtliche Schritte der Eigentuemer der Webseiten, von denen du es uebernommen hast!).

SEO Alive Tipp: Als auf Suchmaschinenoptimierung spezialisierte Agentur empfehlen wir dir dringend, dich um die Inhalte deiner Webseite zu kuemmern und diese schlechte Praxis zu vermeiden. Sei geduldig und beharrlich, schreibe originelle Inhalte, und die Ergebnisse werden frueher oder spaeter kommen. In diesem Punkt ist Google sehr klar in seiner Position, wie wir in seiner offiziellen Dokumentation zu Duplicate Content sehen koennen, daher muessen wir mit den Inhalten, die wir schreiben, sehr vorsichtig sein.

Im SEO Ranking koennen wir zwei Arten von Duplicate Content unterscheiden: internen und externen.

Interner Duplicate Content

Diese Art von doppeltem Inhalt entsteht in der Regel durch eine schlechte Implementierung von URL-Parametern oder durch ein schlechtes Management von Taxonomien in Kategorien und Tags. Die moeglichen Ursachen, die internen Duplicate Content erzeugen koennen, sind:

Fehler bei der Erstellung von Kategorien und Tags: Dieser Fehler ist haeufig in Blogs, in denen es eine grosse Liste von Artikeln gibt und Kategorien und Tags ohne Ordnung oder Logik erstellt werden. Schauen wir uns ein Beispiel an:

Stell dir vor, wir haben einen Online-Marketing-Blog mit mehreren Kategorien:

https://myblogdigital.com/category-a/topic/

https://myblogdigital.com/category-b/topic/

https://myblogdigital.com/category-c/topic/ Um Duplicate Content zu vermeiden, muss markiert werden, welche die Hauptkategorie ist, und die anderen beiden muessen auf die Haupt-URL kanonisiert werden.

"Non-www" vs. "www" und "http" vs. "https" Domains: Das ist ein weiterer Fehler, dem wir Aufmerksamkeit schenken muessen. Wenn wir den Suchmaschinen nicht angegeben haben, welche die kanonische Domain ist, koennen sie auf die anderen Versionen zugreifen und Duplicate Content erzeugen. Daher empfehlen wir bei SEO Alive, festzulegen, welche deine kanonische Domain sein wird, und 301-Weiterleitungen zur bevorzugten Version einzurichten.
Parametrisierte URLs: Dieser Fehler ist haeufig auf E-Commerce-Webseiten, auf denen URLs mit Parametern eine Filterung ermoeglichen, um Nutzern Informationen anzubieten. Angenommen, wir haben eine Uhrenverkaufsseite und folgende URL:

https://www.mywatchstore.com/watches/garmin?color=black Diese Seite wuerde alle Uhren der Marke "Garmin" in Schwarz zeigen.

Die Moeglichkeit, Filter auf Seiten zu setzen, kann ein ernstes Problem sein, wenn sie nicht richtig verwaltet wird, da Suchmaschinen mehrere URL-Kombinationen anzeigen koennen:

https://www.mywatchstore.com/watches/garmin?color=black&type=sport

https://www.mywatchstore.com/watches/garmin?type=sport&color=black Daher empfehlen wir bei SEO Alive, dass du die kanonische Version auf die ungefilterte Seite setzt, damit die uebrigen parametrisierten URLs ihre Page Authority (URL Ratio) bewahren.

Externer Duplicate Content

Externer Duplicate Content bezieht sich auf jeglichen Inhalt, der ganz oder teilweise von einer oder mehreren Webseiten extrahiert wurde, die unterschiedlichen Webmastern oder Administratoren gehoeren.

Dies ist eine Praxis, die in den Augen der Suchmaschinen als Spam gilt; daher sollte sie, wie wir am Anfang des Artikels erwaehnt haben, um jeden Preis vermieden werden.

Eine weitere Ursache fuer externen Duplicate Content koennen Syndication-Strategien sein, bei denen Webseiten Traffic an andere Seiten senden, um Suchmaschinen zu manipulieren. Der Algorithmus von Google ist heute klug genug, um diese Art von Praxis zu erkennen.

Wie koennen wir pruefen, ob unsere Webseite Duplicate Content hat?

Zu wissen, wie man Duplicate Content erkennt, ist von entscheidender Bedeutung in der Content-Strategie einer Webseite. Wenn wir diesen Faktor nicht kontrollieren, riskieren wir, dass unsere Seiten allmaehlich aus den Top-Ergebnissen bei Google rutschen, da Google die SERPs kontinuierlich verfeinert auf der Suche nach originellen, qualitativ hochwertigen Inhalten. Deshalb stellen wir ein Beispiel vor, wie wir Inhalte auf unserer Webseite erkennen koennen, und geben einige Strategien, um diese Art von Inhalten zu vermeiden.

Angenommen, wir haben einen Online-Shop (Ecommerce), in dem wir eine Druckversion jeder Produktseite haben. Dies wird als doppelt angesehen, da es zwei "Versionen" desselben Inhalts unter verschiedenen URLs gibt:

Produktdetailseite: https://mywebsite.com/product3560

Druckversion: https://mywebsite.com/product3560_print Um diese Art von Duplicate Content zu vermeiden, koennen wir folgende Strategien anwenden:

Strategie #1: Verwendung von 301-Weiterleitungen

Wenn wir unsere Webseite umstrukturiert haben, koennen wir 301-Weiterleitungen (permanente Weiterleitungen) ueber SEO-Plugins einrichten, die in den verschiedenen Repositories der Content-Management-Systeme (CMS) enthalten sind, oder ueber die .htaccess-Datei, um Nutzer, Suchmaschinen-Bots und andere Tools mit Crawler-Funktionalitaet intelligent umzuleiten.

Strategie #2: Verwendung des Canonical-Tags

Das rel="canonical"-Tag wird verwendet, um den Suchmaschinen mitzuteilen, welches die Originalseite (kanonische Version) ist und welche Seiten Kopien sind. Auf diese Weise wird der Spider der Suchmaschine sein Indexierungs-Crawl-Budget auf die mit diesem Meta-Tag markierte Seite konzentrieren.

Um das Canonical-Tag zu verwenden, muessen wir zunaechst auswaehlen, welche Seite von Suchmaschinen angezeigt werden soll, und folgende Zeile zum HTML-Code im </head>-Bereich hinzufuegen (sehen wir uns ein Canonical-Beispiel auf einer Produktseite der Zalando-Webseite an):

<link rel="canonical" ahref= "https://www.zalando.es/adidas-originals-stripe-circle-camiseta-estampada-white-ad121000k-a11.html"/> Wenn wir zum Beispiel auf einer URL die Details eines Produkts und auf einer anderen URL die gleichen Details mit unterschiedlichen Farben zeigen, koennen wir Google mitteilen, welche die kanonische URL ist, die wir den Nutzern zeigen wollen.

Strategie #3: Verwendung der robots.txt-Datei

Durch das Bearbeiten dieser Datei koennen wir den Suchmaschinen-Bots mitteilen, bestimmte Seiten oder Bereiche unserer Webseite nicht zu crawlen. Stell dir vor, wir haben folgende Produktseiten auf unserer Webseite:

https://www.mywebsite.com/category/product-page.html/

https://www.mywebsite.com/category/product-page1.html/ (Version mit Duplicate Content)

Mit folgender Direktive in der robots.txt-Datei:

Disallow /product-page.1html/

koennen wir verhindern, dass Duplicate Content entsteht, zusaetzlich dazu, natuerlich, die erste URL als kanonische Version festzulegen.

Auswirkungen von Duplicate Content auf das SEO-Ranking

Nach der Veroeffentlichung der ersten Version des Google Panda Algorithmus im Jahr 2011, der Domains mit Thin Content und Duplicate Content bestrafte, veroeffentlichte Matt Cutts 2013 ein Video darueber, wie Google mit Duplicate Content umgeht und welche negativen Auswirkungen er aus SEO-Sicht auf die Ranking-Positionen haben kann:

Aus dem Video von Matt Cutts koennen wir schliessen, dass Google laut eigener Aussage zwar 25-30% des Webs als Duplicate Content einstuft, dies aber nicht direkt als Spam behandelt, es sei denn, die Absicht ist, in grossen Mengen betruegerisch Inhalte zu erstellen oder zu kopieren oder Positionen in den Suchergebnisseiten direkt mit "Black Hat"-Taktiken zu manipulieren.

Kurz gesagt, das Erstellen dieser Art von Inhalten kann Suchmaschinen wie Google Signale schlechter Qualitaet senden und auch eine Huerde fuer die Konsolidierung von Linkmetriken (wie Autoritaet, Relevanz oder Vertrauen) der Inhalte aus Sicht der externen Links (Backlinks) darstellen, die auf verschiedene Versionen dieser Inhalte verweisen koennten.

Tools zur Erkennung von Duplicate Content

Wenn es um die Erkennung von Duplicate Content geht, gibt es unzaehlige Tools auf dem Markt, die diese Aufgabe erleichtern koennen. Werfen wir einen Blick darauf!

Tools zur Erkennung von Duplicate Content auf unserer Webseite

Ahrefs: Mit Ahrefs koennen wir innerhalb der "Site Audit"-Funktionalitaet sehen, sofern wir ein Projekt fuer das SEO-Auditing hinzugefuegt haben, ob unsere Webseite Duplicate Content hat oder nicht. Dazu gehen wir zum Tab "Duplicate Content". Dort wird uns eine Grafik angezeigt, in der wir moegliche Fehler erkennen koennen, die wir korrigieren muessen:

Ansicht der Funktion "Duplicate Content" von Ahrefs

Screaming Frog: Mit diesem bekannten Software-Crawler ist es ebenfalls moeglich, Duplicate Content zu erkennen. Dazu muessen wir eine Domain zum Scrapen eingeben und die "internen" Daten in das .csv-Format exportieren. In der Tabelle kannst du sehen, sortieren und filtern, welche Seiten doppelte Titles, Meta Descriptions, Header usw. haben.

SEO Alive Tipp: Verwende Regeln zur bedingten Formatierung in deiner Tabelle, um festzulegen, welche URLs du basierend auf dem Grad an Duplicate Content und der Wichtigkeit und Relevanz jeder Seite korrigierst.

Safecont: Dieses Tool ist wirklich interessant, da es sich ausschliesslich auf die Inhaltsanalyse konzentriert und "Machine Learning" einsetzt, um Cluster und Inhaltsaehnlichkeiten zu erkennen. Es ist sehr umfassend, und seine Verwendung kann uns viele Vorteile bringen, wenn wir Duplicate Content auf unserer Webseite aufspueren wollen.

Ansicht der Funktion "Similarity" von Safecont

Tools zur Erkennung von Duplicate Content von einer anderen Webseite

Copyscape: Wenn wir wissen wollen, ob ein Inhalt im Vergleich zu einer anderen Webseite dupliziert ist, ist Copyscape eine Suchmaschine, die darauf spezialisiert ist, Webseiten zu erkennen, die Inhalte plagiieren. In dieser Suchmaschine musst du nur die URL eingeben, unter der der zu pruefende Inhalt gehostet wird, und das Tool gibt die Seiten zurueck, die diesen Inhalt teilen, sortiert vom hoechsten zum niedrigsten Grad.
Plagium: Dies ist ein weiteres Tool, das Copyscape sehr aehnlich ist, mit dem Unterschied, dass wir den zu pruefenden Text anstelle der URL eingeben muessen. Es ist zu beachten, dass es eine kostenpflichtige Version gibt, die "kostenlose" Version hat ein Limit von bis zu 5.000 Zeichen zur Pruefung.

Fazit

Bei SEO Alive sind wir eine 100% "White Hat SEO"-Agentur, daher unsere Empfehlung am Ende des Artikels, Duplicate Content jederzeit zu vermeiden. Wenn du diese Art von Inhalten auf deiner Webseite entdeckst, verlasse dich auf alle Strategien und Tipps, die wir bereitgestellt haben. Denk dran: Google liebt originelle, hochwertige Inhalte!

Und du, hattest du eine schlechte Erfahrung mit Duplicate Content oder hast du wegen ihm eine Abstrafung erlitten? Wie hast du es geloest? Erzaehl uns davon, wenn du moechtest, in der Kommentarbox! Wir freuen uns, dir zu antworten. Bis zum naechsten Mal!

Autor: David Kaufmann

In den letzten über 10 Jahren habe ich mich komplett dem SEO verschrieben — und ehrlich gesagt möchte ich es nicht anders haben.

Meine Karriere erreichte eine neue Stufe, als ich als Senior SEO Specialist für Chess.com gearbeitet habe — eine der 100 meistbesuchten Websites im gesamten Internet. In dieser Größenordnung zu arbeiten, über Millionen von Seiten, Dutzende Sprachen und in einer der umkämpftesten SERPs überhaupt, hat mich Dinge gelehrt, die kein Kurs und kein Zertifikat je vermitteln könnte. Diese Erfahrung hat meine Sichtweise darauf verändert, wie großartiges SEO wirklich aussieht — und sie wurde zum Fundament für alles, was ich seitdem aufgebaut habe.

Aus dieser Erfahrung heraus habe ich SEO Alive gegründet — eine Agentur für Marken, die es mit organischem Wachstum ernst meinen. Wir sind nicht hier, um dashboards und monatliche Reports zu verkaufen. Wir sind hier, um Strategien zu entwickeln, die wirklich etwas bewegen, indem wir das Beste aus dem klassischen SEO mit der spannenden neuen Welt der Generative Engine Optimization (GEO) verbinden — damit deine Marke nicht nur in den blauen Links von Google auftaucht, sondern auch in den AI-generierten Antworten, die ChatGPT, Perplexity und Google AI Overviews tagtäglich Millionen von Menschen liefern.

Und weil ich kein Tool finden konnte, das beide Welten richtig abdeckt, habe ich selbst eines gebaut — SEOcrawl, eine Enterprise-SEO-Intelligence-Plattform, die rankings, technische Audits, backlinks-Monitoring, crawl-Health und AI-Brand-Visibility-Tracking an einem Ort vereint. Es ist die Plattform, die ich mir immer gewünscht habe.

→ Alle Artikel von David lesen