Comment détecter et corriger le contenu dupliqué ?

Comment détecter et corriger le contenu dupliqué ?
David Kaufmann
Tutoriels SEO
11 min read

Si vous travaillez dans le monde du SEO, vous vous êtes probablement retrouvé dans la situation de devoir faire face à l'un des problèmes les plus courants qui affecte le classement dans les moteurs de recherche et peut entraîner des pénalités : le contenu dupliqué. Les moteurs de recherche comme Google, Bing ou Yahoo ont pour objectif principal d'afficher les informations les plus pertinentes pour l'intention de recherche des utilisateurs. Pour ce faire, ils classent par ordre décroissant, récompensant le contenu original et de haute qualité et pénalisant le contenu qui a été copié, dupliqué, est non pertinent, ou a été manipulé pour mieux se classer sur les pages de résultats.

Dans cet article, nous allons vous expliquer ce qu'est le contenu dupliqué, comment le détecter et le corriger, son impact sur le SEO, et les outils que nous pouvons utiliser pour y travailler. Vous nous accompagnez ? C'est parti !

Qu'est-ce que le contenu dupliqué ?

Comme nous l'avons déjà mentionné, les moteurs de recherche comme Google pénalisent les pages qui ont du contenu dupliqué, ce qui est interprété comme deux pages avec des URL différentes mais le même contenu. Par conséquent, autant que possible, évitez de copier le contenu d'un autre site web et de le coller sur votre site (vous vous éviterez beaucoup de maux de tête avec Google et de potentielles actions en justice de la part des propriétaires des sites web d'où vous l'avez tiré !).

Conseil SEO Alive : En tant qu'agence spécialisée dans l'optimisation pour les moteurs de recherche, nous vous recommandons fortement de prendre soin du contenu de votre site web et d'éviter cette mauvaise pratique. Soyez patient et persévérant, écrivez du contenu original et les résultats arriveront tôt ou tard. À cet égard, Google est très clair sur sa position, comme nous pouvons le voir dans sa documentation officielle sur le contenu dupliqué, nous devons donc être très prudents avec le contenu que nous écrivons.

Dans le référencement SEO, nous pouvons distinguer deux types de contenu dupliqué : interne et externe.

Contenu dupliqué interne

Ce type de contenu dupliqué se produit généralement en raison d'une mauvaise implémentation des paramètres d'URL ou d'une mauvaise gestion des taxonomies dans les catégories et les étiquettes. Les causes possibles qui peuvent générer du contenu dupliqué interne sont :

  • Erreurs dans la création de catégories et d'étiquettes : Cette erreur est courante dans les blogs où il y a une grande liste d'articles et où les catégories et étiquettes sont créées sans ordre ni logique. Voyons un exemple :

Imaginez que nous ayons un blog de marketing digital avec plusieurs catégories :

https://monblogdigital.com/categorie-a/sujet/

https://monblogdigital.com/categorie-b/sujet/

https://monblogdigital.com/categorie-c/sujet/ Pour éviter le contenu dupliqué, il est nécessaire d'indiquer laquelle est la principale et que les deux autres soient canonisées vers l'URL principale.

  • Domaines « non-www » vs « www » et « http » vs « https » : C'est une autre erreur à laquelle nous devons faire attention. Il est possible que si nous n'avons pas spécifié aux moteurs de recherche quel est le domaine canonique, ils puissent accéder aux autres versions et générer du contenu dupliqué. Par conséquent, chez SEO Alive, nous recommandons d'établir quel sera votre domaine canonique et de mettre en place des redirections 301 vers la version que vous voulez être la préférée.
  • URL paramétrées : Cette erreur est courante sur les sites e-commerce où les URL avec paramètres permettent de filtrer pour offrir des informations aux utilisateurs. Supposons que nous ayons un site de vente de montres et l'URL suivante :

https://www.maboutiquemontres.com/montres/garmin?color=black Cette page afficherait toutes les montres modèle « Garmin » en noir.

La possibilité de définir des filtres sur les pages peut être un sérieux inconvénient si elle n'est pas gérée correctement, car les moteurs de recherche peuvent afficher plusieurs combinaisons d'URL :

https://www.maboutiquemontres.com/montres/garmin?color=black&type=sport

https://www.maboutiquemontres.com/montres/garmin?type=sport&color=black Par conséquent, chez SEO Alive, nous vous recommandons de définir la version canonique sur la page non filtrée afin que le reste des URL paramétrées préserve leur autorité de page (URL Ratio).

Contenu dupliqué externe

Le contenu dupliqué externe fait référence à tout contenu qui est extrait, copié totalement ou partiellement d'un ou plusieurs sites web appartenant à différents webmasters ou administrateurs.

C'est une pratique considérée comme du spam aux yeux des moteurs de recherche ; par conséquent, comme nous l'avons mentionné au début de l'article, elle doit être évitée à tout prix.

Une autre cause de contenu dupliqué externe peut être due à des stratégies de syndication, dans lesquelles les sites web envoient du trafic vers d'autres sites afin de manipuler les moteurs de recherche. L'algorithme de Google est aujourd'hui suffisamment intelligent pour détecter ce type de pratique.

Comment vérifier si notre site web a du contenu dupliqué ?

Savoir détecter le contenu dupliqué est d'une importance cruciale dans la stratégie de contenu d'un site web. Si nous ne contrôlons pas ce facteur, nous courons le risque que nos pages glissent progressivement des premiers résultats de Google, car Google affine continuellement les SERP à la recherche de contenu original et de haute qualité. C'est pourquoi nous allons présenter un exemple de la façon dont nous pourrions détecter le contenu sur notre site web et donner quelques stratégies pour éviter ce type de contenu.

Supposons que nous ayons une boutique en ligne (e-commerce) où nous avons une version imprimable de chacune des pages produits. Cela est considéré comme dupliqué puisqu'il existe deux « versions » du même contenu sous différentes URL :

Page de détail du produit : https://monsiteweb.com/produit3560

Page version imprimable : https://monsiteweb.com/produit3560_print Pour éviter ce type de contenu dupliqué, nous pouvons appliquer les stratégies suivantes :

Stratégie n°1 : Utilisation de redirections 301

Si nous avons restructuré notre site web, nous pouvons mettre en place des redirections 301 (redirections permanentes) via des plugins SEO inclus dans les différents dépôts des systèmes de gestion de contenu (CMS), ou via le fichier .htaccess, pour rediriger intelligemment les utilisateurs, les bots des moteurs de recherche et autres outils avec une fonction de crawler.

Stratégie n°2 : Utilisation de la balise canonique

La balise rel="canonical" est utilisée pour indiquer aux moteurs de recherche quelle est la page originale (version canonique) et quelles pages sont une copie. De cette façon, le spider du moteur de recherche concentrera son budget de crawl d'indexation sur la page marquée avec cette meta balise.

Pour utiliser la balise canonique, nous devons d'abord choisir quelle page nous voulons être celle affichée par les moteurs de recherche et ajouter la ligne suivante au code HTML dans la section </head> (voyons un exemple de canonique sur une page produit du site Zalando) :

<link rel="canonical" ahref= "https://www.zalando.es/adidas-originals-stripe-circle-camiseta-estampada-white-ad121000k-a11.html"/> Par exemple, si sur une URL nous montrons les détails d'un produit et sur une autre URL nous montrons les mêmes détails avec différentes couleurs, nous pouvons indiquer à Google quelle est l'URL canonique que nous voulons montrer aux utilisateurs.

Stratégie n°3 : Utilisation du fichier robots.txt

En éditant ce fichier, nous pouvons indiquer aux bots des moteurs de recherche de ne pas explorer certaines pages ou sections de notre site web. Imaginez que nous ayons les pages produits suivantes sur notre site web :

https://www.monsiteweb.com/categorie/page-produit.html/

https://www.monsiteweb.com/categorie/page-produit1.html/ (version avec contenu dupliqué)

Avec la directive suivante dans le fichier robots.txt :

  • Disallow /page-produit.1html/

Nous pouvons empêcher la génération de contenu dupliqué, en plus, bien sûr, de définir la première URL comme version canonique.

Impact du contenu dupliqué sur le classement SEO

Après la sortie de la première version de l'algorithme Google Panda en 2011, qui pénalisait les domaines avec du thin content et du contenu dupliqué, Matt Cutts a publié une vidéo en 2013 sur la façon dont Google gère le contenu dupliqué et les effets négatifs qu'il peut avoir sur les positions de classement d'un point de vue SEO :



Les conclusions que nous pouvons tirer de la vidéo de Matt Cutts sont que, bien que selon Google 25-30% du web soit du contenu dupliqué, le moteur de recherche ne le traite pas directement comme du spam, sauf si l'intention est de créer ou copier du contenu de manière frauduleuse en grandes quantités ou de manipuler directement les positions dans les pages de résultats de recherche avec des tactiques « black hat ».

En bref, créer ce type de contenu peut générer des signaux de mauvaise qualité aux moteurs de recherche comme Google, ainsi que poser une barrière à la consolidation des métriques de liens (telles que l'autorité, la pertinence ou la confiance) du contenu, du point de vue des liens externes (backlinks) qui peuvent pointer vers différentes versions de ce contenu.

Outils pour détecter le contenu dupliqué

Lorsqu'il s'agit de détecter le contenu dupliqué, il existe d'innombrables outils sur le marché qui peuvent faciliter cette tâche. Jetons-y un œil !

Outils pour détecter le contenu dupliqué sur notre site web

  • Ahrefs : Avec Ahrefs, nous pouvons voir, dans la fonctionnalité « site audit » et à condition d'avoir ajouté un projet pour l'audit SEO, si notre site web a du contenu dupliqué ou non. Pour ce faire, nous irons à l'onglet « duplicate content ». Une fois là, un graphique nous sera montré où nous pourrons identifier les éventuelles erreurs à corriger :

Fonctionnalité de contenu dupliqué dans Ahrefs
Fonctionnalité de contenu dupliqué dans Ahrefs

Vue de la fonctionnalité « Duplicate Content » d'Ahrefs

  • Screaming Frog : Avec ce célèbre crawler logiciel, il est également possible de détecter le contenu dupliqué. Pour ce faire, nous devrons entrer un domaine à explorer et exporter les données « internes » au format .csv. Une fois dans la feuille de calcul, vous pouvez visualiser, trier et filtrer quelles pages ont des titres, meta descriptions, en-têtes, etc. dupliqués.

Conseil SEO Alive : Utilisez des règles de mise en forme conditionnelle dans votre feuille de calcul pour définir quelles URL vous corrigerez en fonction du niveau de contenu dupliqué que vous avez et de l'importance et de la pertinence de chaque page.

  • Safecont : Cet outil est vraiment intéressant car il est axé exclusivement sur l'analyse de contenu et utilise le « machine learning » pour détecter et trouver des clusters et des similarités de contenu. Il est assez complet et son utilisation peut nous apporter de nombreux avantages si nous voulons détecter du contenu dupliqué sur notre site web.

Outil de contenu Safecont
Outil de contenu Safecont

Vue de la fonctionnalité « Similarity » de Safecont

Outils pour détecter le contenu dupliqué d'un autre site web

  • Copyscape : Si nous voulons savoir si un contenu est dupliqué par rapport à un autre site web, Copyscape est un moteur de recherche spécialisé dans la détection des pages web qui plagient du contenu. Dans ce moteur de recherche, vous n'avez qu'à entrer l'URL où le contenu que vous voulez vérifier est hébergé, et l'outil renvoie les pages qui partagent ce contenu, triées du degré le plus élevé au plus bas.
  • Plagium : C'est un autre outil très similaire à Copyscape, à la différence que nous devons entrer le texte à vérifier au lieu de l'URL. Il convient de noter qu'il dispose d'une version payante, donc la version « gratuite » a une limite de 5 000 caractères à vérifier.

Conclusions

Chez SEO Alive, nous sommes une agence 100% « White Hat SEO », donc notre recommandation à la fin de l'article est d'éviter à tout moment le contenu dupliqué. Si vous détectez ce type de contenu sur votre site web, appuyez-vous sur toutes les stratégies et conseils que nous avons fournis. Rappelez-vous : Google aime le contenu original et de haute qualité !

Et vous, avez-vous eu une mauvaise expérience avec le contenu dupliqué ou avez-vous subi une pénalité à cause de cela ? Comment l'avez-vous résolu ? Parlez-nous-en si vous voulez, dans la zone de commentaires ! Nous serons heureux de répondre. À la prochaine !

Auteur : David Kaufmann

David Kaufmann

Cela fait plus de 10 ans que je suis totalement obsédé par le SEO — et honnêtement, je ne voudrais pas qu'il en soit autrement.

Ma carrière a franchi un cap lorsque j'ai travaillé comme Senior SEO Specialist pour Chess.com — l'un des 100 sites les plus visités de tout Internet. Opérer à cette échelle, sur des millions de pages, des dizaines de langues et dans l'une des SERPs les plus concurrentielles qui soient, m'a appris des choses qu'aucun cours ni aucune certification ne pourrait jamais transmettre. Cette expérience a transformé ma vision de ce qu'est réellement un SEO d'excellence — et elle est devenue le socle de tout ce que j'ai construit depuis.

Forcé par cette expérience, j'ai fondé SEO Alive — une agence pour les marques qui prennent la croissance organique au sérieux. Nous ne sommes pas là pour vendre des dashboards et des rapports mensuels. Nous sommes là pour bâtir des stratégies qui font vraiment la différence, en combinant le meilleur du SEO classique avec le nouvel univers passionnant de la Generative Engine Optimization (GEO) — afin que votre marque apparaisse non seulement dans les liens bleus de Google, mais aussi dans les réponses générées par l'AI que ChatGPT, Perplexity et Google AI Overviews livrent chaque jour à des millions de personnes.

Et parce que je ne trouvais aucun outil capable de gérer correctement ces deux mondes, j'en ai construit un moi-même — SEOcrawl, une plateforme d'intelligence SEO pour les entreprises qui réunit rankings, audits techniques, monitoring des backlinks, santé du crawl et suivi de la visibilité de marque dans l'AI, le tout au même endroit. C'est la plateforme dont j'ai toujours rêvé.

→ Lire tous les articles de David
Plus d'articles de David Kaufmann

Découvrez plus de contenu de cet auteur