Thin Content : qu'est-ce que c'est et comment y remédier

Dans l'article d'aujourd'hui, nous avons jugé pertinent d'aborder le concept de « thin content » ou contenu maigre/pauvre car, sur la base de notre expérience, nous avons pu constater qu'il s'agit de l'un de ces concepts très utilisés dans notre secteur, mais dont de nombreux référenceurs ne savent pas exactement à quoi il fait référence, puisqu'il est bien plus large que ce que l'on pense.
Ce concept a été pris en compte pour la première fois après la mise à jour Google Panda, le premier grand algorithme de Google, en février 2011 (à cette époque, beaucoup d'entre nous ne savaient même pas ce qu'était le SEO).
Si vous voulez tout savoir sur le thin content et sur la manière de le travailler avec ce que nous considérons comme le meilleur outil pour le détecter (SafeCont), nous vous invitons à poursuivre la lecture de cet article que nous avons préparé avec grand enthousiasme pour les référenceurs du monde entier.
Qu'est-ce que le Thin Content ?
Le thin content est le contenu d'une page web qui apporte peu ou pas de valeur à l'utilisateur. Ce concept ne se limite pas seulement aux pages vides ou semi-vides comme beaucoup le pensent.
Types de pages considérées comme Thin Content
Il n'existe pas de critère officiel qui nous indique qu'une page peut être incluse dans le sac des « pages inutiles », car toutes les pages peuvent l'être (même la page d'accueil). Cependant, avec l'expérience, nous sommes capables de trouver des modèles qui nous permettent d'élaborer une classification de ce type de pages.
Pages vides ou semi-vides
Non seulement ces pages sont pauvres en contenu, mais le contenu n'apporte rien. Nous devons rappeler que la longueur du contenu n'est pas un indicateur de thin content ni de qualité. Si nous donnons à l'utilisateur tout ce qu'il cherche avec peu de contenu, Google le récompensera sûrement. La plupart des cas auxquels un référenceur est habituellement confronté sont liés à des pages de résultats de recherche internes qui finissent indexées, à des filtres mal travaillés ou à des Tags.

Résultat de recherche indexable aléatoire

Page de TAGS indexable sans contenu
Pour éviter que ce type de thin content ne se produise, nous devrions essayer d'éviter de rendre ces types de pages indexables, ou de le contrôler très en détail. Nous ne devrions pas suivre cette procédure sur les pages qui peuvent être une bonne solution à la requête faite par les utilisateurs sur Google et que nous croyons pouvoir positionner après une optimisation appropriée.

Exemple de page de résultats de recherche indexée avec un contenu approprié


Page TAG indexable avec contenu lié.
Dans le cas des tags, nous recommandons également ce qui a déjà été mentionné à de nombreuses reprises : générez-les avec beaucoup de soin et toujours en suivant une stratégie SEO cohérente. De cette manière, nous nous assurons qu'ils peuvent être utilisés comme catégorisation secondaire, comme cela se fait dans de nombreux médias.
Pages avec du contenu dupliqué
C'est l'une des pratiques les plus combattues par Google : si un contenu n'apporte pas d'informations pertinentes et différentes de celles des concurrents, il ne sera pas reconnu par Google. Inutile de dire que copier directement du contenu d'autres portails signifie que, dans la plupart des cas, vous serez sévèrement pénalisé par les moteurs de recherche.
Le spinning de texte est également considéré comme du contenu dupliqué, c'est-à-dire le copier et le réécrire avec de légères adaptations. Le bot de Google est capable de détecter le plagiat, même si certaines phrases sont modifiées.
Traduire du contenu d'une autre langue et l'inclure directement sur votre site est également considéré comme du thin content.
Notre conseil est de ne pas prendre de raccourci ; si vous voulez faire du bon SEO, travaillez-y dur, générez un contenu intéressant, et nous vous assurons que les résultats arriveront tôt plutôt que tard.
Contenu généré automatiquement
Dans ce cas, nous faisons référence au contenu généré par des outils ou des bots. Il est vrai que l'IA a beaucoup avancé et que des textes relativement intéressants pourraient être générés, mais c'est encore une pratique représentative du black hat le plus basique que votre site finira par payer.
Les bots ne sont pas stupides et les utilisateurs non plus. Générer du contenu qui n'apporte rien à l'utilisateur est actuellement considéré chez SEO Alive comme l'antithèse maximale du SEO.
Ne soyez pas la cigale de la fable.
Contenu d'affiliation de faible qualité
Les sites d'affiliation qui offrent des conseils d'achat et des avis utiles et complets n'ont rien à craindre de Google. Cependant, les pages remplies de liens d'affiliation qui n'offrent pas d'informations utiles ou pertinentes pour l'utilisateur final sont les principales cibles d'une pénalisation Google.
Oh, le nombre de pages de ce type qui ont reçu un disavow lors d'audits de link building !
Pour éviter ce type de pénalisation, nous devons nous assurer que le site a un objectif au-delà de l'offre d'affiliation et fournir des opportunités d'affiliation qui correspondent étroitement au secteur de votre site.
Doorway Pages
Elles sont faciles à identifier car elles ont été conçues principalement pour les moteurs de recherche, et non pour les humains. Cette technique, déjà en désuétude, consiste à créer plusieurs pages/domaines dans le but de se positionner pour un terme très spécifique ou un groupe de termes très proche, et à les lier ou les rediriger toutes vers la même URL.
Le contenu typique utilisé sur ces pages ressemble à ceci :

Exemple de doorway page.
De notre point de vue, c'est une stratégie archaïque qui, dans le SEO actuel, demanderait plus d'efforts que de résultats et constitue bien évidemment du thin content.
Comment le thin content affecte-t-il un site ?
Nous devons préciser que le thin content est généralement pénalisé sur les sites qui sont trop dé-optimisés, qui représentent un chaos structurel et de contenu que même Google n'est pas capable d'identifier, ou ceux dont la construction a opté pour la voie « facile » en utilisant certaines (ou de nombreuses) techniques black hat.
Le principal inconvénient de générer du thin content sur un site est qu'il s'expose à être sévèrement pénalisé par Google, l'empêchant d'atteindre de bons positionnements dans les SERP ou faisant chuter sa position de manière continue.
Mais ce n'est pas le seul inconvénient, car si un site parvient à recevoir des visites depuis n'importe quel canal, il sera difficile de retenir les utilisateurs et de les convaincre d'interagir. Dans la situation où se trouve actuellement le SEO, où l'utilisateur est le protagoniste, ce fait entraînera une perte accrue d'autorité.
Comment détecter le thin content avec Safecont
Après tout ce que vous saviez déjà et après avoir lu tout ceci, vous ne voulez sûrement pas permettre que votre site ait ne serait-ce qu'un peu de contenu inutile. Comme nous venons de vous le dire, si vous avez une stratégie de contenu de qualité et que votre site présente un niveau d'optimisation approprié, vous ne devriez pas vous inquiéter, mais nous vous recommandons de garder un contrôle sur ce type de pages, surtout en raison des utilisateurs qui peuvent y atterrir.
Pour cette raison, nous pensons qu'il est très approprié de parler de l'un des outils qui fonctionne le mieux pour nous dans notre agence ; nous voulons que vous le connaissiez au cas où, comme pour nous, il pourrait vous être utile dans vos audits de contenu.
Permettez-nous de vous dire, pour ceux qui ne le connaissent pas, que Safecont est un outil espagnol spécialisé dans l'analyse de contenu et d'architecture qui utilise la technologie Machine Learning pour détecter où se trouvent les principaux problèmes d'un site. Avec lui, nous pouvons détecter le contenu de faible qualité qui peut entraîner des pénalisations et d'autres problèmes.
Étant donné que le sujet principal de l'article est le thin content, nous nous concentrerons exclusivement sur l'analyse que l'outil en fait. Une fois le site crawlé, en première instance, dans le résumé du crawl, on trouve déjà le nombre d'URLs présentant ce problème.

Vue générale du tableau de bord de l'outil SEO Safecont.
Si nous approfondissons l'analyse spécifique…

La fonction de détection de thin content est l'une des meilleures fonctionnalités de l'outil.
Nous trouvons un résumé très visuel et très précis de l'état du site.

Vue générale de l'analyse de clusters de SafeCont.
La première chose qui attirera notre attention, sans aucun doute, c'est le graphique particulier en forme de rhinocéros (le logo de l'outil, puisqu'un panda aurait été trop évident) qui nous montre le pourcentage de risque de subir une pénalisation.

Graphique de risque de pénalisation Safecont.
Selon cette analyse, le site répond au niveau optimal de thin content et, pour le moment, Google n'a pas de raison de les pénaliser. Sous cette analyse, nous voyons un tableau et un graphique très curieux et représentatifs qui nous permettent d'avoir une vue générale de l'état du site :

Analyse de thin content via les clusters.
Le tableau nous montre trois colonnes :
- Links : qui fournit, par intervalles de 10, le pourcentage de thin content que peuvent avoir les pages.
- Pages : le nombre de pages qui présentent chaque pourcentage de thin content.
- Cluster Risk : la probabilité que chacune des pages dans chaque intervalle soit pénalisée.
Nous savons qu'exprimé ainsi cela peut sembler un peu confus, mais la bonne façon de l'interpréter serait quelque chose comme : « Nous observons que la plupart des pages (706) présentent un pourcentage de thin content compris entre 10 et 20 %, avec une probabilité moyenne d'être pénalisé de 29,81 %.
Seules quatre pages ont un pourcentage de thin content supérieur à 40 % et la probabilité d'être pénalisé est de 36,98 %. »
Le graphique le représente, en différenciant chaque intervalle par couleurs, le vert étant celui ayant le plus faible pourcentage de thin content et le rouge celui ayant le plus élevé. C'est pourquoi le second intervalle (10 %-20 %) est représenté avec la plus grande épaisseur.
Et enfin…

Analyse individualisée d'URL (thin content, risque de pénalisation...)
…Safecont nous montre une analyse individuelle de chaque URL nous permettant de filtrer à notre guise. Avec les URLs apparaissent 3 données :
- ThinRatio : pourcentage de mots similaires au sein d'une même page
- NUMWORDS : densité de mots inclus dans le contenu
- PAGERISK : probabilité que la page puisse être pénalisée.
Comme nous l'avons dit tout au long de l'article, nous ne pouvons pas nous concentrer exclusivement sur la longueur du contenu, comme l'outil le fait dans cette dernière partie. Cependant, c'est quelque chose que nous devons garder à l'esprit.
Cet outil doit être compris globalement, car il nous permettra de réaliser des audits de contenu de très haute qualité. Nous vous recommandons fortement de l'essayer.
** Note : cet article n'a pas été sponsorisé, mais nous croyons vraiment que Safecont apporte de la valeur et est de grande qualité, et nous considérons donc qu'il est approprié de le partager avec la communauté SEO.*
Auteur : David Kaufmann

Cela fait plus de 10 ans que je suis totalement obsédé par le SEO — et honnêtement, je ne voudrais pas qu'il en soit autrement.
Ma carrière a franchi un cap lorsque j'ai travaillé comme Senior SEO Specialist pour Chess.com — l'un des 100 sites les plus visités de tout Internet. Opérer à cette échelle, sur des millions de pages, des dizaines de langues et dans l'une des SERPs les plus concurrentielles qui soient, m'a appris des choses qu'aucun cours ni aucune certification ne pourrait jamais transmettre. Cette expérience a transformé ma vision de ce qu'est réellement un SEO d'excellence — et elle est devenue le socle de tout ce que j'ai construit depuis.
Forcé par cette expérience, j'ai fondé SEO Alive — une agence pour les marques qui prennent la croissance organique au sérieux. Nous ne sommes pas là pour vendre des dashboards et des rapports mensuels. Nous sommes là pour bâtir des stratégies qui font vraiment la différence, en combinant le meilleur du SEO classique avec le nouvel univers passionnant de la Generative Engine Optimization (GEO) — afin que votre marque apparaisse non seulement dans les liens bleus de Google, mais aussi dans les réponses générées par l'AI que ChatGPT, Perplexity et Google AI Overviews livrent chaque jour à des millions de personnes.
Et parce que je ne trouvais aucun outil capable de gérer correctement ces deux mondes, j'en ai construit un moi-même — SEOcrawl, une plateforme d'intelligence SEO pour les entreprises qui réunit rankings, audits techniques, monitoring des backlinks, santé du crawl et suivi de la visibilité de marque dans l'AI, le tout au même endroit. C'est la plateforme dont j'ai toujours rêvé.
Découvrez plus de contenu de cet auteur

