Com detectar i corregir el contingut duplicat?

Com detectar i corregir el contingut duplicat?
David Kaufmann
Tutorials SEO
10 min read

Si treballes al món del SEO, segurament t'has trobat en la situació d'haver de bregar amb un dels problemes més habituals que afecta el posicionament als cercadors i pot derivar en penalitzacions: el contingut duplicat. Els cercadors com Google, Bing o Yahoo tenen com a objectiu principal mostrar la informació més rellevant per a la intenció de cerca dels usuaris. Per fer-ho, els ordenen de manera descendent, recompensant el contingut original i de qualitat i penalitzant aquell que ha estat copiat, duplicat, és irrellevant o ha estat manipulat per posicionar-se més amunt a les pàgines de resultats.

En aquest article t'explicarem què és el contingut duplicat, com el podem detectar i corregir, el seu impacte al SEO i les eines que podem fer servir per treballar-hi. T'hi apuntes? Comencem!

Què és el contingut duplicat?

Com ja hem comentat, els cercadors com Google penalitzen les pàgines que tenen contingut duplicat, que s'interpreta com a dues pàgines amb URL diferents però amb el mateix contingut. Per tant, en la mesura del possible, evita copiar contingut d'una altra web i enganxar-lo al teu lloc (t'estalviaràs molts mals de cap amb Google i possibles accions legals dels propietaris de les webs d'on l'has tret!).

Consell de SEO Alive**:** Com a agència especialitzada en posicionament als cercadors, et recomanem fortament que cuidis el contingut de la teva web i evitis aquesta mala pràctica. Sigues pacient i constant, escriu contingut original, i els resultats arribaran abans que no t'imagines. En aquest sentit, Google és molt clar amb la seva postura, com es pot veure a la seva documentació oficial sobre contingut duplicat, així que hem d'anar molt amb compte amb el contingut que escrivim.

Al posicionament SEO, podem distingir dos tipus de contingut duplicat: intern i extern.

Contingut duplicat intern

Aquest tipus de contingut duplicat es produeix generalment per una mala implementació dels paràmetres de URL o una mala gestió de les taxonomies en categories i etiquetes. Les possibles causes que poden generar contingut duplicat intern són:

  • Errors a l'hora de crear categories i etiquetes: Aquest error és comú en blogs on hi ha una llarga llista d'articles i es creen categories i etiquetes sense cap ordre ni lògica. Vegem-ne un exemple:

Imagina que tenim un blog de màrqueting digital amb diverses categories:

https://elmeublogdigital.com/categoria-a/tema/

https://elmeublogdigital.com/categoria-b/tema/

https://elmeublogdigital.com/categoria-c/tema/ Per evitar contingut duplicat, cal marcar quina és la principal i fer que les altres dues canonicalitzin a la URL principal.

  • Dominis "no-www" vs "www" i "http" vs "https": Un altre error al qual hem de parar atenció. És possible que, si no hem indicat als cercadors quin és el domini canònic, hi puguin accedir a les altres versions i generin contingut duplicat. Per tant, des de SEO Alive, et recomanem establir quin serà el teu domini canònic i configurar redireccions 301 a la versió que vols que sigui la preferida.
  • URL parametritzades: Aquest error és comú a webs d'ecommerce on les URL amb paràmetres permeten filtrar per oferir informació als usuaris. Suposem que tenim un lloc de venda de rellotges i la següent URL:

https://www.lamevabotigaderellotges.com/rellotges/garmin?color=negre Aquesta pàgina mostraria tots els rellotges del model "Garmin" en negre.

La possibilitat d'establir filtres a les pàgines pot ser un inconvenient seriós si no es gestiona adequadament, ja que els cercadors poden mostrar diverses combinacions de URL:

https://www.lamevabotigaderellotges.com/rellotges/garmin?color=negre&tipus=esport

https://www.lamevabotigaderellotges.com/rellotges/garmin?tipus=esport&color=negre Per això, des de SEO Alive et recomanem que estableixis la versió canònica a la pàgina sense filtrar perquè la resta de URL parametritzades preservin la seva autoritat de pàgina (URL Ratio).

Contingut duplicat extern

El contingut duplicat extern fa referència a qualsevol contingut que s'extreu, es copia totalment o parcialment d'una o més webs propietat de webmasters o administradors diferents.

És una pràctica considerada com a spam als ulls dels cercadors; per tant, com hem comentat al principi de l'article, cal evitar-la a tota costa.

Una altra causa de contingut duplicat extern pot ser deguda a estratègies de sindicació, on les webs envien trànsit a altres llocs amb la finalitat de manipular els cercadors. L'algoritme de Google és prou intel·ligent avui dia per detectar aquest tipus de pràctica.

Com podem comprovar si la nostra web té contingut duplicat?

Saber detectar el contingut duplicat és d'una importància cabdal en l'estratègia de continguts d'una web. Si no controlem aquest factor, correm el risc que les nostres pàgines vagin caient gradualment dels primers resultats de Google, ja que Google afina contínuament les SERP a la recerca de contingut original i de qualitat. Per això et presentarem un exemple de com podríem detectar contingut a la nostra web i donar algunes estratègies per evitar aquest tipus de contingut.

Suposem que tenim una botiga online (ecommerce) on tenim una versió imprimible de cadascuna de les pàgines de producte. Això es considera duplicat ja que existeixen dues "versions" del mateix contingut sota URL diferents:

Pàgina de detall del producte: https://lamevaweb.com/producte3560

Pàgina de versió imprimible: https://lamevaweb.com/producte3560_print Per evitar aquest tipus de contingut duplicat podem aplicar les estratègies següents:

Estratègia núm. 1: Ús de redireccions 301

Si hem reestructurat la nostra web, podem configurar redireccions 301 (redireccions permanents) mitjançant plugins SEO inclosos als diferents repositoris dels gestors de continguts (CMS), o mitjançant el fitxer .htaccess, per redirigir intel·ligentment usuaris, bots de cercadors i altres eines amb funcionalitat de crawler.

Estratègia núm. 2: Ús de l'etiqueta canonical

L'etiqueta rel="canonical" s'utilitza per indicar als cercadors quina és la pàgina original (versió canònica) i quines pàgines són una còpia. D'aquesta manera, l'aranya del cercador centrarà el seu pressupost de rastreig (crawl budget) d'indexació a la pàgina marcada amb aquesta meta etiqueta.

Per fer servir l'etiqueta canonical, primer hem de triar quina pàgina volem que sigui la mostrada pels cercadors i afegir la línia següent al codi HTML a la secció </head> (vegem un exemple de canonical en una pàgina de producte de la web de Zalando):

<link rel="canonical" ahref= "https://www.zalando.es/adidas-originals-stripe-circle-camiseta-estampada-white-ad121000k-a11.html"/> Per exemple, si en una URL mostrem els detalls d'un producte i en una altra URL mostrem els mateixos detalls amb colors diferents, podem dir a Google quina és la URL canònica que volem mostrar als usuaris.

Estratègia núm. 3: Ús del fitxer robots.txt

Editant aquest fitxer podem dir als bots dels cercadors que no rastregin determinades pàgines o seccions de la nostra web. Imagina que tenim les següents pàgines de producte a la nostra web:

https://www.lamevaweb.com/categoria/pagina-producte.html/

https://www.lamevaweb.com/categoria/pagina-producte1.html/ (versió amb contingut duplicat)

Amb la directiva següent al fitxer robots.txt:

  • Disallow /pagina-producte.1html/

Podem evitar que es produeixi contingut duplicat, a més, és clar, d'establir la primera URL com a versió canònica.

Impacte del contingut duplicat al posicionament SEO

Després del llançament de la primera versió de l'algoritme Google Panda cap al 2011, que penalitzava els dominis amb thin content i contingut duplicat, Matt Cutts va publicar un vídeo el 2013 sobre com Google gestiona el contingut duplicat i quins efectes negatius pot tenir a les posicions de rànquing des d'una perspectiva SEO:



Les conclusions que podem extreure del vídeo de Matt Cutts són que, tot i que segons Google el 25-30% de la web és contingut duplicat, el cercador no el tracta directament com a spam tret que la intenció sigui crear o copiar contingut de manera fraudulenta en grans quantitats o manipular directament les posicions a les pàgines de resultats de cerca amb tàctiques "black hat".

En resum, generar aquest tipus de contingut pot generar senyals de baixa qualitat als cercadors com Google, així com suposar una barrera a l'hora de consolidar mètriques d'enllaços (com l'autoritat, la rellevància o la confiança) del contingut, des del punt de vista d'enllaços externs (backlinks) que poden enllaçar a diferents versions d'aquell contingut.

Eines per detectar contingut duplicat

A l'hora de detectar contingut duplicat, hi ha incomptables eines al mercat que poden facilitar aquesta tasca. Fem-hi una ullada!

Eines per detectar contingut duplicat a la nostra web

  • Ahrefs: Amb Ahrefs podem veure, dins la funcionalitat "site audit" i sempre que hàgim afegit un projecte per a auditoria SEO, si la nostra web té contingut duplicat o no. Per fer-ho, anirem a la pestanya "duplicate content". Un cop allà, se'ns mostrarà un gràfic on podrem identificar els possibles errors que hem de corregir:

Funcionalitat de contingut duplicat a Ahrefs
Funcionalitat de contingut duplicat a Ahrefs

Vista de la funcionalitat "Duplicate Content" d'Ahrefs

  • Screaming Frog: Amb aquest conegut software crawler, també és possible detectar contingut duplicat. Per fer-ho, haurem d'introduir un domini per fer-ne scraping i exportar les dades "internal" a format .csv. Un cop al full de càlcul, pots visualitzar, ordenar i filtrar quines pàgines tenen títols, meta descripcions, capçaleres, etc. duplicats.

Consell de SEO Alive: Fes servir regles de format condicional al teu full de càlcul per establir quines URL corregiràs en funció del nivell de contingut duplicat que tens i la importància i rellevància de cada pàgina.

  • Safecont: Aquesta eina és realment interessant ja que està enfocada exclusivament a l'anàlisi de contingut i fa servir "machine learning" per detectar i trobar clústers i similituds de contingut. És força completa, i el seu ús ens pot aportar molts avantatges si volem detectar contingut duplicat a la nostra web.

Eina de contingut Safecont
Eina de contingut Safecont

Vista de la funcionalitat "Similarity" de Safecont

Eines per detectar contingut duplicat d'una altra web

  • Copyscape: Si volem saber si un contingut està duplicat respecte a una altra web, Copyscape és un cercador especialitzat en detectar pàgines web que plagien contingut. En aquest cercador, només cal introduir la URL on està allotjat el contingut que vols comprovar, i l'eina retorna les pàgines que comparteixen aquell contingut, ordenades de més a menys grau.
  • Plagium: És una altra eina molt similar a Copyscape, amb la diferència que hem d'introduir el text per comprovar en lloc de la URL. Cal destacar que té una versió de pagament, així que la versió "gratuïta" té un límit de fins a 5.000 caràcters per comprovar.

Conclusions

A SEO Alive som una agència 100% "White Hat SEO", per la qual cosa la nostra recomanació al final de l'article és evitar el contingut duplicat en tot moment. Si detectes aquest tipus de contingut a la teva web, recolza't en totes les estratègies i consells que hem proporcionat. Recorda: a Google li agrada el contingut original i de qualitat!

I tu, has tingut alguna mala experiència amb el contingut duplicat o has patit alguna penalització per aquest motiu? Com l'has resolt? Explica-nos-ho si vols, a la caixa de comentaris! Estarem encantats de respondre. Fins la pròxima!

Автор: David Kaufmann

David Kaufmann

He passat els últims 10+ anys completament obsessionat amb el SEO — i sincerament, no ho canviaria per res.

La meva carrera va fer un salt qualitatiu quan vaig treballar com a especialista SEO sènior a Chess.com — un dels 100 webs més visitats de tot Internet. Operar a aquesta escala em va ensenyar coses que cap curs ni certificació podrien transmetre.

D'aquella experiència vaig fundar SEO Alive — una agència per a marques que es prenen seriosament el creixement orgànic. I com que no trobava cap eina que gestionés bé tant el SEO clàssic com el món de la IA, vaig construir SEOcrawl. Si busques un partner SEO sènior que s'estimi aquest sector de debò — m'encantarà parlar amb tu!

→ Читайте всі статті від David
Більше статей: David Kaufmann

Дізнайтесь більше контенту цього автора