Come rilevare e correggere il contenuto duplicato?

Come rilevare e correggere il contenuto duplicato?
David Kaufmann
Tutorial SEO
10 min read

Se lavori nel mondo della SEO, probabilmente ti sei trovato nella situazione di dover affrontare uno dei problemi più comuni che colpiscono il posizionamento nei motori di ricerca e che possono portare a penalizzazioni: il contenuto duplicato. I motori di ricerca come Google, Bing o Yahoo hanno come obiettivo principale quello di mostrare le informazioni più rilevanti per l'intento di ricerca degli utenti. Per farlo, classificano in ordine decrescente, premiando contenuti originali e di alta qualità e penalizzando contenuti che sono stati copiati, duplicati, sono irrilevanti o sono stati manipolati per posizionarsi più in alto nelle pagine dei risultati.

In questo articolo ti spieghiamo cos'è il contenuto duplicato, come possiamo rilevarlo e correggerlo, il suo impatto sulla SEO e gli strumenti che possiamo usare per lavorarci. Ci segui? Iniziamo! ?

Cos'è il contenuto duplicato?

Come abbiamo già detto, i motori di ricerca come Google penalizzano le pagine con contenuto duplicato, che viene interpretato come due pagine con URL diversi ma con lo stesso contenuto. Pertanto, per quanto possibile, evita di copiare contenuti da un altro sito web e incollarli sul tuo (ti risparmierai molti grattacapi con Google e potenziali azioni legali da parte dei proprietari dei siti web da cui hai estratto i contenuti!?).

Consiglio di SEO Alive**:** Come agenzia specializzata nell'ottimizzazione per i motori di ricerca, ti consigliamo vivamente di prenderti cura dei contenuti del tuo sito web ed evitare questa cattiva pratica. Sii paziente e perseverante, scrivi contenuti originali, e i risultati arriveranno prima di quanto pensi. A questo proposito, Google è molto chiaro sulla sua posizione, come possiamo vedere nella sua documentazione ufficiale sui contenuti duplicati, quindi dobbiamo fare molta attenzione ai contenuti che scriviamo.

Nel posizionamento SEO, possiamo distinguere due tipi di contenuto duplicato: contenuto duplicato interno ed esterno.

Contenuto duplicato interno

Questo tipo di contenuto duplicato si verifica generalmente a causa di una scarsa implementazione dei parametri URL o di una scarsa gestione delle tassonomie nelle categorie e nei tag. Le possibili cause che possono generare contenuto duplicato interno sono:

  • Errori nella creazione di categorie e tag: Questo errore è comune nei blog dove c'è un grande elenco di articoli e categorie e tag vengono creati senza alcun ordine o logica. Vediamo un esempio:

Immagina di avere un blog di marketing digitale con diverse categorie:

https://miblogdigital.com/categoria-a/argomento/

https://miblogdigital.com/categoria-b/argomento/

https://miblogdigital.com/categoria-c/argomento/ Per evitare contenuto duplicato, è necessario indicare quale è quella principale e fare in modo che le altre due si canonicalizzino sull'URL principale.

  • Domini "Non-www" vs "www" e "http" vs "https": Questo è un altro errore a cui dobbiamo prestare attenzione. È possibile che, se non abbiamo specificato ai motori di ricerca quale sia il dominio canonico, possano accedere alle altre versioni e generare contenuto duplicato. Pertanto, da SEO Alive, consigliamo di stabilire quale sarà il tuo dominio canonico e impostare reindirizzamenti 301 alla versione che vuoi sia quella preferita.
  • URL parametrizzati: Questo errore è comune nei siti web di e-commerce dove gli URL con parametri permettono di filtrare per offrire informazioni agli utenti. Supponiamo di avere un sito di vendita di orologi e il seguente URL:

https://www.miorologio.com/orologi/garmin?colore=nero Questa pagina mostrerebbe tutti gli orologi modello "Garmin" in nero.

La possibilità di impostare filtri sulle pagine può essere un grave inconveniente se non gestita correttamente, poiché i motori di ricerca possono mostrare diverse combinazioni di URL:

https://www.miorologio.com/orologi/garmin?colore=nero&tipo=sport

https://www.miorologio.com/orologi/garmin?tipo=sport&colore=nero Pertanto, da SEO Alive ti consigliamo di impostare la versione canonica sulla pagina non filtrata in modo che il resto degli URL parametrizzati conservino la loro autorità di pagina (URL Ratio).

Contenuto duplicato esterno

Il contenuto duplicato esterno si riferisce a qualsiasi contenuto che viene estratto, copiato in tutto o in parte da uno o più siti web di proprietà di webmaster o amministratori diversi.

Questa è una pratica considerata spam agli occhi dei motori di ricerca; pertanto, come abbiamo detto all'inizio dell'articolo, dovrebbe essere evitata a tutti i costi.

Un'altra causa di contenuto duplicato esterno può essere dovuta a strategie di syndication, in cui i siti web inviano traffico ad altri siti per manipolare i motori di ricerca. L'algoritmo di Google è oggi abbastanza intelligente da rilevare questo tipo di pratica.

Come possiamo verificare se il nostro sito web ha contenuti duplicati?

Saper rilevare i contenuti duplicati è di fondamentale importanza nella strategia di contenuti di un sito web. Se non controlliamo questo fattore, corriamo il rischio che le nostre pagine scivolino gradualmente dai primi risultati di Google, poiché Google affina continuamente le SERP alla ricerca di contenuti originali e di alta qualità. Per questo motivo presentiamo un esempio di come potremmo rilevare i contenuti del nostro sito web e diamo alcune strategie per evitare questo tipo di contenuto.

Supponiamo di avere un negozio online (e-commerce) dove abbiamo una versione stampabile di ciascuna delle pagine prodotto. Questo è considerato duplicato poiché ci sono due "versioni" dello stesso contenuto sotto URL diversi:

Pagina di dettaglio del prodotto: https://miosito.com/prodotto3560

Pagina della versione stampabile: https://miosito.com/prodotto3560_print Per evitare questo tipo di contenuto duplicato possiamo applicare le seguenti strategie:

Strategia #1: Uso di reindirizzamenti 301

Se abbiamo ristrutturato il nostro sito web, possiamo impostare reindirizzamenti 301 (reindirizzamenti permanenti) tramite plugin SEO inclusi nei diversi repository dei sistemi di gestione dei contenuti (CMS), o tramite il file .htaccess, per reindirizzare in modo intelligente utenti, bot dei motori di ricerca e altri strumenti con funzionalità di crawler.

Strategia #2: Uso del tag canonical

Il tag rel="canonical" viene utilizzato per dire ai motori di ricerca quale è la pagina originale (versione canonica) e quali pagine sono una copia. In questo modo, lo spider del motore di ricerca concentrerà il suo budget di scansione per l'indicizzazione sulla pagina contrassegnata con questo meta tag.

Per usare il tag canonical, dobbiamo prima scegliere quale pagina vogliamo che sia quella mostrata dai motori di ricerca e aggiungere la seguente riga al codice HTML nella sezione </head> (vediamo un esempio di canonical su una pagina prodotto del sito web di Zalando):

<link rel="canonical" ahref= "https://www.zalando.es/adidas-originals-stripe-circle-camiseta-estampada-white-ad121000k-a11.html"/> Ad esempio, se su un URL mostriamo i dettagli di un prodotto e su un altro URL mostriamo gli stessi dettagli con colori diversi, possiamo dire a Google quale sia l'URL canonico che vogliamo mostrare agli utenti.

Strategia #3: Uso del file robots.txt

Modificando questo file possiamo dire ai bot dei motori di ricerca di non scansionare determinate pagine o sezioni del nostro sito web. Immaginiamo di avere le seguenti pagine prodotto sul nostro sito web:

https://www.miosito.com/categoria/pagina-prodotto.html/

https://www.miosito.com/categoria/pagina-prodotto1.html/ (versione con contenuto duplicato)

Con la seguente direttiva nel file robots.txt:

  • Disallow /pagina-prodotto.1html/

Possiamo evitare che si verifichi contenuto duplicato, oltre, naturalmente, a impostare il primo URL come versione canonica.

Impatto del contenuto duplicato sul posizionamento SEO

Dopo il rilascio della prima versione dell'algoritmo Google Panda nel 2011, che penalizzava i domini con thin content e contenuto duplicato, Matt Cutts ha pubblicato un video nel 2013 su come Google gestisce il contenuto duplicato e quali effetti negativi può avere sulle posizioni di ranking dal punto di vista SEO:



Le conclusioni che possiamo trarre dal video di Matt Cutts sono che, sebbene secondo Google il 25-30% del web sia contenuto duplicato, il motore di ricerca non lo tratta direttamente come spam a meno che l'intento non sia quello di creare o copiare contenuti in modo fraudolento in grandi quantità o manipolare direttamente le posizioni nelle pagine dei risultati di ricerca con tattiche "black hat".

In breve, creare questo tipo di contenuto può generare segnali di scarsa qualità ai motori di ricerca come Google, oltre a costituire una barriera al consolidamento delle metriche di link (come autorità, rilevanza o fiducia) del contenuto, dal punto di vista dei link esterni (backlink) che possono linkare a versioni diverse di quel contenuto.

Strumenti per rilevare contenuto duplicato

Quando si tratta di rilevare contenuto duplicato, esistono innumerevoli strumenti sul mercato che possono semplificare questo compito. Diamo un'occhiata! ?

Strumenti per rilevare contenuto duplicato sul nostro sito web

  • Ahrefs: Con Ahrefs possiamo vedere, all'interno della funzionalità "site audit" e a condizione di aver aggiunto un progetto per l'audit SEO, se il nostro sito web ha contenuto duplicato o no. Per farlo, andremo nella scheda "duplicate content". Una volta lì, ci verrà mostrato un grafico in cui possiamo identificare i possibili errori che dobbiamo correggere:

Funzionalità di contenuto duplicato in Ahrefs
Funzionalità di contenuto duplicato in Ahrefs

Vista della funzionalità "Duplicate Content" di Ahrefs

  • Screaming Frog: Con questo noto software crawler, è anche possibile rilevare contenuti duplicati. Per farlo, dovremo inserire un dominio da scrapare ed esportare i dati "internal" in formato .csv. Una volta nel foglio di calcolo, puoi visualizzare, ordinare e filtrare quali pagine hanno titoli, meta description, header duplicati, ecc.

Consiglio di SEO Alive: Usa regole di formattazione condizionale nel tuo foglio di calcolo per impostare quali URL correggerai in base al livello di contenuto duplicato che hai e all'importanza e rilevanza di ciascuna pagina.

  • Safecont: Questo strumento è davvero interessante poiché si concentra esclusivamente sull'analisi dei contenuti e utilizza il "machine learning" per rilevare e trovare cluster e somiglianze di contenuto. È piuttosto completo, e il suo uso può portarci molti benefici se vogliamo rilevare contenuto duplicato sul nostro sito web.

Strumento di contenuto Safecont
Strumento di contenuto Safecont

Vista della funzionalità "Similarity" di Safecont

Strumenti per rilevare contenuto duplicato da un altro sito web

  • Copyscape: Se vogliamo sapere se un contenuto è duplicato rispetto a un altro sito web, Copyscape è un motore di ricerca specializzato nel rilevare pagine web che plagiano contenuti. In questo motore di ricerca, basta inserire l'URL in cui è ospitato il contenuto che vuoi controllare, e lo strumento restituisce le pagine che condividono quel contenuto, ordinate dal grado più alto a quello più basso.
  • Plagium: Questo è un altro strumento molto simile a Copyscape, con la differenza che dobbiamo inserire il testo da controllare invece dell'URL. Va notato che ha una versione a pagamento, quindi la versione "gratuita" ha un limite fino a 5.000 caratteri da controllare.

Conclusioni

In SEO Alive siamo un'agenzia 100% "White Hat SEO", quindi la nostra raccomandazione alla fine dell'articolo è di evitare sempre il contenuto duplicato. Se rilevi questo tipo di contenuto sul tuo sito web, affidati a tutte le strategie e i consigli che ti abbiamo fornito. ? Ricorda: a Google piacciono i contenuti originali e di alta qualità!

E tu, hai avuto una brutta esperienza con il contenuto duplicato o hai subito qualche penalizzazione a causa sua? Come l'hai risolta? Raccontacelo se vuoi, nella casella dei commenti! Saremo felici di rispondere. Alla prossima!

Autore: David Kaufmann

David Kaufmann

Ho passato gli ultimi oltre 10 anni completamente ossessionato dal SEO — e onestamente, non vorrei fosse altrimenti.

La mia carriera ha fatto un salto di qualità quando ho lavorato come Senior SEO Specialist per Chess.com — uno dei 100 siti più visitati dell'intero Internet. Operare a quella scala, su milioni di pagine, decine di lingue e in una delle SERPs più competitive in assoluto, mi ha insegnato cose che nessun corso o certificazione avrebbe mai potuto. Quell'esperienza ha cambiato la mia prospettiva su come dovrebbe essere davvero un grande SEO — ed è diventata la base di tutto ciò che ho costruito da allora.

Da quell'esperienza è nata SEO Alive — un'agenzia per brand che fanno sul serio con la crescita organica. Non siamo qui per vendere dashboards e report mensili. Siamo qui per costruire strategie che spostino davvero l'ago della bilancia, combinando il meglio del SEO classico con l'entusiasmante nuovo mondo della Generative Engine Optimization (GEO) — facendo in modo che il tuo brand appaia non solo nei link blu di Google, ma anche all'interno delle risposte generate dall'AI che ChatGPT, Perplexity e Google AI Overviews consegnano ogni giorno a milioni di persone.

E poiché non riuscivo a trovare uno strumento che gestisse correttamente entrambi questi mondi, me ne sono costruito uno — SEOcrawl, una piattaforma enterprise di SEO intelligence che unisce rankings, audit tecnici, monitoraggio dei backlinks, salute del crawl e tracciamento della visibilità del brand nell'AI, tutto in un unico posto. È la piattaforma che ho sempre desiderato esistesse.

→ Leggi tutti gli articoli di David
Altri articoli di David Kaufmann

Scopri altri contenuti di questo autore