robots.txt: guida completa alla configurazione

Stanco di sentir parlare di robots.txt senza sapere di cosa parla la gente? Non preoccuparti, oggi ti portiamo la soluzione al tuo problema. In questo post faremo del nostro meglio per spiegare cos'è il robots.txt, come configurarlo (specialmente in WordPress) e quale impatto può avere sulla SEO del nostro progetto.
Mettiamoci al lavoro!
Cos'è il robots.txt e a cosa serve?
Il robots.txt è semplicemente un file ospitato nella root del tuo sito che ti permette di impedire a determinati bot (come quelli di Google o Bing) di visitare il tuo sito o parti di esso.
ATTENZIONE: è importante sapere che si tratta di un protocollo e come regola generale tutti i bot „buoni" lo rispettano (GoogleBot, BingBot, Semrush, ...) ma qualsiasi bot con cattive intenzioni può ignorarlo, come Screaming Frog spuntando questa opzione:

Perché il file robots.txt è importante per la SEO?
Come abbiamo detto prima, tutti i bot buoni (come GoogleBot) rispettano questo protocollo, quindi quello che possiamo fare è usare questo file per guidare Google attraverso il nostro sito.
Cosa? Cosa intendi? Guidare Google con il robots.txt?
Sì, non preoccuparti, lo spiegheremo con un esempio così diventerà molto più chiaro:
Immagina di avere sul tuo sito un'area privata a cui possono accedere solo gli utenti registrati, e come ben sappiamo, Google non può accedere a nessun sito che richieda login (ancora...).
Quindi, non avrebbe senso che Google non sprechi il nostro crawl budget scansionando pagine che non hanno valore per lui?
Esatto! Uno degli usi più importanti del robots.txt è bloccare percorsi che hanno poco valore per Google e, in questo modo, farlo concentrare sulle pagine importanti del nostro sito. Per questo motivo, il robots.txt dovrebbe essere uno dei pilastri da tenere a mente nella nostra strategia SEO.
Questo è solo un esempio tra le migliaia di cose che possiamo fare con questo file. Altri esempi includono indicare la nostra sitemap, ridurre l'intervallo di crawling, bloccare la scansione di risorse, ...
Come creare il file robots.txt
Bene... mettiamoci al lavoro!
Creare questo file è davvero semplice: basta prendere il tuo editor di testo (Notepad su Windows o TextEdit su Mac) o usare uno online e dopo aver redatto il tuo robots.txt, esportarlo come file txt.
Una volta che lo abbiamo, non resta che chiamarlo „robots.txt" e caricarlo nella root del tuo sito tramite il pannello del server o via FTP.
Per verificare se è stato caricato correttamente, basta aggiungere „/robots.txt" al tuo dominio, ad esempio https://seocrawl.com/robots.txt
ATTENZIONE: Fai attenzione alla cache, è meglio visualizzarlo in incognito ;)
E se ho WordPress?
Se hai WordPress è più semplice perché i migliori plugin SEO come Rank Math o Yoast includono un add-on integrato per modificare il robots.txt direttamente.
Nel caso di Rank Math lo troverai in Rank Math > General Settings > Edit robots.txt

Nel caso di Yoast dovremo andare in SEO > Tools > File Editor
In questo modo puoi facilmente modificare o creare il file senza dover eseguire nessuno dei passaggi spiegati sopra.
Comandi
Di seguito esamineremo molti dei comandi disponibili insieme ai relativi esempi:
Bloccare la scansione del tuo sito
User-agent: * Disallow: /
NOTA: Se stai sviluppando il tuo sito e non vuoi che nessun bot entri, legga e indicizzi i tuoi contenuti, questa regola funziona benissimo.
Bloccare la scansione di una pagina
User-agent: * Disallow: /url-della-pagina-che-non-voglio-scansionare
Bloccare la scansione di una cartella
User-agent: * Disallow: /cartella/
Consentire l'accesso a una pagina
User-agent: * Allow: /pagina
Bloccare una cartella e consentire una pagina in quella cartella
User-agent: * Disallow: /cartella/ Allow: /cartella/pagina
Indicare la sitemap
Sitemap: https://domain.com/sitemap.xml
Dare ordini a bot specifici
In questo caso ci soffermeremo un po' di più. Se l'hai notato, la maggior parte delle direttive precedenti iniziavano con:
User-agent: *
Quel „*" si riferisce a tutti i bot. Cioè, tutte le direttive dopo quella riga si applicano a tutti i bot. Se vogliamo inviare ordini specifici a determinati bot, dovremo modificarlo come segue:
User-agent: Googlebot Se vogliamo riferirci al bot di Google
User-agent: Bingbot Se vogliamo riferirci al bot di Bing
User-agent: DuckDuckBot Se vogliamo riferirci al bot di DuckDuckGo
Tutto ciò che devi fare è scoprire come si chiama il bot a cui vuoi inviare un ordine e nominarlo come ti abbiamo appena mostrato.
Verificare e testare il file robots.txt
Ora che hai finito di „tunare" il tuo robots per lasciarlo completamente ottimizzato e personalizzato per il tuo sito, non resta che testarlo.
Testarlo? A che scopo?
Beh, testalo per assicurarti di non aver pasticciato qualche riga e che funzioni davvero per bloccare le parti del sito che vogliamo bloccare.
Per questo consigliamo di usare questo strumento.

Una volta dentro basta:
-
Inserire l'URL per il quale vuoi verificare se la scansione è consentita
-
Scegliere lo User Agent
-
Cliccare TEST
Subito dopo, l'intero nostro file robots.txt sarà caricato e sotto ci dirà se l'accesso è consentito o meno.

In questo caso, come possiamo vedere, ci dà un risultato positivo, ma se inserissimo un URL non consentito, evidenzierebbe anche la riga che lo blocca:

Inoltre, questo strumento ci permette di modificare il nostro file robots.txt direttamente da lì per apportare le modifiche di cui abbiamo bisogno affinché il risultato corrisponda al nostro obiettivo. Una volta modificato e testato, basta applicare quelle nuove modifiche al nostro robots.
Bonus: rendi il tuo robots.txt indimenticabile
Ti abbiamo mostrato un sacco di righe di codice che funzionano per i bot, ma puoi anche inserire commenti iniziando la riga con un „#". Cioè, tutto ciò che inizia con „#" verrà ignorato dai bot. Questo apre un mondo di possibilità e battute interne. Per questo motivo ti incoraggiamo a dare un'occhiata al robots.txt di windupschool, pccomponentes o Minube, sicuramente troverai una sorpresa.

Conclusione
Come hai visto, il file robots.txt ha molto da offrire e richiede anche molta cura, perché una direttiva mal posizionata può bloccare la scansione del tuo sito.
Speriamo che questa guida ti sia utile e, per qualsiasi domanda, ci vediamo nei commenti.
Autore: David Kaufmann

Ho passato gli ultimi oltre 10 anni completamente ossessionato dal SEO — e onestamente, non vorrei fosse altrimenti.
La mia carriera ha fatto un salto di qualità quando ho lavorato come Senior SEO Specialist per Chess.com — uno dei 100 siti più visitati dell'intero Internet. Operare a quella scala, su milioni di pagine, decine di lingue e in una delle SERPs più competitive in assoluto, mi ha insegnato cose che nessun corso o certificazione avrebbe mai potuto. Quell'esperienza ha cambiato la mia prospettiva su come dovrebbe essere davvero un grande SEO — ed è diventata la base di tutto ciò che ho costruito da allora.
Da quell'esperienza è nata SEO Alive — un'agenzia per brand che fanno sul serio con la crescita organica. Non siamo qui per vendere dashboards e report mensili. Siamo qui per costruire strategie che spostino davvero l'ago della bilancia, combinando il meglio del SEO classico con l'entusiasmante nuovo mondo della Generative Engine Optimization (GEO) — facendo in modo che il tuo brand appaia non solo nei link blu di Google, ma anche all'interno delle risposte generate dall'AI che ChatGPT, Perplexity e Google AI Overviews consegnano ogni giorno a milioni di persone.
E poiché non riuscivo a trovare uno strumento che gestisse correttamente entrambi questi mondi, me ne sono costruito uno — SEOcrawl, una piattaforma enterprise di SEO intelligence che unisce rankings, audit tecnici, monitoraggio dei backlinks, salute del crawl e tracciamento della visibilità del brand nell'AI, tutto in un unico posto. È la piattaforma che ho sempre desiderato esistesse.
Scopri altri contenuti di questo autore

