Crawl budget: cos'è e come ottimizzarlo

Crawl budget: cos'è e come ottimizzarlo
David Kaufmann
Tutorial SEO
8 min read

Quando si parla di SEO, vengono sempre in mente cose come "keyword", "metadati", heading e contenuti. Ma la SEO tecnica è un altro lato della SEO altrettanto importante e va tenuto in considerazione nella nostra strategia di posizionamento web.

All'interno di questo mondo troviamo il concetto di crawl budget. Analizziamolo a fondo!

Cos'è il crawl budget?

Il crawl budget è il tempo che Google dedica quando visita un sito. Questo budget influisce sul posizionamento e sull'indicizzazione di un sito ed è per questo che è fondamentale prestare attenzione al crawl budget del nostro sito. Per ottenere un crawl budget ottimale, i principi chiave sono:

  • accessibilità

  • velocità

  • qualità

  • autorità

Cos'è un crawler?

Un crawler è il ragno o bot incaricato di scansionare i siti e i loro URL in modo automatico. Questo bot memorizza e classifica i contenuti che successivamente vengono mostrati agli utenti nei risultati di ricerca. Si chiama Googlebot, dato che parliamo del motore di ricerca più importante, Google. Detto questo, è essenziale che Google trovi il tuo sito e sappia che esisti.

Come incide il crawl budget sul mio sito?

Un crawl budget ottimizzato favorirà un miglior posizionamento del tuo sito nei motori di ricerca, oltre ad aiutare la corretta indicizzazione di tutte le pagine importanti. Non possiamo dimenticarci del crawl budget nella nostra strategia di posizionamento SEO, perché il tempo che Google investe per conoscere il nostro sito è molto importante.

Come funziona?

Gli spider di Google scansionano il tuo sito e, se il crawl budget è ridotto, è possibile che lascino il sito senza aver effettuato il crawling di tutti i nuovi contenuti. Lo assegnano in base a due fattori:

  • Crawl limit (limite di scansione): indica il crawl massimo che un sito può sostenere e quali sono le preferenze.

  • Crawl demand (domanda di scansione): indica la frequenza con cui un sito dovrebbe essere scansionato in base alla popolarità del sito e alla frequenza con cui viene aggiornato.

Sai con che frequenza viene scansionato il tuo sito?

Grazie a Google Search Console possiamo vedere le statistiche di scansione degli ultimi tre mesi. Lì possiamo vedere le pagine scansionate al giorno, i kilobyte scaricati al giorno e il tempo di download di una pagina in millisecondi. I dati hanno una media classificata come alta, normale e bassa. Questi dati sono molto illustrativi se teniamo conto del numero totale di pagine del nostro sito e dei dati medi di scansione al giorno. Con essi possiamo sapere se siamo nella norma o se, al contrario, dobbiamo migliorare il crawl budget.

Statistiche di scansione
Statistiche di scansione

Un crawl budget ridotto è dannoso?

Avere un crawl budget ridotto ha alcuni svantaggi:

  • Difficoltà per i contenuti a posizionarsi rapidamente, perché Google non sa che esistono e quindi non li scansiona né li indicizza.

  • Le aree più lontane del sito saranno aree delicate se il crawl budget è piccolo. Il bot non avrà tempo di passare per le pagine o le sezioni più periferiche del sito.

  • Le ottimizzazioni SEO on-page realizzate non verranno scansionate e quindi i miglioramenti non saranno visibili.

  • Se un altro sito indicizza e posiziona lo stesso contenuto prima del nostro, Google potrebbe ritenere che siamo stati noi a copiare il contenuto e penalizzarci per questo.

  • Tanto crawl budget non garantisce nulla se non lo ottimizziamo correttamente.

Qual è il comportamento degli spider?

Per sapere quali pagine Google visita e in quali sta investendo il suo tempo per il crawling, e se coincidono o meno con le nostre priorità in termini di posizionamento SEO, dobbiamo consultare le informazioni fornite dai log.

I log sono richieste al server che vengono memorizzate e a cui possiamo accedere per sapere cosa Googlebot visita e cosa no. Esportare e organizzare questo documento può essere più semplice con ScreamingFrog Log File Analyser.

ScreamingFrog Log File Analyser
ScreamingFrog Log File Analyser

Analisi dei log con ScreamingFrog Log File Analyser
Analisi dei log con ScreamingFrog Log File Analyser

Come ottimizzare il nostro crawl budget?

Dobbiamo avere ben chiare le nostre URL chiave, sia per il posizionamento web sia per il business, in modo che siano quelle più scansionate. È inutile investire il crawl budget in pagine che non sono davvero importanti, come pagine con parametri, paginazioni, ecc.

Sarà fondamentale non avere problemi di contenuto duplicato, né URL che cannibalizzano la stessa keyword. Anche i contenuti di bassa qualità sono dannosi, perché i bot perderanno tempo a passarci sopra.

Per ottimizzarlo dobbiamo dare risalto alle seguenti aree:

WPO (Web Performance Optimization)

Ottimizza la velocità di caricamento o WPO in modo che Google non impieghi troppo tempo a effettuare il crawling del tuo sito. A Google piacciono il codice pulito e il minor numero possibile di file per facilitare il caricamento e ottenere un'esperienza utente ottimale durante la navigazione.

Miglioramenti WPO per il crawl budget
Miglioramenti WPO per il crawl budget

Non dimenticare di:

  • Ridurre e comprimere file CSS e JS

  • Tenere d'occhio il peso e le dimensioni delle immagini, e specificare le loro dimensioni

  • Scegliere Nginx come server per migliorare il posizionamento tramite il caching.

Il bot effettuerà il crawling di tutti i contenuti del tuo sito e seguirà anche tutti i link presenti su ogni pagina. Per favorire un crawling corretto devi tenere conto di questo:

  • Devi evitare reindirizzamenti non necessari, perché Google si perderà nel mezzo.

  • Le catene di reindirizzamenti sono reindirizzamenti di molti URL che faranno perdere Google senza che raggiunga le URL di destinazione.

Catene di reindirizzamenti o redirect loop
Catene di reindirizzamenti o redirect loop

  • I link rotti (pagine linkate con stato 404 not found) nel linking interno.

Screaming Frog e Search Console saranno i nostri alleati speciali nell'individuare reindirizzamenti difettosi e ogni tipo di URL con errori.

Reindirizzamenti difettosi con Search Console
Reindirizzamenti difettosi con Search Console

Linking interno

Il linking interno sarà cruciale da curare per non esagerare con i link e far sì che i bot non si perdano nello scansionare gli URL.

  • Dobbiamo rinforzare le aree più importanti e lasciare meno linkate quelle meno importanti. Per questo motivo ci saranno pagine come la privacy policy o la pagina dei cookie che non sarà conveniente linkare in ogni pagina dal menu principale o dal footer.

Codice

  • È consigliabile includere quanto più HTML possibile, per facilitare scansione e indicizzazione ai bot. È risaputo che Google renderizza e indicizza con difficoltà le pagine in JavaScript.

Sitemap XML

La sitemap è uno dei file fondamentali per Google perché garantisce il corretto crawling e l'indicizzazione di un sito.

  • Più è organizzata, meglio è. Organizza la sitemap per verticali o cartelle.

  • Specifica un nome che descriva ciò che contiene. Evita nomi troppo generici come "sitemap 1"

Raccomandazioni per la sitemap XML
Raccomandazioni per la sitemap XML

  • Una sitemap per immagini, video e per lingua.

  • Le URL incluse devono essere sempre le più importanti, quindi non includere pagine con reindirizzamenti, senza tag canonico, pagine con filtri, paginazioni, ecc. Inoltre, non includere pagine poco rilevanti come privacy policy o cookie.

Robots.txt

Insieme alla sitemap, il file robots.txt è uno dei file chiave nell'indicizzazione e nel crawling di un sito. Quindi non dimenticare di ottimizzarlo il più possibile:

  • Facendo riferimento alla sitemap XML per facilitare il più possibile il crawling.

  • Non bloccare cartelle importanti. Per questo puoi provare il tester robots.txt di Search Console e verificare se stai bloccando o meno qualche cartella o pagina importante.

Tester robots.txt di Search Console
Tester robots.txt di Search Console

  • Non bloccare pagine con reindirizzamenti o canonical

  • Permetti l'accesso a JS e CSS

Tag hreflang

  • Questi attributi completi aiuteranno Google a identificare in quali lingue e in quante è disponibile il sito.

Metarobots noindex e X-Robots-Tag

Queste direttive dicono al bot quali pagine o cartelle non devono essere indicizzate, ma non impediscono l'accesso al crawl.

  • I tag con la direttiva metarobots "noindex" consumano crawl budget, quindi è vitale non abusarne.

  • L'header X-Robots si include nell'header a livello di codice e può indicare diverse direttive a Google, tra cui non indicizzare la pagina.

Fonti consultate:

  • José Facchin: Cos'è il crawl budget, quanto è importante per Google e come puoi migliorarlo?

  • SEOCOM Agency: Cos'è il crawl budget?

  • Big SEO Agency: Cos'è il crawl budget? Le chiavi per ottimizzarlo

  • ContentKing: Crawl budget in SEO: guida di riferimento

  • Mi posicionamiento web: Cos'è il crawl budget?

  • Luis Villanueva: Cos'è il crawl budget?

  • Neil Patel: Come usare il crawl budget di Google per migliorare la SEO del tuo sito

  • Search Engine Journal: 7 consigli per ottimizzare il crawl budget per la SEO

  • Webmasters Google Blog: Cosa significa crawl budget per Googlebot?

  • DeepCrawl: Cos'è il crawl budget?

Autore: David Kaufmann

David Kaufmann

Ho passato gli ultimi oltre 10 anni completamente ossessionato dal SEO — e onestamente, non vorrei fosse altrimenti.

La mia carriera ha fatto un salto di qualità quando ho lavorato come Senior SEO Specialist per Chess.com — uno dei 100 siti più visitati dell'intero Internet. Operare a quella scala, su milioni di pagine, decine di lingue e in una delle SERPs più competitive in assoluto, mi ha insegnato cose che nessun corso o certificazione avrebbe mai potuto. Quell'esperienza ha cambiato la mia prospettiva su come dovrebbe essere davvero un grande SEO — ed è diventata la base di tutto ciò che ho costruito da allora.

Da quell'esperienza è nata SEO Alive — un'agenzia per brand che fanno sul serio con la crescita organica. Non siamo qui per vendere dashboards e report mensili. Siamo qui per costruire strategie che spostino davvero l'ago della bilancia, combinando il meglio del SEO classico con l'entusiasmante nuovo mondo della Generative Engine Optimization (GEO) — facendo in modo che il tuo brand appaia non solo nei link blu di Google, ma anche all'interno delle risposte generate dall'AI che ChatGPT, Perplexity e Google AI Overviews consegnano ogni giorno a milioni di persone.

E poiché non riuscivo a trovare uno strumento che gestisse correttamente entrambi questi mondi, me ne sono costruito uno — SEOcrawl, una piattaforma enterprise di SEO intelligence che unisce rankings, audit tecnici, monitoraggio dei backlinks, salute del crawl e tracciamento della visibilità del brand nell'AI, tutto in un unico posto. È la piattaforma che ho sempre desiderato esistesse.

→ Leggi tutti gli articoli di David
Altri articoli di David Kaufmann

Scopri altri contenuti di questo autore