Fasi ed Elementi del Processo di Crawling

Crawling, spider, bot — sono termini che qualsiasi SEO è abituato a gestire quotidianamente, e hanno un peso essenziale in qualsiasi strategia di posizionamento, perché se questa fase fallisce, fallirà anche il resto.
Vediamo nel dettaglio in cosa consiste un processo di crawling web.
Cosa significa scansionare un sito web?
Prima di proseguire, definiamo il processo di scansione di un sito web, mostrando l'importanza che riveste in qualsiasi tentativo di apparire nei risultati di ricerca di Google.
Il crawling di un sito web si intende come il processo attraverso il quale spider o crawler viaggiano attraverso le diverse pagine di un sito web, raccogliendo tutte le informazioni accessibili, per memorizzarle, elaborarle e successivamente classificarle.
Vale la pena evidenziare alcuni termini fondamentali all'interno della definizione che abbiamo appena esposto:
-
Viaggio: pensa a uno spider, in effetti. Questo simpatico insetto deve passare attraverso quante più pagine possibili per estrarre quante più informazioni possibile. Per andare da una pagina all'altra, lo fa attraverso i link interni che le collegano. Da qui l'importanza di avere un corretto link interno che permetta a questi spider di "scoprire" — se non l'intero — almeno le pagine più rilevanti per noi.
-
Accessibilità: le informazioni devono essere accessibili a questi spider. Ovvero, se in qualche modo stiamo limitando il loro accesso intenzionalmente o per errore, impediremo agli spider di poter elaborare tutto il contenuto, e quindi di comprenderlo e infine classificarlo.
Questo blocco o limitazione del contenuto della pagina può verificarsi in diversi modi, che cercheremo di spiegare più avanti in questo post.
I crawler
Abbiamo parlato di spider, noti anche come crawler o bot. Possiamo definirli come programmi che analizzano i documenti del nostro sito web, ovvero sono come "bibliotecari" che cercano, classificano e organizzano. La loro funzione principale è quindi quella di costruire database. Ne esistono di vari tipi, a seconda del tipo di informazioni che raccolgono. Menzioniamone alcuni dei più comuni.
Googlebot: lo spider incaricato di scansionare i nostri contenuti e categorizzarli all'interno dei risultati organici (SERP). Per i SEO, è il più importante.
All'interno di questo tipo possiamo distinguere alcuni sottotipi:
-
Googlebot (smartphone): versione mobile
-
Googlebot (versione desktop): versione desktop
-
Googlebot Images: incaricato della scansione delle immagini
-
Googlebot News: per le notizie
-
Googlebot Video: ora è il turno dei video
Esempio di un bot identificato nei nostri log:
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Non sono gli unici — ce ne sono altri come Adsbot, Adsense, ecc. Avendo già menzionato quelli rilevanti per il settore SEO, differenziarli dagli altri non è il focus di questo articolo, ma puoi trovare informazioni aggiuntive al seguente link ufficiale di Google.
Fasi del processo di crawling e indicizzazione di Google
Ora che sappiamo cos'è il crawling, chi è incaricato di questa funzione, e abbiamo discusso il processo, esaminiamolo in modo più specifico.
Prima fase: crawling e classificazione
Il processo attraverso il quale le nostre pagine appaiono nei risultati di Google passa attraverso una prima fase di crawling, come abbiamo visto, eseguita dagli spider (crawler), in modo che leggano, interpretino, indicizzino e classifichino i nostri contenuti.
È proprio questa nuova parola che vogliamo analizzare in dettaglio, classificare. Google deve comprendere perfettamente i nostri contenuti, in modo semplice e veloce, perché come vedremo più avanti, Google trascorre una quantità specifica di tempo sul nostro sito web, e in quel tempo deve "comprendere" i nostri contenuti e associarli alle diverse intenzioni di ricerca degli utenti.
Ecco perché nella SEO moderna si sente spesso la parola "Search Intent", poiché Google la prenderà in considerazione in quella classificazione e definirà la posizione che le nostre pagine occupano nei ranking della SERP.
Ecco perché il processo di crawling deve essere pulito, semplice, veloce, senza ostacoli, ecc., in modo che tutto sia chiaro e veniamo classificati correttamente.
Seconda fase: indicizzazione
Non possiamo dimenticare la fase di indicizzazione, che precede la classificazione e gioca anch'essa un ruolo fondamentale, poiché sarà il passo in cui Google aggiunge i nostri contenuti al suo database, ovvero li indicizza.

Bloccare i robot di Google
Abbiamo menzionato in precedenza che ci sono modi in cui potremmo limitare l'accesso di questi spider ai nostri contenuti. Per questo, esiste un elemento di vitale importanza nella SEO noto come robots.txt.
Il file robots.txt è un file di testo che carichiamo sul nostro server, in cui diamo istruzioni precise ai diversi spider per consentire o bloccare loro la scansione di URL del nostro sito. Questo blocco può essere applicato:
-
all'intero dominio
-
a un percorso specifico
-
a un URL specifico
-
o a un insieme di URL che corrispondono a un determinato pattern.
Vediamo un esempio di configurazione di questo file:
User-agent: *
Disallow: /wp-admin/
Allow: wp-admin/admin-ajax.php
Sitemap: /sitemap.xml
Come possiamo vedere, ha una prima riga in cui specifichiamo lo user-agent (il nome del crawler che vogliamo bloccare o consentire, tra quelli che abbiamo visto in precedenza), seguita dai comandi "disallow" per vietare l'ingresso o "allow" per consentirlo.
Nel caso specifico che vediamo, indicando con un * stiamo dicendo "tutti i crawler", senza eccezione. Stiamo vietando loro l'ingresso al percorso /wp-admin/, ma all'interno di quel percorso vogliamo consentire loro l'ingresso a /admin-ajax.php.
Una configurazione errata di questo file può farci bloccare parti importanti dei nostri contenuti. È un errore comune avere l'intero sito web bloccato mentre è in fase di sviluppo, e poi dimenticare di rimuovere quel blocco dopo averlo messo in produzione, rendendolo inaccessibile a Google.
Un altro problema che gli spider di Google potrebbero incontrare nella scansione dei nostri contenuti è il non riuscire a seguire i link interni che abbiamo sul nostro sito web, e quindi non accedere al resto degli URL. Questo accade quando utilizziamo elementi javascript invece di "href" in quei link. Questa pratica è molto comune, poiché l'uso di JS ha molti vantaggi a livello utente, ma se non utilizzato correttamente, e aggiunto ai link interni, Google potrebbe non essere in grado di seguirli.
Nel mondo SEO questo è noto come "link obfuscation". Ad oggi, è un dibattito aperto se Google sia in grado di scansionare e renderizzare correttamente le pagine fatte in JS.
Codici di risposta del server
Per continuare a comprendere bene questo processo, non possiamo trascurare un concetto con cui i SEO devono confrontarsi quotidianamente, i codici di risposta del server.
Prima, abbiamo visto il ciclo con cui Google ci trova, ma come avviene questo? Un utente effettua una ricerca (una query) su Google. Il motore di ricerca va al suo database e mostra i risultati più rilevanti (SERP), in base alla classificazione fatta, per quella ricerca.
Una volta che l'utente vede i diversi risultati (impressioni), clicca su uno di essi, quello che a suo giudizio si adatta meglio a ciò di cui ha bisogno. In quel momento, entra in gioco la richiesta di Google al server dove è ospitato il sito web, affinché "serva" il contenuto.
Quando ciò avviene, la risposta del server viene prodotta attraverso il codice corrispondente. Nominiamo i più rilevanti che, come SEO, dobbiamo prendere in considerazione:
-
200: questo codice di risposta è quello che dice a Google che la pagina esiste, che ha contenuto e che non c'è problema a mostrarla. È il più desiderato dai SEO, purché il contenuto di quella pagina con codice 200 sia ottimale.
-
30x: la famiglia di codici di stato 30x corrisponde ai redirect. I più notevoli sono 301 (permanente), 302 e 307 (temporanei). Sostanzialmente dicono a Google "ehi, questo URL A che hai richiesto non è più questo, è quest'altro URL B". Ce ne sono di più, ma non sono il focus del concetto che stiamo sviluppando. È importante sapere che, come SEO, quelli preferiti sono i 301, che trasferiscono tutta l'autorità.
Lettura consigliata: Tutorial sui redirect 301
-
40X: codici di errore. I meno desiderati dai SEO. Il più comune è il famoso 404. Quando questo codice appare, stiamo dicendo a Google in risposta alla sua richiesta di un URL che non esiste più ed è quindi un errore.
-
410: abbiamo voluto distinguere questo dalla famiglia 40x per il suo valore SEO. Quando usiamo questo codice, in risposta a una richiesta del server di Google per un URL, gli stiamo dicendo che è "andato per sempre". È interessante perché, a differenza del 404, Google capisce che non sarà mai più lì e smetterà di provare a scansionarlo, mentre con il 404, lo scansionerà di nuovo pensando che potremmo voler sistemarlo.
-
50x: questo tipo di risposta è legato agli errori del server. Quando la nostra macchina fallisce per qualche motivo, e Google cerca di richiederci il contenuto di qualche URL, se il server fallisce, restituisce un codice di stato 505.
Crawl Budget
A questo punto del post, dobbiamo ancora affrontare un termine che è diventato popolare un paio di anni fa nel mondo SEO, noto come crawl budget.
Il crawl budget si riferisce al tempo che gli spider di Google impiegano per scansionare un sito web e tutti i suoi URL. È, come abbiamo detto in precedenza, un tempo finito. Da qui l'importanza di avere il nostro sito web ottimizzato, per renderle più facile vedere le pagine più rilevanti del nostro sito in quel tempo.
Questo tempo che i crawler trascorrono attraverso il nostro sito web non è un valore fisso, crescerà o diminuirà a seconda di aspetti come la frequenza con cui aggiorniamo i contenuti, l'autorità del nostro dominio (popolarità), ecc.
Maggiore è la qualità del nostro sito web, maggiore è l'autorità e più contenuti freschi, più Google ci considererà rilevanti e assegnerà più budget alla nostra scansione.
Con programmi di crawling come Screaming Frog, eseguiamo scansioni idealmente simulate del nostro sito web, ovvero come se gli spider avessero tutto il tempo del mondo per attraversare ognuno dei nostri URL.
Ma non è così che funziona quando parliamo di Googlebot — piuttosto, ogni volta che Google visita il nostro sito web, visiterà alcuni URL più di altri. In effetti, potrebbero esserci alcuni che non visita affatto. Lo analizzeremo con quelli che sono noti come log del server, (registri di quali URL Google ha scansionato, con quale frequenza lo ha fatto e quante volte in un dato periodo).
Fin qui, tutta l'analisi riguardante la comprensione di cos'è il crawling e dei diversi elementi che fanno parte del sistema di scansione di Google.
Domande o suggerimenti? Come sempre... ci piacerebbe avere tue notizie!
Autore: David Kaufmann

Ho passato gli ultimi oltre 10 anni completamente ossessionato dal SEO — e onestamente, non vorrei fosse altrimenti.
La mia carriera ha fatto un salto di qualità quando ho lavorato come Senior SEO Specialist per Chess.com — uno dei 100 siti più visitati dell'intero Internet. Operare a quella scala, su milioni di pagine, decine di lingue e in una delle SERPs più competitive in assoluto, mi ha insegnato cose che nessun corso o certificazione avrebbe mai potuto. Quell'esperienza ha cambiato la mia prospettiva su come dovrebbe essere davvero un grande SEO — ed è diventata la base di tutto ciò che ho costruito da allora.
Da quell'esperienza è nata SEO Alive — un'agenzia per brand che fanno sul serio con la crescita organica. Non siamo qui per vendere dashboards e report mensili. Siamo qui per costruire strategie che spostino davvero l'ago della bilancia, combinando il meglio del SEO classico con l'entusiasmante nuovo mondo della Generative Engine Optimization (GEO) — facendo in modo che il tuo brand appaia non solo nei link blu di Google, ma anche all'interno delle risposte generate dall'AI che ChatGPT, Perplexity e Google AI Overviews consegnano ogni giorno a milioni di persone.
E poiché non riuscivo a trovare uno strumento che gestisse correttamente entrambi questi mondi, me ne sono costruito uno — SEOcrawl, una piattaforma enterprise di SEO intelligence che unisce rankings, audit tecnici, monitoraggio dei backlinks, salute del crawl e tracciamento della visibilità del brand nell'AI, tutto in un unico posto. È la piattaforma che ho sempre desiderato esistesse.
Scopri altri contenuti di questo autore

