Crawl Budget: què és i com optimitzar-lo

Crawl Budget: què és i com optimitzar-lo
David Kaufmann
Tutorials SEO
8 min read

Quan parlem de SEO, sempre venen al cap coses com "paraules clau", "metadades", encapçalaments i contingut. Però el SEO tècnic és una altra cara del SEO que també és molt important i s'ha de tenir en compte a la nostra estratègia de posicionament web.

Dins d'aquest món, trobem el concepte de crawl budget. Analitzem-lo en profunditat!

Què és el Crawl Budget?

El crawl budget és el temps que Google dedica quan visita un web. Aquest pressupost afecta el posicionament i indexació d'un lloc, i per això és clau prestar atenció al crawl budget del nostre web. Per aconseguir un crawl budget òptim, els principis clau són:

  • accessibilitat

  • velocitat

  • qualitat

  • autoritat

Què és un crawler?

Un crawler és l'aranya o bot encarregat de rastrejar webs i les seves URLs automàticament. Aquest bot emmagatzema i classifica el contingut que després es mostra als resultats de cerca als usuaris. Es diu Googlebot, ja que som a Espanya i estem parlant que el cercador més important és Google. Dit això, és essencial que Google trobi el teu web i sàpiga que existeixes.

Com afecta el Crawl Budget al meu web?

Un crawl budget optimitzat impulsarà un millor posicionament del teu web als cercadors. A més d'ajudar a la correcta indexació de totes les pàgines importants. No podem oblidar el crawl budget a la nostra estratègia de posicionament SEO, perquè el temps que Google inverteix a conèixer el nostre web és molt important.

Com funciona?

Les aranyes de Google rastregen el teu web, i si el crawl budget és petit és possible que abandonin el teu lloc sense rastrejar tot el contingut nou. Assignen el pressupost basat en dos factors:

  • Límit de rastreig: Indica el rastreig màxim que un web suporta i quines són les preferències.

  • Demanda de rastreig: Indica la freqüència amb què el web hauria de ser rastrejat basant-se en la popularitat del lloc i la freqüència amb què s'actualitza.

Saps amb quina freqüència es rastreja el teu web?

Gràcies a Google Search Console podem veure les estadístiques de rastreig dels últims tres mesos. En elles podem veure les pàgines que rastreja per dia, els kilobytes descarregats per dia i el temps de descàrrega d'una pàgina en mil·lisegons. Les dades tenen una mitjana classificada com alta, normal i baixa. Aquestes dades són molt il·lustratives si tenim en compte el nombre total de pàgines del nostre web i la mitjana de dades de rastreig per dia. Amb això podem saber si estem dins de la norma o si, al contrari, necessitem millorar el crawl budget.

Estadístiques de rastreig
Estadístiques de rastreig

És perjudicial un crawl budget més petit?

Tenir un crawl budget més petit té inconvenients:

  • Dificultat perquè el contingut posicioni ràpidament, ja que Google no sap que existeix i per tant no el rastreja ni l'indexa.

  • Les zones llunyanes del web seran zones delicades si el crawl budget és petit. El bot no tindrà temps de passar per les pàgines o seccions que estan més allunyades al web.

  • Les optimitzacions de SEO on-page que s'hagin fet no es rastrejaran, i per tant, les millores no seran visibles.

  • Si un altre web indexa i posiciona el mateix contingut abans que el nostre web, Google pot identificar que hem copiat el contingut i penalitzar-nos per això.

  • Molt crawl budget no garanteix res si no l'optimitzem correctament.

Quin és el comportament de les aranyes?

Per saber quines pàgines visita Google i en quines està invertint el seu temps rastrejant, i si coincideixen o no amb les nostres prioritats en termes de posicionament SEO, hem de consultar la informació proporcionada pels logs.

Els logs són peticions al servidor que s'emmagatzemen i a les quals podem accedir per saber què visita Googlebot i què no. Exportar i organitzar aquest document pot ser més fàcil amb ScreamingFrog Log File Analyser.

ScreamingFrog Log File Analyser
ScreamingFrog Log File Analyser

Anàlisi de logs amb ScreamingFrog Log File Analyser
Anàlisi de logs amb ScreamingFrog Log File Analyser

Com optimitzar el nostre Crawl Budget?

Hem de tenir clares les nostres URLs clau, per al posicionament web i per al negoci, per aconseguir que siguin les més rastrejades. És inútil invertir el crawl budget en pàgines que no són realment importants, com pàgines amb paràmetres, paginacions, etc.

Serà crucial no tenir problemes de contingut duplicat, o URLs que canibalitzin la mateixa paraula clau. El contingut de baixa qualitat també és perjudicial perquè els bots passaran temps recorrent-lo.

Per optimitzar-lo, hem d'emfatitzar les àrees següents:

WPO (Web Performance Optimization)

Optimitza la velocitat de càrrega o WPO perquè Google no trigui massa a rastrejar el teu web. A Google li agrada el codi net i la menor quantitat possible de fitxers per facilitar la càrrega i aconseguir una experiència d'usuari òptima en navegar.

Millores WPO per al crawl budget
Millores WPO per al crawl budget

No oblidis:

  • Reduir i comprimir fitxers CSS i JS

  • Vigila el pes i la mida de les imatges, i especifica la seva mida

  • Tria Nginx com a servidor per millorar el posicionament mitjançant el caching.

Enllaços i redireccions

El bot rastrejarà tot el contingut del teu web, i també seguirà tots i cadascun dels enllaços de cada pàgina. Per afavorir un correcte rastreig, has de tenir en compte:

  • Hauries d'evitar redireccions innecessàries, ja que Google es perdrà entre elles.

  • Les cadenes de redireccions són redireccions de moltes URLs que faran que Google es perdi entre elles sense arribar a les URLs de destinació.

Cadenes de redireccions o bucles de redirecció
Cadenes de redireccions o bucles de redirecció

  • Enllaços trencats (pàgines enllaçades amb un estat 404 not found) en l'enllaçat intern.

Screaming Frog i Search Console seran els nostres aliats especials per detectar redireccions defectuoses i tot tipus d'URLs amb errors.

Redireccions defectuoses amb Search Console
Redireccions defectuoses amb Search Console

Enllaçat intern

L'enllaçat intern serà crucial cuidar-lo per no excedir-se amb l'enllaçat i fer que els bots es perdin rastrejant les URLs.

  • Hem de reforçar les àrees més importants i deixar les menys importants menys enllaçades. Per aquest motiu, hi haurà pàgines com la política de privacitat o la pàgina de cookies que no convindrà enllaçar a cada pàgina des del menú principal o el peu de pàgina.

Codi

  • És recomanable incloure HTML tant com sigui possible, per facilitar el rastreig i la indexació als bots. És ben sabut que Google renderitza i indexa pàgines amb JavaScript amb dificultat.

XML Sitemap

El sitemap és un dels fitxers fonamentals per a Google perquè garanteix el correcte rastreig i indexació d'un web.

  • Com més organitzat, millor. Organitza el sitemap per verticals o carpetes.

  • Especifica un nom que descrigui el que conté. Evita noms massa genèrics com "sitemap 1"

Recomanacions per al XML Sitemap
Recomanacions per al XML Sitemap

  • Un sitemap per a imatges, vídeos i per idioma.

  • Les URLs que incloguis han de ser sempre les més importants, així que no incloguis pàgines amb redireccions, sense etiqueta canonical, pàgines amb filtres, paginacions, etc. Tampoc incloguis pàgines poc rellevants, com la política de privacitat o cookies.

Robots txt

Juntament amb el sitemap, el fitxer robots.txt és un dels fitxers clau en la indexació i el rastreig d'un web. Així que no oblidis optimitzar-lo al màxim:

  • Referenciant el sitemap XML per facilitar el rastreig al màxim.

  • No bloquegis carpetes importants. Per a això, pots provar el comprovador de robots.txt de Search Console i comprovar si estàs bloquejant o no alguna carpeta o pàgina important.

Comprovador de robots.txt de Search Console
Comprovador de robots.txt de Search Console

  • No bloquegis pàgines amb redireccions o canonical

  • Permet l'accés a JS i CSS

Etiquetes Hreflang

  • Aquests atributs complets ajudaran Google a identificar en quins idiomes i en quants està disponible el web.

Metarobots noindex i X-Robots-Tag

Aquestes directives indiquen al bot quines pàgines o carpetes no s'han d'indexar, però no impedeixen l'accés al rastreig.

  • Les etiquetes amb la directiva metarobots "noindex" consumeixen crawl budget, així que és vital no abusar-ne.

  • La capçalera X-Robots s'inclou a la capçalera a nivell de codi i pot indicar diverses directives a Google, incloent-hi no indexar la pàgina.

Fonts consultades:

  • José Facchin: What is the crawl Budget, how important is it for Google and how can you improve it?

  • SEOCOM Agency: What is the Crawl Budget?

  • Big SEO Agency: What is the Crawl Budget? Keys to optimize it

  • ContentKing: Crawl budget in SEO: reference guide

  • Mi posicionamiento web: What is the Crawl Budget?

  • Luis Villanueva: What is the Crawl Budget?

  • Neil Patel: How to Use Google's Crawl Budget to Improve Your Website's SEO

  • Search Engine Journal: 7 tips to optimize Crawl Budget for SEO

  • Webmasters Google Blog: What crawl Budget means for Googlebot?

  • DeepCrawl: What is crawl budget?

Автор: David Kaufmann

David Kaufmann

He passat els últims 10+ anys completament obsessionat amb el SEO — i sincerament, no ho canviaria per res.

La meva carrera va fer un salt qualitatiu quan vaig treballar com a especialista SEO sènior a Chess.com — un dels 100 webs més visitats de tot Internet. Operar a aquesta escala em va ensenyar coses que cap curs ni certificació podrien transmetre.

D'aquella experiència vaig fundar SEO Alive — una agència per a marques que es prenen seriosament el creixement orgànic. I com que no trobava cap eina que gestionés bé tant el SEO clàssic com el món de la IA, vaig construir SEOcrawl. Si busques un partner SEO sènior que s'estimi aquest sector de debò — m'encantarà parlar amb tu!

→ Читайте всі статті від David
Більше статей: David Kaufmann

Дізнайтесь більше контенту цього автора