Fases i elements del procés de rastreig

Fases i elements del procés de rastreig
David Kaufmann
Tutorials SEO
10 min read

Crawling, aranyes, bots — són termes que qualsevol SEO està acostumat a manejar dia a dia, i tenen un pes essencial en qualsevol estratègia de posicionament, perquè si aquesta fase falla, la resta també.

Vegem en detall en què consisteix un procés de rastreig web.

Què significa rastrejar un web?

Abans d'avançar, definim el procés de rastrejar un web, mostrant la importància que té dins de qualsevol intent d'aparèixer als resultats de cerca de Google.

Rastrejar un web s'entén com el procés mitjançant el qual les aranyes o crawlers recorren les diferents pàgines d'un web, recopilant tota la informació accessible, per emmagatzemar-la, processar-la i posteriorment classificar-la.

Val la pena destacar alguns termes fonamentals dins de la definició que acabem de plantejar:

  • Recorregut: Pensa de fet en una aranya. Aquest amable insecte ha de passar per tantes pàgines com sigui possible per extreure tanta informació com pugui. Per anar d'una pàgina a una altra, ho fa a través dels enllaços interns que les connecten. Per això la importància de tenir un correcte enllaçat intern que permeti a aquestes aranyes "descobrir" — si no la totalitat — almenys les pàgines més rellevants per a nosaltres.

  • Accessibilitat: La informació ha de ser accessible per a aquestes aranyes. És a dir, si d'alguna manera estem limitant-ne l'accés intencionadament o per error, estarem evitant que les aranyes puguin processar tot el contingut, i per tant entendre'l i finalment classificar-lo.

Aquest bloqueig o limitació del contingut de la pàgina pot ocórrer de diferents maneres, que intentarem explicar més endavant en aquest article.

Els crawlers

Hem parlat d'aranyes, també conegudes com a crawlers o bots. Els podem definir com a programes que analitzen els documents del nostre web, és a dir, són com "bibliotecaris" que cerquen, classifiquen i organitzen. La seva funció principal és per tant construir bases de dades. N'hi ha de diversos tipus, segons el tipus d'informació que recopilen. Mencionem alguns dels més comuns.

Googlebot: L'aranya encarregada de rastrejar el nostre contingut i categoritzar-lo dins dels resultats orgànics (SERPs). Per als SEOs, és la més important.

Dins d'aquest tipus podem distingir alguns subtipus:

  • Googlebot (smartphones): Versió mòbil

  • Googlebot (versió escriptori): Versió escriptori

  • Googlebot Images: Encarregat de rastrejar imatges

  • Googlebot News: Per a notícies

  • Googlebot Video: Ara és el torn dels vídeos

Exemple d'un bot identificat als nostres logs:

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

No són els únics — n'hi ha d'altres com Adsbot, Adsense, etc. Havent mencionat ja els rellevants per al sector SEO, diferenciar-los de la resta no és el focus d'aquest article, però pots trobar informació addicional al següent enllaç oficial de Google.

Fases del procés de rastreig i indexació de Google

Ara que sabem què és el rastreig, qui s'encarrega d'aquesta funció i hem comentat el procés, vegem-lo amb més detall específic.

Primera fase: rastreig i classificació

El procés mitjançant el qual les nostres pàgines apareixen als resultats de Google passa per una primera fase de rastreig, com hem vist, realitzada per les aranyes (crawlers), perquè llegeixin, interpretin, indexin i classifiquin el nostre contingut.

És aquesta nova paraula la que volem analitzar en detall, classificar. Google ha d'entendre perfectament el nostre contingut, de manera senzilla i ràpida, perquè com veurem més tard, Google passa una quantitat específica de temps al nostre web, i en aquest temps ha d'"entendre" el nostre contingut i associar-lo amb les diferents intencions de cerca dels usuaris.

Per això al SEO modern es parla tant de la paraula "Search Intent", ja que Google la tindrà en compte en aquesta classificació i definirà la posició que les nostres pàgines ocupen als rànquings de les SERPs.

Per això el procés de rastreig ha de ser net, simple, ràpid, sense obstacles, etc., perquè tot estigui clar i ens classifiqui correctament.

Fase dos: indexació

No podem oblidar la fase d'indexació, que precedeix la classificació i també juga un paper fonamental, ja que serà el pas on Google afegeix el nostre contingut a la seva base de dades, és a dir, l'indexa.

rastreig web
rastreig web

Bloquejar els robots de Google

Hem mencionat anteriorment que hi ha maneres en què podríem estar limitant l'accés d'aquestes aranyes al nostre contingut. Per a això, hi ha un element de pes vital al SEO conegut com a robots.txt.

El fitxer robots.txt és un fitxer de text que pugem al nostre servidor, en el qual donem instruccions precises a les diferents aranyes per permetre o bloquejar-los rastrejar URLs del nostre lloc. Aquest bloqueig es pot aplicar:

  • a tot el domini

  • a un camí específic

  • a una URL específica

  • o a un conjunt d'URLs que coincideixen amb un patró determinat.

Vegem un exemple de configuració d'aquest fitxer:

User-agent: *

Disallow: /wp-admin/

Allow: wp-admin/admin-ajax.php

Sitemap: /sitemap.xml

Com podem veure, té una primera línia on especifiquem el user-agent (el nom del crawler que volem bloquejar o permetre, dels que hem vist abans), seguit de les ordres "disallow" per prohibir l'entrada o "allow" per permetre-la.

En el cas específic que veiem, indicant amb un * estem dient "tots els crawlers", sense excepció. Els estem prohibint entrar al camí /wp-admin/, però dins d'aquell camí volem permetre que entrin a /admin-ajax.php.

Una configuració incorrecta d'aquest fitxer pot causar que estiguem bloquejant parts importants del nostre contingut. És un error comú tenir tot el web bloquejat mentre s'està desenvolupant, i després oblidar-se de treure aquell bloqueig després de posar-lo en producció, fent-lo inaccessible per a Google.

Un altre problema que les aranyes de Google podrien trobar quan rastregen el nostre contingut és no poder seguir els enllaços interns que tenim al nostre web, i per tant no accedir a la resta d'URLs. Això passa quan utilitzem elements javascript en lloc de "href" en aquests enllaços. Aquesta pràctica és molt comuna, ja que utilitzar JS té molts avantatges a nivell d'usuari, però si no es fa servir correctament, i s'afegeix als enllaços interns, Google pot no poder seguir-los.

Al món SEO això es coneix com a "ofuscació d'enllaços". A dia d'avui, és un debat obert si Google és capaç de rastrejar i renderitzar pàgines fetes amb JS correctament.

Codis de resposta del servidor

Per continuar entenent bé aquest procés, no podem passar per alt un concepte amb el qual els SEOs han de tractar diàriament, els codis de resposta del servidor.

Abans, hem vist el cicle pel qual Google ens troba, però com passa això? Un usuari fa una cerca (una query) a Google. El cercador va a la seva base de dades i mostra els resultats més rellevants (SERPs), segons la classificació feta, per a aquesta cerca.

Un cop l'usuari veu els diferents resultats (impressions), clica en un d'ells, el que segons el seu criteri millor s'adapta al que necessita. En aquell moment, la petició de Google al servidor on s'allotja el web entra en joc, perquè "serveixi" el contingut.

Quan això succeeix, la resposta del servidor es produeix mitjançant el codi corresponent. Anomenem els més rellevants que, com a SEOs, hem de tenir en compte:

  • 200: Aquest codi de resposta és el que diu a Google que la pàgina existeix, que té contingut i que no hi ha problema a mostrar-la. És el més desitjat pels SEOs, sempre que el contingut d'aquella pàgina amb codi 200 sigui òptim.

  • 30x: La família de codis d'estat 30x correspon a les redireccions. Els més notables són els 301 (permanents), 302 i 307 (temporals). Bàsicament diuen a Google "ei, aquesta URL A que has demanat ja no és aquesta, és aquesta altra URL B". N'hi ha més, però no són el focus del concepte que estem desenvolupant. És important saber que, com a SEOs, els preferits són els 301, que transfereixen tota l'autoritat.

Lectura recomanada: Tutorial sobre redireccions 301

  • 40X: Codis d'error. Els menys desitjats pels SEOs. El més comú és el famós 404. Quan apareix aquest codi, estem dient a Google en resposta a la seva petició d'una URL que ja no existeix i per tant és un error.

  • 410: Hem volgut destacar aquest dins de la família 40x pel seu valor SEO. Quan utilitzem aquest codi, en resposta a una petició del servidor de Google per una URL, li estem dient que "se n'ha anat per sempre". És interessant perquè, a diferència del 404, Google entén que mai més tornarà a estar i deixarà d'intentar rastrejar-la, mentre que amb el 404, la rastrejarà de nou pensant que potser volem arreglar-la.

  • 50x: Aquest tipus de resposta està lligada a errors del servidor. Quan la nostra màquina falla per algun motiu, i Google intenta sol·licitar-nos el contingut d'alguna URL, si el servidor falla, retorna un codi d'estat 505.

Crawl Budget

Arribats a aquest punt de l'article, encara ens falta abordar un terme que es va popularitzar fa un parell d'anys al món SEO, conegut com a crawl budget.

El crawl budget es refereix al temps que les aranyes de Google passen rastrejant un web i totes les seves URLs. És, com hem dit abans, un temps finit. Per això la importància de tenir el nostre web optimitzat, per tal de facilitar-li veure les pàgines més rellevants del nostre lloc en aquell temps.

Aquest temps que els crawlers passen recorrent el nostre web no és un valor fix, creixerà o decreixerà segons aspectes com la freqüència amb què actualitzem el contingut, l'autoritat del nostre domini (popularitat), etc.

Com més alta sigui la qualitat del nostre web, més gran l'autoritat i més contingut fresc, més rellevants ens considerarà Google i més pressupost assignarà a rastrejar-nos.

Amb programes de rastreig com Screaming Frog, fem rastreigs idealment simulats del nostre web, és a dir, com si les aranyes tinguessin tot el temps del món per recórrer totes i cadascuna de les nostres URLs.

Però no és així com funciona quan parlem de Googlebot — més aviat, cada vegada que Google visita el nostre web, visitarà unes URLs més que altres. De fet, n'hi pot haver algunes que ni tan sols visiti. Analitzarem això amb el que es coneixen com a logs del servidor, (registres de quines URLs ha rastrejat Google, amb quina freqüència ho ha fet i quantes vegades en un període determinat).

Fins aquí, tota l'anàlisi pel que fa a entendre què és el rastreig i els diferents elements que formen part del sistema de rastreig de Google.

Alguna pregunta o suggeriment? Com sempre… ens encantaria tenir notícies teves!

Автор: David Kaufmann

David Kaufmann

He passat els últims 10+ anys completament obsessionat amb el SEO — i sincerament, no ho canviaria per res.

La meva carrera va fer un salt qualitatiu quan vaig treballar com a especialista SEO sènior a Chess.com — un dels 100 webs més visitats de tot Internet. Operar a aquesta escala em va ensenyar coses que cap curs ni certificació podrien transmetre.

D'aquella experiència vaig fundar SEO Alive — una agència per a marques que es prenen seriosament el creixement orgànic. I com que no trobava cap eina que gestionés bé tant el SEO clàssic com el món de la IA, vaig construir SEOcrawl. Si busques un partner SEO sènior que s'estimi aquest sector de debò — m'encantarà parlar amb tu!

→ Читайте всі статті від David
Більше статей: David Kaufmann

Дізнайтесь більше контенту цього автора