Fasen en elementen van het crawlproces

Crawling, spiders, bots — dit zijn termen die elke SEO dagelijks gebruikt, en ze hebben essentieel gewicht in elke rankingstrategie, want als deze fase faalt, faalt de rest ook.
Laten we in detail kijken wat een webcrawlproces inhoudt.
Wat betekent het om een website te crawlen?
Voordat we verdergaan, laten we het proces van het crawlen van een website definiëren en het belang ervan binnen elke poging om in de zoekresultaten van Google te verschijnen aantonen.
Het crawlen van een website wordt opgevat als het proces waarbij spiders of crawlers door de verschillende pagina's van een website reizen en alle toegankelijke informatie verzamelen om deze op te slaan, te verwerken en later te classificeren.
Het is de moeite waard om enkele fundamentele termen binnen de definitie die we zojuist hebben uiteengezet te benadrukken:
-
Reis: Denk inderdaad aan een spin. Dit vriendelijke insect moet door zoveel mogelijk pagina's gaan om zoveel mogelijk informatie te verzamelen. Om van de ene pagina naar de andere te gaan, doet het dat via de interne links die ze verbinden. Vandaar het belang van een correcte interne linkstructuur die deze spiders in staat stelt om — zo niet de hele site — dan toch de meest relevante pagina's voor ons te "ontdekken".
-
Toegankelijkheid: De informatie moet toegankelijk zijn voor deze spiders. Dat wil zeggen, als we op een of andere manier hun toegang opzettelijk of per ongeluk beperken, voorkomen we dat de spiders alle content kunnen verwerken, en daarmee deze begrijpen en uiteindelijk classificeren.
Deze blokkade of beperking van pagina-content kan op verschillende manieren plaatsvinden, die we verderop in dit artikel proberen uit te leggen.
De crawlers
We hebben het gehad over spiders, ook wel bekend als crawlers of bots. We kunnen ze definiëren als programma's die de documenten op onze website analyseren, dat wil zeggen, ze zijn als "bibliothecarissen" die zoeken, classificeren en organiseren. Hun belangrijkste functie is daarom het bouwen van databases. Er zijn verschillende soorten, afhankelijk van het soort informatie dat ze verzamelen. Laten we enkele van de meest voorkomende noemen.
Googlebot: De spider die belast is met het crawlen van onze content en het categoriseren ervan binnen de organische resultaten (SERP's). Voor SEO's is dit de belangrijkste.
Binnen dit type kunnen we enkele subtypes onderscheiden:
-
Googlebot (smartphones): Mobiele versie
-
Googlebot (desktopversie): Desktopversie
-
Googlebot Images: Belast met het crawlen van afbeeldingen
-
Googlebot News: Voor nieuws
-
Googlebot Video: Nu is het de beurt aan video's
Voorbeeld van een bot die in onze logs is geïdentificeerd:
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Het zijn niet de enige — er zijn andere zoals Adsbot, Adsense, etc. We hebben de relevante voor de SEO-sector al genoemd, dus het onderscheiden van de rest is niet de focus van dit artikel, maar je vindt aanvullende informatie via de volgende officiële Google-link.
Fasen van Google's crawl- en indexeerproces
Nu we weten wat crawling is, wie verantwoordelijk is voor die functie, en we het proces hebben besproken, laten we er specifieker naar kijken.
Eerste fase: crawlen en classificeren
Het proces waarbij onze pagina's in de resultaten van Google verschijnen, gaat door een eerste crawlfase, zoals we hebben gezien, uitgevoerd door de spiders (crawlers), zodat ze onze content lezen, interpreteren, indexeren en classificeren.
Het is dit nieuwe woord dat we in detail willen analyseren, classificeren. Google moet onze content perfect, eenvoudig en snel begrijpen, want zoals we later zullen zien, besteedt Google een specifieke hoeveelheid tijd aan onze website, en in die tijd moet het onze content "begrijpen" en associëren met de verschillende zoekintenties van gebruikers.
Daarom hoor je in moderne SEO zo vaak het woord "zoekintentie", omdat Google er rekening mee houdt bij die classificatie en het zal de positie bepalen die onze pagina's innemen in de SERP-rankings.
Daarom moet het crawlproces schoon, eenvoudig, snel, zonder obstakels, etc. zijn, zodat alles duidelijk is en we correct worden geclassificeerd.
Fase twee: indexering
We mogen de indexeerfase niet vergeten, die voorafgaat aan de classificatie en ook een fundamentele rol speelt, omdat dit de stap is waarin Google onze content aan zijn database toevoegt, oftewel indexeert.

De robots van Google blokkeren
We noemden eerder dat er manieren zijn waarop we de toegang van deze spiders tot onze content beperken. Hiervoor is er een element van vitaal belang in SEO, bekend als robots.txt.
Het robots.txt-bestand is een tekstbestand dat we naar onze server uploaden, waarin we precieze instructies geven aan de verschillende spiders om hen toe te staan of te blokkeren URL's op onze site te crawlen. Deze blokkade kan worden toegepast op:
-
het hele domein
-
een specifiek pad
-
een specifieke URL
-
of een set URL's die overeenkomen met een bepaald patroon.
Laten we een voorbeeldconfiguratie van dit bestand bekijken:
User-agent: *
Disallow: /wp-admin/
Allow: wp-admin/admin-ajax.php
Sitemap: /sitemap.xml
Zoals we kunnen zien, heeft het een eerste regel waarin we de user-agent specificeren (de naam van de crawler die we willen blokkeren of toestaan, van degenen die we eerder zagen), gevolgd door de "disallow"-orders om toegang te verbieden of "allow" om deze toe te staan.
In het specifieke geval dat we zien, geven we door een * aan te geven aan dat we "alle crawlers" bedoelen, zonder uitzondering. We verbieden hen om het /wp-admin/-pad in te gaan, maar binnen dat pad willen we ze toestaan om /admin-ajax.php in te gaan.
Een onjuiste configuratie van dit bestand kan ertoe leiden dat we belangrijke delen van onze content blokkeren. Het is een veelgemaakte fout om de hele website geblokkeerd te hebben terwijl deze in ontwikkeling is, en dan te vergeten die blokkade te verwijderen nadat deze in productie is gegaan, waardoor deze ontoegankelijk wordt voor Google.
Een ander probleem dat de spiders van Google kunnen tegenkomen bij het crawlen van onze content is het niet kunnen volgen van de interne links die we op onze website hebben, en daarom geen toegang hebben tot de rest van de URL's. Dit gebeurt wanneer we javascript-elementen gebruiken in plaats van "href" in die links. Deze praktijk komt veel voor, omdat het gebruik van JS veel voordelen heeft op gebruikersniveau, maar als het niet correct wordt gebruikt, en wordt toegevoegd aan interne links, kan Google ze mogelijk niet volgen.
In de SEO-wereld staat dit bekend als "linkverhulling". Vandaag de dag is het een open debat of Google in staat is om pagina's gemaakt in JS correct te crawlen en weer te geven.
Server-responscodes
Om dit proces goed te blijven begrijpen, kunnen we een concept dat SEO's dagelijks moeten behandelen niet over het hoofd zien: server-responscodes.
Eerder zagen we de cyclus waarbij Google ons vindt, maar hoe gebeurt dit? Een gebruiker doet een zoekopdracht (een query) op Google. De zoekmachine gaat naar zijn database en toont de meest relevante resultaten (SERP's), volgens de gemaakte classificatie, voor die zoekopdracht.
Zodra de gebruiker de verschillende resultaten ziet (impressies), klikt hij op een ervan, degene die naar zijn oordeel het beste past bij wat hij nodig heeft. Op dat moment komt het verzoek van Google aan de server waar de website wordt gehost in beeld, zodat deze de content "serveert".
Wanneer dit gebeurt, wordt de serverrespons geproduceerd door middel van de bijbehorende code. Laten we de meest relevante noemen waar we als SEO's rekening mee moeten houden:
-
200: Deze responscode is degene die Google vertelt dat de pagina bestaat, dat hij content heeft en dat er geen probleem is om deze te tonen. Het is de meest gewenste door SEO's, zolang de content van die pagina met code 200 optimaal is.
-
30x: De 30x-statuscodefamilie correspondeert met redirects. De meest opvallende zijn 301 (permanent), 302 en 307 (tijdelijk). Kort gezegd vertellen ze Google "hé, deze URL A waar je om hebt gevraagd is dit niet meer, het is deze andere URL B". Er zijn er meer, maar dat is niet de focus van het concept dat we ontwikkelen. Het is belangrijk om te weten dat als SEO's de voorkeur uitgaat naar 301's, die alle autoriteit overdragen.
Aanbevolen lectuur: Tutorial over 301-redirects
-
40X: Foutcodes. De minst gewenste door SEO's. De meest voorkomende is de beroemde 404. Wanneer deze code verschijnt, vertellen we Google in reactie op zijn verzoek voor een URL dat deze niet meer bestaat en daarom een fout is.
-
410: We wilden deze graag uit de 40x-familie halen vanwege zijn SEO-waarde. Wanneer we deze code gebruiken, in reactie op een verzoek van de server van Google voor een URL, vertellen we hem dat deze "voorgoed weg is". Het is interessant omdat, in tegenstelling tot de 404, Google begrijpt dat hij er nooit meer zal zijn en zal stoppen met proberen hem te crawlen, terwijl Google bij de 404 hem opnieuw zal crawlen, denkend dat we het misschien willen oplossen.
-
50x: Dit type respons is gekoppeld aan serverfouten. Wanneer onze machine om wat voor reden dan ook faalt, en Google probeert ons te vragen om de content van een URL, retourneert hij, als de server faalt, een statuscode 505.
Crawlbudget
Op dit punt in het artikel moeten we nog een term behandelen die een paar jaar geleden populair werd in de SEO-wereld, bekend als crawlbudget.
Het crawlbudget verwijst naar de tijd die de spiders van Google besteden aan het crawlen van een website en al zijn URL's. Het is, zoals we eerder zeiden, een eindige tijd. Vandaar het belang van het hebben van een geoptimaliseerde website, om het Google makkelijker te maken om in die tijd de meest relevante pagina's van onze site te zien.
Deze tijd die crawlers besteden aan het doorlopen van onze website is geen vaste waarde, deze zal toenemen of afnemen afhankelijk van aspecten zoals de frequentie waarmee we de content bijwerken, de autoriteit van ons domein (populariteit), etc.
Hoe hoger de kwaliteit van onze website, hoe groter de autoriteit en hoe meer verse content, hoe relevanter Google ons zal vinden en hoe meer budget hij zal toewijzen om ons te crawlen.
Met crawlprogramma's zoals Screaming Frog voeren we ideaal gesimuleerde crawls van onze website uit, dat wil zeggen, alsof de spiders alle tijd van de wereld hadden om elke URL van ons door te nemen.
Maar dit is niet hoe het werkt als we het hebben over Googlebot — elke keer dat Google onze website bezoekt, zal het sommige URL's meer dan andere bezoeken. Sterker nog, er kunnen er zijn die het zelfs niet bezoekt. We zullen dit analyseren met wat bekend staat als de serverlogs (registraties van welke URL's Google heeft gecrawld, hoe vaak het dat heeft gedaan en hoe vaak in een bepaalde periode).
Tot zover de hele analyse over het begrijpen van wat crawling is en de verschillende elementen die deel uitmaken van het crawlsysteem van Google.
Vragen of suggesties? Zoals altijd... we horen graag van je!
Auteur: David Kaufmann

Ik heb de afgelopen 10+ jaar volledig in het teken van SEO gestaan — en eerlijk gezegd zou ik het voor geen goud anders willen.
Mijn carrière bereikte een nieuw niveau toen ik als senior SEO-specialist werkte voor Chess.com — een van de 100 meest bezochte websites van het hele internet. Werken op die schaal, verspreid over miljoenen pagina's, tientallen talen en in een van de meest competitieve SERPs die er bestaan, heeft me dingen geleerd die geen cursus of certificering ooit zou kunnen. Die ervaring veranderde mijn kijk op hoe geweldige SEO er echt uitziet — en werd de basis voor alles wat ik sindsdien heb gebouwd.
Vanuit die ervaring heb ik SEO Alive opgericht — een bureau voor merken die serieus werk willen maken van organische groei. Wij zijn er niet om dashboards en maandelijkse rapporten te verkopen. Wij zijn er om strategieën te bouwen die daadwerkelijk het verschil maken, door het beste van klassieke SEO te combineren met de spannende nieuwe wereld van Generative Engine Optimization (GEO) — zodat jouw merk niet alleen opduikt in de blauwe links van Google, maar ook binnen de AI-gegenereerde antwoorden die ChatGPT, Perplexity en Google AI Overviews elke dag opnieuw aan miljoenen mensen leveren.
En omdat ik geen tool kon vinden die beide werelden goed aanpakte, heb ik er zelf een gebouwd — SEOcrawl, een enterprise SEO intelligence platform dat rankings, technische audits, backlinks-monitoring, crawl-gezondheid en AI brand visibility tracking op één plek samenbrengt. Het is het platform waarvan ik altijd had gewild dat het bestond.
Ontdek meer content van deze auteur

