Phasen und Elemente des Crawling-Prozesses

David Kaufmann

16. April 2020

SEO Tutorials

9 min read

Crawling, Spider, Bots – das sind Begriffe, mit denen jeder SEO im Alltag umzugehen weiß und die in jeder Ranking-Strategie ein wesentliches Gewicht haben, denn wenn diese Phase scheitert, scheitert auch der Rest.

Schauen wir uns im Detail an, woraus ein Web-Crawling-Prozess besteht.

Was bedeutet es, eine Website zu crawlen?

Bevor wir weitergehen, lass uns den Prozess des Crawlens einer Website definieren und zeigen, welche Bedeutung er innerhalb jedes Versuchs hat, in Googles Suchergebnissen zu erscheinen.

Eine Website zu crawlen verstehen wir als den Prozess, bei dem Spider oder Crawler durch die verschiedenen Seiten einer Website wandern und alle zugänglichen Informationen sammeln, um sie zu speichern, zu verarbeiten und später zu klassifizieren.

Es lohnt sich, einige grundlegende Begriffe in der gerade dargelegten Definition hervorzuheben:

Wanderung: Stell dir tatsächlich eine Spinne vor. Dieses freundliche Tier muss durch so viele Seiten wie möglich kommen, um so viele Informationen wie möglich zu extrahieren. Um von einer Seite zur anderen zu gelangen, tut sie das über die internen Links, die diese verbinden. Daher ist es wichtig, eine korrekte interne Verlinkung zu haben, die es diesen Spidern ermöglicht, – wenn nicht alle – zumindest die für uns relevantesten Seiten zu „entdecken".
Zugänglichkeit: Die Informationen müssen für diese Spider zugänglich sein. Das heißt, wenn wir ihren Zugriff in irgendeiner Weise absichtlich oder versehentlich einschränken, hindern wir die Spider daran, alle Inhalte zu verarbeiten und sie folglich zu verstehen und schließlich zu klassifizieren.

Diese Blockierung oder Einschränkung des Seiteninhalts kann auf verschiedene Arten erfolgen, die wir im weiteren Verlauf dieses Beitrags zu erklären versuchen.

Die Crawler

Wir haben über Spider, auch bekannt als Crawler oder Bots gesprochen. Wir können sie als Programme definieren, die die Dokumente auf unserer Website analysieren – das heißt, sie sind wie „Bibliothekare", die suchen, klassifizieren und ordnen. Ihre Hauptfunktion besteht also darin, Datenbanken aufzubauen. Es gibt verschiedene Arten, je nachdem, welche Art von Informationen sie sammeln. Lass uns einige der häufigsten erwähnen.

Googlebot: Der Spider, der für das Crawlen unserer Inhalte zuständig ist und sie in den organischen Ergebnissen (SERPs) kategorisiert. Für SEOs ist er der wichtigste.

Innerhalb dieses Typs können wir einige Untertypen unterscheiden:

Googlebot (Smartphones): Mobilversion
Googlebot (Desktop-Version): Desktop-Version
Googlebot Images: Zuständig für das Crawlen von Bildern
Googlebot News: Für Nachrichten
Googlebot Video: Jetzt sind die Videos dran

Beispiel eines in unseren Logs identifizierten Bots:

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Sie sind nicht die einzigen – es gibt weitere wie Adsbot, Adsense usw. Da wir die für den SEO-Bereich relevanten bereits erwähnt haben, ist die Unterscheidung von den anderen nicht der Fokus dieses Artikels, aber du findest weitere Informationen unter folgendem offiziellen Google-Link.

Phasen von Googles Crawling- und Indexierungsprozess

Jetzt, wo wir wissen, was Crawling ist, wer für diese Funktion zuständig ist und wir den Prozess besprochen haben, schauen wir uns ihn detaillierter an.

Erste Phase: Crawling und Klassifizierung

Der Prozess, durch den unsere Seiten in Googles Ergebnissen erscheinen, durchläuft eine erste Crawling-Phase, die, wie wir gesehen haben, von den Spidern (Crawlern) durchgeführt wird, damit diese unseren Inhalt lesen, interpretieren, indexieren und klassifizieren.

Es ist dieses neue Wort, das wir im Detail analysieren wollen: klassifizieren. Google muss unseren Inhalt perfekt verstehen, einfach und schnell, denn wie wir später sehen werden, verbringt Google eine bestimmte Zeit auf unserer Website, und in dieser Zeit muss es unseren Inhalt „verstehen" und ihn den verschiedenen Suchintentionen der Nutzer zuordnen.

Deshalb hört man im modernen SEO so oft das Wort „Search Intent", da Google es bei dieser Klassifizierung berücksichtigt und es die Position definiert, die unsere Seiten in den SERP-Rankings einnehmen.

Deshalb muss der Crawling-Prozess sauber, einfach, schnell, ohne Hindernisse usw. ablaufen, damit alles klar ist und wir korrekt klassifiziert werden.

Phase zwei: Indexierung

Wir dürfen die Indexierungsphase nicht vergessen, die der Klassifizierung vorausgeht und ebenfalls eine grundlegende Rolle spielt, da sie der Schritt sein wird, in dem Google unseren Inhalt seiner Datenbank hinzufügt – also indexiert.

Googles Roboter blockieren

Wir haben vorhin erwähnt, dass es Wege gibt, auf denen wir den Zugriff dieser Spider auf unseren Inhalt einschränken könnten. Dafür gibt es ein im SEO entscheidendes Element, bekannt als robots.txt.

Die robots.txt ist eine Textdatei, die wir auf unseren Server hochladen und in der wir den verschiedenen Spidern präzise Anweisungen geben, das Crawlen von URLs auf unserer Seite zu erlauben oder zu blockieren. Diese Blockierung kann angewendet werden auf:

die gesamte Domain
einen bestimmten Pfad
eine bestimmte URL
oder eine Gruppe von URLs, die einem bestimmten Muster entsprechen.

Sehen wir uns ein Beispiel-Konfiguration dieser Datei an:

User-agent: *

Disallow: /wp-admin/

Allow: wp-admin/admin-ajax.php

Sitemap: /sitemap.xml

Wie wir sehen, hat sie eine erste Zeile, in der wir den User-Agent angeben (den Namen des Crawlers, den wir blockieren oder zulassen wollen, aus denen wir vorhin gesehen haben), gefolgt von den „disallow"-Anweisungen, um den Zugriff zu verbieten, oder „allow", um ihn zu erlauben.

In dem konkreten Fall, den wir sehen, sagen wir, indem wir mit einem * angeben, „alle Crawler", ohne Ausnahme. Wir verbieten ihnen den Zugriff auf den Pfad /wp-admin/, aber innerhalb dieses Pfads wollen wir ihnen den Zugriff auf /admin-ajax.php erlauben.

Eine fehlerhafte Konfiguration dieser Datei kann dazu führen, dass wir wichtige Teile unseres Inhalts blockieren. Es ist ein häufiger Fehler, die gesamte Website während der Entwicklung blockiert zu haben und dann zu vergessen, diese Blockierung nach dem Live-Gang zu entfernen, sodass sie für Google nicht zugänglich ist.

Ein weiteres Problem, auf das Googles Spider beim Crawlen unserer Inhalte stoßen können, ist, internen Links auf unserer Website nicht folgen zu können und somit nicht auf die übrigen URLs zuzugreifen. Das passiert, wenn wir JavaScript-Elemente verwenden statt „href" in diesen Links. Diese Praxis ist sehr verbreitet, da die Verwendung von JS auf Nutzerebene viele Vorteile bietet, aber wenn sie nicht korrekt verwendet und mit internen Links kombiniert wird, kann Google ihnen möglicherweise nicht folgen.

In der SEO-Welt ist das als „Link Obfuscation" bekannt. Bis heute ist es eine offene Debatte, ob Google in der Lage ist, in JS erstellte Seiten korrekt zu crawlen und zu rendern.

Server-Antwortcodes

Um diesen Prozess weiterhin gut zu verstehen, dürfen wir ein Konzept nicht außer Acht lassen, mit dem SEOs täglich zu tun haben: Server-Antwortcodes.

Vorhin haben wir den Zyklus gesehen, durch den Google uns findet, aber wie passiert das? Ein Nutzer führt eine Suche (Query) auf Google durch. Die Suchmaschine geht in ihre Datenbank und zeigt die relevantesten Ergebnisse (SERPs) entsprechend der vorgenommenen Klassifizierung für diese Suche an.

Sobald der Nutzer die verschiedenen Ergebnisse sieht (Impressionen), klickt er auf eines davon – das, das seiner Meinung nach am besten zu dem passt, was er braucht. In diesem Moment kommt Googles Anfrage an den Server ins Spiel, auf dem die Website gehostet wird, damit dieser den Inhalt „ausliefert".

Wenn das geschieht, wird die Server-Antwort über den entsprechenden Code erzeugt. Lass uns die wichtigsten nennen, die wir als SEOs berücksichtigen müssen:

200: Dieser Antwortcode sagt Google, dass die Seite existiert, dass sie Inhalt hat und dass es kein Problem gibt, sie anzuzeigen. Er ist der von SEOs am meisten gewünschte, vorausgesetzt, der Inhalt dieser Seite mit Code 200 ist optimal.
30x: Die 30x-Statuscode-Familie entspricht den Weiterleitungen. Die wichtigsten sind 301 (permanent), 302 und 307 (temporär). Im Grunde sagen sie Google „hey, diese URL A, die du angefragt hast, ist nicht mehr diese, sondern diese andere URL B". Es gibt mehr, aber sie sind nicht der Fokus des Konzepts, das wir hier entwickeln. Es ist wichtig zu wissen, dass die von SEOs bevorzugten die 301er sind, die die gesamte Autorität übertragen.

Empfohlene Lektüre: Tutorial zu 301-Weiterleitungen

40X: Fehlercodes. Die von SEOs am wenigsten gewünschten. Der häufigste ist der berühmte 404. Wenn dieser Code erscheint, sagen wir Google als Antwort auf seine Anfrage nach einer URL, dass sie nicht mehr existiert und es sich daher um einen Fehler handelt.
410: Diesen wollten wir aus der 40x-Familie wegen seines SEO-Werts hervorheben. Wenn wir diesen Code als Antwort auf eine Anfrage von Googles Server nach einer URL verwenden, sagen wir ihm, dass sie „endgültig weg ist". Das ist interessant, weil Google im Gegensatz zur 404 versteht, dass sie nie wieder da sein wird, und aufhört, sie zu crawlen, während es bei der 404 erneut versucht zu crawlen, weil wir sie vielleicht beheben wollen.
50x: Diese Art von Antwort hängt mit Server-Fehlern zusammen. Wenn unsere Maschine aus irgendeinem Grund ausfällt und Google versucht, den Inhalt einer URL bei uns anzufragen, gibt es bei einem Server-Ausfall einen 505-Statuscode zurück.

Crawl Budget

An diesem Punkt des Beitrags müssen wir noch einen Begriff ansprechen, der in der SEO-Welt vor einigen Jahren populär wurde, bekannt als Crawl Budget.

Das Crawl Budget bezieht sich auf die Zeit, die Googles Spider damit verbringen, eine Website und alle ihre URLs zu crawlen. Es ist, wie wir bereits gesagt haben, eine endliche Zeit. Daher ist es wichtig, unsere Website optimiert zu haben, um es ihm einfacher zu machen, in dieser Zeit die relevantesten Seiten unserer Site zu sehen.

Diese Zeit, die Crawler damit verbringen, unsere Website zu durchlaufen, ist kein fester Wert, sie wächst oder sinkt je nach Aspekten wie der Häufigkeit, mit der wir Inhalte aktualisieren, der Autorität unserer Domain (Popularität) usw.

Je höher die Qualität unserer Website ist, je größer die Autorität und je mehr frische Inhalte, desto relevanter wird Google uns einschätzen und desto mehr Budget wird es für unser Crawlen bereitstellen.

Mit Crawling-Programmen wie Screaming Frog führen wir idealerweise simulierte Crawls unserer Website durch, also so, als hätten die Spider alle Zeit der Welt, jede einzelne unserer URLs zu durchlaufen.

Aber so funktioniert es nicht, wenn wir vom Googlebot sprechen – vielmehr wird Google bei jedem Besuch unserer Website einige URLs öfter besuchen als andere. Tatsächlich gibt es einige, die er vielleicht gar nicht besucht. Wir analysieren das mit dem, was als Server-Logs bekannt ist (Aufzeichnungen darüber, welche URLs Google gecrawlt hat, wie oft und wie viele Male in einem bestimmten Zeitraum).

Bis hierhin die ganze Analyse, um zu verstehen, was Crawling ist und welche verschiedenen Elemente Teil von Googles Crawling-System sind.

Hast du Fragen oder Anregungen? Wie immer... wir würden uns freuen, von dir zu hören!

Autor: David Kaufmann

In den letzten über 10 Jahren habe ich mich komplett dem SEO verschrieben — und ehrlich gesagt möchte ich es nicht anders haben.

Meine Karriere erreichte eine neue Stufe, als ich als Senior SEO Specialist für Chess.com gearbeitet habe — eine der 100 meistbesuchten Websites im gesamten Internet. In dieser Größenordnung zu arbeiten, über Millionen von Seiten, Dutzende Sprachen und in einer der umkämpftesten SERPs überhaupt, hat mich Dinge gelehrt, die kein Kurs und kein Zertifikat je vermitteln könnte. Diese Erfahrung hat meine Sichtweise darauf verändert, wie großartiges SEO wirklich aussieht — und sie wurde zum Fundament für alles, was ich seitdem aufgebaut habe.

Aus dieser Erfahrung heraus habe ich SEO Alive gegründet — eine Agentur für Marken, die es mit organischem Wachstum ernst meinen. Wir sind nicht hier, um dashboards und monatliche Reports zu verkaufen. Wir sind hier, um Strategien zu entwickeln, die wirklich etwas bewegen, indem wir das Beste aus dem klassischen SEO mit der spannenden neuen Welt der Generative Engine Optimization (GEO) verbinden — damit deine Marke nicht nur in den blauen Links von Google auftaucht, sondern auch in den AI-generierten Antworten, die ChatGPT, Perplexity und Google AI Overviews tagtäglich Millionen von Menschen liefern.

Und weil ich kein Tool finden konnte, das beide Welten richtig abdeckt, habe ich selbst eines gebaut — SEOcrawl, eine Enterprise-SEO-Intelligence-Plattform, die rankings, technische Audits, backlinks-Monitoring, crawl-Health und AI-Brand-Visibility-Tracking an einem Ort vereint. Es ist die Plattform, die ich mir immer gewünscht habe.

→ Alle Artikel von David lesen