robots.txt: vollständiger Konfigurationsleitfaden

David Kaufmann

14. Februar 2020

SEO Tutorials

6 min read

Bist du es leid, von robots.txt zu hören und nicht zu wissen, wovon die Leute reden? Keine Sorge, heute bringen wir dir die Lösung deines Problems. In diesem Beitrag werden wir unser Bestes geben, um zu erklären, was robots.txt ist, wie man es konfiguriert (insbesondere in WordPress) und welche Auswirkungen es auf das SEO unseres Projekts haben kann.

Legen wir los!

Was ist robots.txt und wofür ist sie da?

Die robots.txt ist einfach eine Datei, die in deinem Web-Root gehostet wird und mit der du bestimmten Bots (wie denen von Google oder Bing) verbieten kannst, deine Website oder Teile davon zu besuchen.

ACHTUNG: Es ist wichtig zu wissen, dass dies ein Protokoll ist und alle „guten" Bots sich daran halten (GoogleBot, BingBot, Semrush, ...), aber jeder Bot mit bösen Absichten kann es überspringen, etwa Screaming Frog, indem er diese Option aktiviert:

Warum ist die robots.txt-Datei für SEO wichtig?

Wie zuvor erwähnt, halten sich alle guten Bots (wie GoogleBot) an dieses Protokoll, und was wir tun können, ist diese Datei zu nutzen, um Google durch unsere Website zu führen.

Was? Wie meinst du das? Google mit der robots.txt führen?

Ja, keine Sorge, wir erklären es mit einem Beispiel, damit es viel klarer wird:

Stell dir vor, dass du auf deiner Website einen privaten Bereich hast, auf den nur registrierte Nutzer zugreifen können, und wie wir wissen, kann Google nicht auf eine Website zugreifen, die einen Login erfordert (noch nicht...).

Wäre es nicht sinnvoll, dass Google nicht unser Crawl-Budget mit dem Crawlen von Seiten verschwendet, die keinen Wert für ihn haben?

Genau! Eine der wichtigsten Verwendungen der robots.txt besteht darin, Pfade zu blockieren, die wenig Wert für Google haben, und ihn so dazu zu bringen, sich auf die wichtigen Seiten unserer Website zu konzentrieren. Aus diesem Grund sollte die robots.txt eine der Säulen unserer SEO-Strategie sein.

Das ist nur ein Beispiel von Tausenden, was wir mit dieser Datei tun können. Andere Beispiele sind das Anzeigen unserer Sitemap, das Reduzieren des Crawl-Intervalls, das Blockieren des Crawlens von Ressourcen, ...

Wie man die robots.txt-Datei erstellt

Nun... an die Arbeit!

Diese Datei zu erstellen ist wirklich einfach: Du brauchst nur deinen Texteditor (Notepad unter Windows oder TextEdit auf dem Mac) oder einen Online-Editor und nach dem Entwurf deiner robots.txt exportierst du sie als txt-Datei.

Sobald wir sie haben, müssen wir sie nur „robots.txt" nennen und in deinen Web-Root über das Server-Panel oder per FTP hochladen.

Um zu prüfen, ob sie korrekt hochgeladen wurde, musst du nur „/robots.txt" zu deiner Domain hinzufügen, zum Beispiel https://seocrawl.com/robots.txt

ACHTUNG: Sei vorsichtig mit dem Cache, es ist besser, sie im Inkognito-Modus zu öffnen ;)

Was, wenn ich WordPress habe?

Wenn du WordPress hast, ist es einfacher, denn die besten SEO-Plugins wie Rank Math oder Yoast bringen ein integriertes Add-on mit, um die robots.txt direkt zu bearbeiten.

Bei Rank Math findest du es unter Rank Math > General Settings > Edit robots.txt

Bei Yoast müssen wir zu SEO > Tools > File Editor gehen.

So kannst du die Datei einfach bearbeiten oder erstellen, ohne die oben beschriebenen Schritte ausführen zu müssen.

Befehle

Im Folgenden werfen wir einen Blick auf viele der verfügbaren Befehle samt entsprechenden Beispielen:

Crawling deiner Website blockieren

User-agent: * Disallow: /

HINWEIS: Wenn du deine Website entwickelst und nicht möchtest, dass irgendein Bot eintritt, deine Inhalte liest und indexiert, funktioniert diese Regel hervorragend.

Crawling einer Seite blockieren

User-agent: * Disallow: /url-der-seite-die-ich-nicht-gecrawlt-haben-will

Crawling eines Ordners blockieren

User-agent: * Disallow: /ordner/

Zugriff auf eine Seite erlauben

User-agent: * Allow: /seite

Einen Ordner blockieren und eine Seite in diesem Ordner erlauben

User-agent: * Disallow: /ordner/ Allow: /ordner/seite

Sitemap angeben

Sitemap: https://domain.com/sitemap.xml

Spezifischen Bots Befehle geben

In diesem Fall halten wir uns etwas länger auf. Wenn du es bemerkt hast, begannen die meisten der vorherigen Anweisungen mit:

User-agent: *

Dieses „*" bezieht sich auf alle Bots. Das heißt, alle Anweisungen nach dieser Zeile gelten für alle Bots. Wenn wir spezifische Befehle an bestimmte Bots senden möchten, müssen wir das wie folgt ändern:

User-agent: Googlebot wenn wir uns auf den Bot von Google beziehen wollen

User-agent: Bingbot wenn wir uns auf den Bot von Bing beziehen wollen

User-agent: DuckDuckBot wenn wir uns auf den Bot von DuckDuckGo beziehen wollen

Alles, was du tun musst, ist herauszufinden, wie der Bot heißt, an den du eine Anweisung senden möchtest, und ihn so zu nennen, wie wir es gerade gezeigt haben.

Die robots.txt-Datei prüfen und testen

Jetzt, da du dein Robots-„Tuning" abgeschlossen hast, um es vollständig optimiert und für deine Website angepasst zu lassen, bleibt nur noch, es zu testen.

Testen? Wozu?

Naja, teste es, um sicherzustellen, dass wir keine Zeile vermasselt haben und dass es tatsächlich funktioniert, um die Teile der Website zu blockieren, die wir blockieren wollen.

Dafür empfehlen wir dieses Tool.

Sobald du drin bist, musst du nur:

Die URL eingeben, von der du prüfen willst, ob das Crawling erlaubt ist
Den User Agent wählen
Auf TEST klicken

Sofort danach wird unsere gesamte robots.txt-Datei geladen und darunter wird uns gesagt, ob der Zugriff erlaubt ist oder nicht.

In diesem Fall, wie wir sehen können, ergibt es ein positives Ergebnis, aber wenn wir eine URL eingeben würden, die nicht erlaubt ist, würde es auch die Zeile hervorheben, die sie blockiert:

Zusätzlich erlaubt uns dieses Tool, unsere robots.txt-Datei direkt von dort zu bearbeiten, um alle nötigen Änderungen vorzunehmen, sodass das Ergebnis unserem Ziel entspricht. Sobald geändert und getestet, müssen wir nur diese neuen Änderungen auf unsere Robots anwenden.

Bonus-Tipp: Mach deine robots.txt unvergesslich

Wir haben dir eine Menge Codezeilen gezeigt, die für Bots funktionieren, aber du kannst auch Kommentare einfügen, indem du die Zeile mit „#" beginnst. Das heißt, alles, was mit „#" beginnt, wird von den Bots ignoriert. Dies eröffnet eine Welt der Möglichkeiten und Insiderwitze. Aus diesem Grund ermutigen wir dich, die robots.txt von windupschool, pccomponentes oder Minube anzuschauen — du wirst sicher auf eine Überraschung stoßen.

Fazit

Wie du gesehen hast, hat die robots.txt-Datei viel zu bieten und erfordert auch viel Sorgfalt, denn eine falsch platzierte Anweisung kann das Crawling deiner Website blockieren.

Wir hoffen, dieser Leitfaden ist nützlich für dich, und bei Fragen sehen wir uns in den Kommentaren.

Autor: David Kaufmann

In den letzten über 10 Jahren habe ich mich komplett dem SEO verschrieben — und ehrlich gesagt möchte ich es nicht anders haben.

Meine Karriere erreichte eine neue Stufe, als ich als Senior SEO Specialist für Chess.com gearbeitet habe — eine der 100 meistbesuchten Websites im gesamten Internet. In dieser Größenordnung zu arbeiten, über Millionen von Seiten, Dutzende Sprachen und in einer der umkämpftesten SERPs überhaupt, hat mich Dinge gelehrt, die kein Kurs und kein Zertifikat je vermitteln könnte. Diese Erfahrung hat meine Sichtweise darauf verändert, wie großartiges SEO wirklich aussieht — und sie wurde zum Fundament für alles, was ich seitdem aufgebaut habe.

Aus dieser Erfahrung heraus habe ich SEO Alive gegründet — eine Agentur für Marken, die es mit organischem Wachstum ernst meinen. Wir sind nicht hier, um dashboards und monatliche Reports zu verkaufen. Wir sind hier, um Strategien zu entwickeln, die wirklich etwas bewegen, indem wir das Beste aus dem klassischen SEO mit der spannenden neuen Welt der Generative Engine Optimization (GEO) verbinden — damit deine Marke nicht nur in den blauen Links von Google auftaucht, sondern auch in den AI-generierten Antworten, die ChatGPT, Perplexity und Google AI Overviews tagtäglich Millionen von Menschen liefern.

Und weil ich kein Tool finden konnte, das beide Welten richtig abdeckt, habe ich selbst eines gebaut — SEOcrawl, eine Enterprise-SEO-Intelligence-Plattform, die rankings, technische Audits, backlinks-Monitoring, crawl-Health und AI-Brand-Visibility-Tracking an einem Ort vereint. Es ist die Plattform, die ich mir immer gewünscht habe.

→ Alle Artikel von David lesen