robots.txt : guide complet de configuration

robots.txt : guide complet de configuration
David Kaufmann
Tutoriels SEO
7 min read

Marre d'entendre parler de robots.txt sans savoir de quoi les gens parlent ? Pas d'inquiétude, aujourd'hui nous vous apportons la solution à votre problème. Dans ce billet, nous ferons de notre mieux pour expliquer ce qu'est le robots.txt, comment le configurer (notamment dans WordPress) et quel impact il peut avoir sur le SEO de notre projet.

C'est parti !

Qu'est-ce que le robots.txt et à quoi sert-il ?

Le robots.txt est tout simplement un fichier hébergé à la racine de votre site web qui vous permet d'empêcher certains bots (comme ceux de Google ou Bing) de visiter votre site web ou des parties de celui-ci.

ATTENTION : il est important de savoir qu'il s'agit d'un protocole et qu'en règle générale tous les « bons » bots s'y conforment (GoogleBot, BingBot, Semrush, ...) mais tout bot mal intentionné peut l'ignorer, comme Screaming Frog en cochant cette option :

ignorer robots.txt dans Screaming Frog
ignorer robots.txt dans Screaming Frog

Pourquoi le fichier robots.txt est-il important pour le SEO ?

Comme nous l'avons mentionné plus haut, tous les bons bots (comme GoogleBot) respectent ce protocole, donc ce que nous pouvons faire c'est utiliser ce fichier pour guider Google à travers notre site web.

Quoi ? Que voulez-vous dire ? Guider Google avec le robots.txt ?

Oui, ne vous inquiétez pas, nous allons l'expliquer avec un exemple pour que ce soit beaucoup plus clair :

Imaginez que sur votre site web vous avez une zone privée à laquelle seuls les utilisateurs enregistrés peuvent accéder, et comme nous le savons bien, Google ne peut accéder à aucun site qui requiert une connexion (encore...).

Alors, n'aurait-il pas du sens que Google ne gaspille pas notre budget de crawl à explorer des pages qui n'ont aucune valeur pour lui ?

Exactement ! L'une des utilisations les plus importantes du robots.txt est de bloquer les chemins qui ont peu de valeur pour Google et, ainsi, de le faire se concentrer sur les pages importantes de notre site. Pour cette raison, le robots.txt devrait être l'un des piliers à garder en tête dans notre stratégie SEO.

Ce n'est qu'un exemple parmi des milliers de choses que nous pouvons faire avec ce fichier. D'autres exemples incluent l'indication de notre sitemap, la réduction de l'intervalle de crawl, le blocage du crawl de ressources, ...

Comment créer le fichier robots.txt

Bien... au travail !

Créer ce fichier est vraiment simple : il suffit de prendre votre éditeur de texte (Notepad sur Windows ou TextEdit sur Mac) ou d'utiliser un éditeur en ligne et après avoir rédigé votre robots.txt, l'exporter en tant que fichier txt.

Une fois que nous l'avons, il ne reste qu'à le nommer « robots.txt » et à le téléverser à la racine de votre site via le panneau de votre serveur ou par FTP.

Pour vérifier qu'il a été correctement téléversé, il suffit d'ajouter « /robots.txt » à votre domaine, par exemple https://seocrawl.com/robots.txt

ATTENTION : Faites attention au cache, mieux vaut le voir en navigation privée ;)

Et si j'ai WordPress ?

Si vous avez WordPress, c'est plus simple car les meilleurs plugins SEO comme Rank Math ou Yoast incluent un add-on intégré pour éditer le robots.txt directement.

Dans le cas de Rank Math, vous le trouverez sous Rank Math > General Settings > Edit robots.txt

Robots TXT dans WordPress
Robots TXT dans WordPress

Dans le cas de Yoast, il faudra aller dans SEO > Tools > File Editor

Vous pouvez ainsi facilement éditer ou créer le fichier sans avoir à effectuer aucune des étapes expliquées ci-dessus.

Commandes

Voyons maintenant beaucoup des commandes dont nous disposons avec leurs exemples correspondants :

Bloquer le crawl de votre site

User-agent: * Disallow: /

NOTE : Si vous développez votre site et que vous ne voulez aucun bot qui entre, lit et indexe votre contenu, cette règle fonctionne très bien.

Bloquer le crawl d'une page

User-agent: * Disallow: /url-de-la-page-que-je-ne-veux-pas-crawler

Bloquer le crawl d'un dossier

User-agent: * Disallow: /dossier/

Autoriser l'accès à une page

User-agent: * Allow: /page

Bloquer un dossier et autoriser une page dans ce dossier

User-agent: * Disallow: /dossier/ Allow: /dossier/page

Indiquer le sitemap

Sitemap: https://domain.com/sitemap.xml

Donner des ordres à des bots spécifiques

Dans ce cas, nous nous attardons un peu plus. Si vous l'avez remarqué, la plupart des directives précédentes commençaient par :

User-agent: *

Ce « * » fait référence à tous les bots. C'est-à-dire que toutes les directives après cette ligne s'appliquent à tous les bots. Si ce que nous voulons faire est d'envoyer des ordres spécifiques à certains bots, il faudra changer cela comme suit :

User-agent: Googlebot Si nous voulons faire référence au bot de Google

User-agent: Bingbot Si nous voulons faire référence au bot de Bing

User-agent: DuckDuckBot Si nous voulons faire référence au bot de DuckDuckGo

Tout ce que vous avez à faire est de découvrir comment s'appelle le bot auquel vous voulez envoyer un ordre et de le nommer comme nous venons de vous le montrer.

Vérifier et tester le fichier robots.txt

Maintenant que vous avez fini de « tuner » votre robots pour le laisser entièrement optimisé et personnalisé pour votre site, il ne reste plus qu'à le tester.

Le tester ? Pour quoi faire ?

Eh bien, le tester pour s'assurer que nous n'avons pas fait de bêtise sur une ligne et qu'il fonctionne réellement pour bloquer les parties du site que nous voulons bloquer.

Pour cela, nous recommandons d'utiliser cet outil.

Outil pour vérifier robots txt
Outil pour vérifier robots txt

Une fois à l'intérieur, il suffit de :

  • Saisir l'URL pour laquelle vous voulez vérifier si le crawl est autorisé

  • Choisir le User Agent

  • Cliquer sur TEST

Juste après, tout notre fichier robots.txt sera chargé et en dessous il nous dira si l'accès est autorisé ou non.

Résultat test robots.txt
Résultat test robots.txt

Dans ce cas, comme nous pouvons le voir, il nous donne un résultat positif, mais si nous saisissions une URL non autorisée, il mettrait également en évidence la ligne qui la bloque :

Exemple URL bloquée par robots.txt
Exemple URL bloquée par robots.txt

De plus, cet outil nous permet d'éditer notre fichier robots.txt directement depuis là pour faire les modifications dont nous avons besoin afin que le résultat corresponde à notre objectif. Une fois modifié et testé, il ne reste qu'à appliquer ces nouvelles modifications à notre robots.

Astuce bonus : rendez votre robots.txt inoubliable

Nous vous avons montré une tonne de lignes de code qui fonctionnent pour les bots, mais vous pouvez aussi insérer des commentaires en commençant la ligne par un « # ». C'est-à-dire que tout ce qui commence par « # » sera ignoré par les bots. Cela ouvre un monde de possibilités et de blagues internes. Pour cette raison, nous vous encourageons à consulter le robots.txt de windupschool, pccomponentes ou Minube, vous tomberez sûrement sur une surprise.

Minube Robots TXT
Minube Robots TXT

Conclusion

Comme vous l'avez vu, le fichier robots.txt a beaucoup à offrir et nécessite aussi beaucoup de soin car une directive mal placée peut bloquer le crawl de votre site.

Nous espérons que ce guide vous sera utile et, pour toute question, on se voit dans les commentaires.

Auteur : David Kaufmann

David Kaufmann

Cela fait plus de 10 ans que je suis totalement obsédé par le SEO — et honnêtement, je ne voudrais pas qu'il en soit autrement.

Ma carrière a franchi un cap lorsque j'ai travaillé comme Senior SEO Specialist pour Chess.com — l'un des 100 sites les plus visités de tout Internet. Opérer à cette échelle, sur des millions de pages, des dizaines de langues et dans l'une des SERPs les plus concurrentielles qui soient, m'a appris des choses qu'aucun cours ni aucune certification ne pourrait jamais transmettre. Cette expérience a transformé ma vision de ce qu'est réellement un SEO d'excellence — et elle est devenue le socle de tout ce que j'ai construit depuis.

Forcé par cette expérience, j'ai fondé SEO Alive — une agence pour les marques qui prennent la croissance organique au sérieux. Nous ne sommes pas là pour vendre des dashboards et des rapports mensuels. Nous sommes là pour bâtir des stratégies qui font vraiment la différence, en combinant le meilleur du SEO classique avec le nouvel univers passionnant de la Generative Engine Optimization (GEO) — afin que votre marque apparaisse non seulement dans les liens bleus de Google, mais aussi dans les réponses générées par l'AI que ChatGPT, Perplexity et Google AI Overviews livrent chaque jour à des millions de personnes.

Et parce que je ne trouvais aucun outil capable de gérer correctement ces deux mondes, j'en ai construit un moi-même — SEOcrawl, une plateforme d'intelligence SEO pour les entreprises qui réunit rankings, audits techniques, monitoring des backlinks, santé du crawl et suivi de la visibilité de marque dans l'AI, le tout au même endroit. C'est la plateforme dont j'ai toujours rêvé.

→ Lire tous les articles de David
Plus d'articles de David Kaufmann

Découvrez plus de contenu de cet auteur