Phases et éléments du processus de crawling

Phases et éléments du processus de crawling
David Kaufmann
Tutoriels SEO
10 min read

Crawling, spiders, bots — ce sont des termes que tout SEO a l'habitude de manipuler au quotidien, et ils ont un poids essentiel dans toute stratégie de référencement, car si cette phase échoue, le reste échouera également.

Voyons en détail en quoi consiste un processus de crawling web.

Que signifie crawler un site web ?

Avant de poursuivre, définissons le processus de crawling d'un site web, en montrant l'importance qu'il revêt dans toute tentative d'apparaître dans les résultats de recherche de Google.

Crawler un site web s'entend comme le processus par lequel les spiders ou crawlers parcourent les différentes pages d'un site web, en collectant toutes les informations accessibles, pour les stocker, les traiter puis les classer.

Il convient de souligner quelques termes fondamentaux dans la définition que nous venons d'établir :

  • Parcours : pensez bien à une araignée. Cet aimable insecte doit passer par autant de pages que possible pour extraire le plus d'informations possible. Pour passer d'une page à une autre, elle le fait via les liens internes qui les relient. D'où l'importance d'avoir un maillage interne correct qui permet à ces spiders de « découvrir » — sinon la totalité — au moins les pages les plus pertinentes pour nous.

  • Accessibilité : les informations doivent être accessibles à ces spiders. C'est-à-dire que si d'une manière ou d'une autre nous limitons leur accès intentionnellement ou par erreur, nous empêcherons les spiders de pouvoir traiter tout le contenu, et donc de le comprendre et finalement de le classer.

Ce blocage ou cette limitation du contenu d'une page peut se produire de plusieurs manières différentes, que nous tenterons d'expliquer plus loin dans cet article.

Les crawlers

Nous avons parlé des spiders, également connus sous le nom de crawlers ou bots. Nous pouvons les définir comme des programmes qui analysent les documents de notre site web, c'est-à-dire comme des « bibliothécaires » qui cherchent, classent et organisent. Leur fonction principale est donc de constituer des bases de données. Il en existe plusieurs types, selon le type d'information qu'ils collectent. Mentionnons quelques-uns des plus courants.

Googlebot : le spider chargé de crawler notre contenu et de le catégoriser au sein des résultats organiques (SERP). Pour les SEO, c'est le plus important.

Au sein de ce type, nous pouvons distinguer certains sous-types :

  • Googlebot (smartphones) : version mobile

  • Googlebot (version desktop) : version bureau

  • Googlebot Images : chargé de crawler les images

  • Googlebot News : pour les actualités

  • Googlebot Video : c'est maintenant au tour des vidéos

Exemple de bot identifié dans nos logs :

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Ce ne sont pas les seuls — il en existe d'autres comme Adsbot, Adsense, etc. Ayant déjà mentionné les plus pertinents pour le secteur SEO, les différencier des autres n'est pas l'objet de cet article, mais vous pouvez trouver des informations supplémentaires au lien officiel de Google suivant.

Phases du processus de crawling et d'indexation de Google

Maintenant que nous savons ce qu'est le crawling, qui en est chargé et avons abordé le processus, examinons-le plus en détail.

Première phase : crawling et classification

Le processus par lequel nos pages apparaissent dans les résultats de Google passe par une première phase de crawling, comme nous l'avons vu, effectuée par les spiders (crawlers), afin qu'ils lisent, interprètent, indexent et classent notre contenu.

C'est ce nouveau mot que nous voulons analyser en détail, classer. Google doit parfaitement comprendre notre contenu, simplement et rapidement, car comme nous le verrons plus tard, Google passe un temps déterminé sur notre site, et durant ce temps, il doit « comprendre » notre contenu et l'associer aux différentes intentions de recherche des utilisateurs.

C'est pourquoi dans le SEO moderne, on entend si souvent le mot « Search Intent » (intention de recherche), puisque Google le prendra en compte dans cette classification et il définira la position que nos pages occupent dans les classements SERP.

C'est pour cela que le processus de crawling doit être propre, simple, rapide, sans obstacles, etc., afin que tout soit clair et que nous soyons classés correctement.

Phase deux : indexation

Nous ne pouvons pas oublier la phase d'indexation, qui précède la classification et joue également un rôle fondamental, puisque ce sera l'étape où Google ajoute notre contenu à sa base de données, c'est-à-dire qu'il l'indexe.

crawling web
crawling web

Bloquer les robots de Google

Nous avons mentionné précédemment qu'il existe des moyens par lesquels nous pourrions limiter l'accès de ces spiders à notre contenu. Pour cela, il existe un élément de poids vital en SEO connu sous le nom de robots.txt.

Le fichier robots.txt est un fichier texte que nous téléchargeons sur notre serveur, dans lequel nous donnons des instructions précises aux différents spiders pour leur permettre ou leur interdire de crawler des URL de notre site. Ce blocage peut s'appliquer :

  • au domaine entier

  • à un chemin spécifique

  • à une URL spécifique

  • ou à un ensemble d'URL qui correspondent à un certain motif.

Voyons un exemple de configuration de ce fichier :

User-agent: *

Disallow: /wp-admin/

Allow: wp-admin/admin-ajax.php

Sitemap: /sitemap.xml

Comme nous pouvons le voir, il a une première ligne où nous spécifions le user-agent (le nom du crawler que nous voulons bloquer ou autoriser, parmi ceux que nous avons vus précédemment), suivi des ordres « disallow » pour interdire l'entrée ou « allow » pour la permettre.

Dans le cas spécifique que nous voyons, en indiquant avec un * nous disons « tous les crawlers », sans exception. Nous leur interdisons d'entrer dans le chemin /wp-admin/, mais à l'intérieur de ce chemin nous voulons leur permettre d'entrer dans /admin-ajax.php.

Une configuration incorrecte de ce fichier peut nous amener à bloquer des parties importantes de notre contenu. C'est une erreur courante d'avoir tout le site bloqué pendant qu'il est en développement, puis d'oublier de retirer ce blocage après l'avoir mis en production, le rendant inaccessible à Google.

Un autre problème que les spiders de Google pourraient rencontrer en crawlant notre contenu est de ne pas pouvoir suivre les liens internes que nous avons sur notre site, et donc de ne pas accéder au reste des URL. Cela se produit lorsque nous utilisons des éléments javascript au lieu de « href » dans ces liens. Cette pratique est très courante, puisque utiliser JS présente de nombreux avantages au niveau utilisateur, mais s'il n'est pas utilisé correctement et ajouté aux liens internes, Google pourrait ne pas être en mesure de les suivre.

Dans le monde du SEO, cela s'appelle « link obfuscation » (obfuscation de liens). À ce jour, c'est un débat ouvert de savoir si Google est capable de crawler et de rendre correctement les pages réalisées en JS.

Codes de réponse du serveur

Pour continuer à bien comprendre ce processus, nous ne pouvons pas omettre un concept que les SEO doivent gérer quotidiennement, les codes de réponse du serveur.

Auparavant, nous avons vu le cycle par lequel Google nous trouve, mais comment cela se passe-t-il ? Un utilisateur effectue une recherche (une requête) sur Google. Le moteur de recherche va dans sa base de données et montre les résultats les plus pertinents (SERP), selon la classification effectuée, pour cette recherche.

Une fois que l'utilisateur voit les différents résultats (impressions), il clique sur l'un d'eux, celui qui à son avis correspond le mieux à ce dont il a besoin. À ce moment-là, la requête de Google au serveur où le site web est hébergé entre en jeu, afin qu'il « serve » le contenu.

Lorsque cela se produit, la réponse du serveur est produite via le code correspondant. Nommons les plus pertinents qu'en tant que SEO, nous devons prendre en compte :

  • 200 : ce code de réponse est celui qui dit à Google que la page existe, qu'elle a du contenu et qu'il n'y a pas de problème pour l'afficher. C'est le plus désiré par les SEO, à condition que le contenu de cette page avec un code 200 soit optimal.

  • 30x : la famille des codes d'état 30x correspond aux redirections. Les plus notables sont les 301 (permanente), 302 et 307 (temporaires). Fondamentalement, elles disent à Google « hé, cette URL A que tu as demandée n'est plus celle-ci, c'est cette autre URL B ». Il y en a d'autres, mais elles ne sont pas le centre du concept que nous développons. Il est important de savoir qu'en tant que SEO, les préférées sont les 301, qui transfèrent toute l'autorité.

Lecture recommandée : Tutoriel sur les redirections 301

  • 40X : codes d'erreur. Les moins désirés par les SEO. Le plus courant est la fameuse 404. Lorsque ce code apparaît, nous disons à Google en réponse à sa requête pour une URL qu'elle n'existe plus et qu'il s'agit donc d'une erreur.

  • 410 : nous avons voulu distinguer celle-ci de la famille 40x pour sa valeur SEO. Lorsque nous utilisons ce code, en réponse à une requête du serveur de Google pour une URL, nous lui disons qu'elle est « partie pour de bon ». C'est intéressant car, contrairement à la 404, Google comprend qu'elle ne sera plus jamais là et arrêtera de tenter de la crawler, alors qu'avec la 404, il la crawlera à nouveau pensant que nous voudrions peut-être la corriger.

  • 50x : ce type de réponse est lié aux erreurs serveur. Lorsque notre machine échoue pour une raison quelconque, et que Google tente de nous demander le contenu d'une URL, si le serveur tombe en panne, il renvoie un code d'état 505.

Crawl Budget

À ce stade de l'article, il nous reste encore à aborder un terme qui est devenu populaire il y a quelques années dans le monde du SEO, connu sous le nom de crawl budget.

Le crawl budget fait référence au temps que les spiders de Google passent à crawler un site et toutes ses URL. Il s'agit, comme nous l'avons dit précédemment, d'un temps fini. D'où l'importance d'avoir notre site optimisé, afin de lui faciliter la tâche pour voir les pages les plus pertinentes de notre site dans ce temps.

Ce temps que les crawlers passent à parcourir notre site n'est pas une valeur fixe, il croîtra ou diminuera selon des aspects tels que la fréquence à laquelle nous mettons à jour le contenu, l'autorité de notre domaine (popularité), etc.

Plus la qualité de notre site est élevée, plus l'autorité est grande et plus le contenu est frais, plus Google nous considérera comme pertinents et allouera plus de budget à notre crawling.

Avec des programmes de crawling tels que Screaming Frog, nous effectuons des crawls idéalement simulés de notre site, c'est-à-dire comme si les spiders avaient tout le temps du monde pour parcourir chacune de nos URL.

Mais ce n'est pas ainsi que cela fonctionne lorsque l'on parle de Googlebot — plutôt, chaque fois que Google visite notre site, il visitera certaines URL plus que d'autres. En fait, il se peut qu'il y en ait certaines qu'il ne visite même pas. Nous analyserons cela avec ce qu'on appelle les logs serveur (enregistrements des URL que Google a crawlées, à quelle fréquence et combien de fois sur une période donnée).

Jusqu'ici, toute l'analyse pour comprendre ce qu'est le crawling et les différents éléments qui font partie du système de crawling de Google.

Des questions ou suggestions ? Comme toujours... nous serions ravis de vous lire !

Auteur : David Kaufmann

David Kaufmann

Cela fait plus de 10 ans que je suis totalement obsédé par le SEO — et honnêtement, je ne voudrais pas qu'il en soit autrement.

Ma carrière a franchi un cap lorsque j'ai travaillé comme Senior SEO Specialist pour Chess.com — l'un des 100 sites les plus visités de tout Internet. Opérer à cette échelle, sur des millions de pages, des dizaines de langues et dans l'une des SERPs les plus concurrentielles qui soient, m'a appris des choses qu'aucun cours ni aucune certification ne pourrait jamais transmettre. Cette expérience a transformé ma vision de ce qu'est réellement un SEO d'excellence — et elle est devenue le socle de tout ce que j'ai construit depuis.

Forcé par cette expérience, j'ai fondé SEO Alive — une agence pour les marques qui prennent la croissance organique au sérieux. Nous ne sommes pas là pour vendre des dashboards et des rapports mensuels. Nous sommes là pour bâtir des stratégies qui font vraiment la différence, en combinant le meilleur du SEO classique avec le nouvel univers passionnant de la Generative Engine Optimization (GEO) — afin que votre marque apparaisse non seulement dans les liens bleus de Google, mais aussi dans les réponses générées par l'AI que ChatGPT, Perplexity et Google AI Overviews livrent chaque jour à des millions de personnes.

Et parce que je ne trouvais aucun outil capable de gérer correctement ces deux mondes, j'en ai construit un moi-même — SEOcrawl, une plateforme d'intelligence SEO pour les entreprises qui réunit rankings, audits techniques, monitoring des backlinks, santé du crawl et suivi de la visibilité de marque dans l'AI, le tout au même endroit. C'est la plateforme dont j'ai toujours rêvé.

→ Lire tous les articles de David
Plus d'articles de David Kaufmann

Découvrez plus de contenu de cet auteur