Crawl Budget : ce que c’est, et comment l’optimiser pour le SEO

Crawl Budget : ce que c’est, ce que signifie le paramètre et comment l’optimiser pour le SEO

Il s'agit du paramètre qui identifie le temps et les ressources que Google entend consacrer à un site web par le biais des analyses de Googlebot, une valeur qui n'est pas unique et définissable numériquement, comme l'ont précisé à plusieurs reprises les sources officielles de la société, bien que nous puissions toujours intervenir pour l'optimiser. Nous parlons aujourd'hui du budget de crawl, un sujet qui devient de plus en plus central pour l'amélioration des performances des sites, et des différentes stratégies pour optimiser ce paramètre et perfectionner l'attention que le crawler peut consacrer aux contenus et aux pages qui sont prioritaires pour nous.

Quel est le budget de crawl ?

Google aime-t-il mon site web ? C'est la question que devrait se poser toute personne ayant un site web qu'elle souhaite positionner sur les moteurs de recherche. Il existe plusieurs méthodes pour savoir si Big G aime vraiment votre site, par exemple grâce aux données de la Google Search Console et au rapport Crawl Statistics, un outil qui nous permet de connaître les statistiques de crawl des 90 derniers jours et de savoir combien de temps le moteur de recherche passe sur notre site.

Pour faire encore plus simple, nous pouvons ainsi savoir quel budget de crawl Big G nous a alloué.

Optimisez votre Budget de Crawl avec Metadosi

Metadosi va optimiser votre site internet afin d'augmenter votre Budget de Crawl Google pour votre SEO

La définition du budget de crawl

Le budget de crawl est un paramètre, ou plutôt une valeur, que Google attribue à notre site. En pratique, il s'agit d'un budget dont Googlebot dispose pour analyser les pages de notre site. Grâce à la Search Console, il est possible de voir combien de fichiers, de pages et d'images sont téléchargés et analysés chaque jour par le moteur de recherche.

Il est facile de voir que plus cette valeur est élevée, plus nous sommes importants pour le moteur de recherche lui-même. En pratique, si Google scanne et télécharge autant de pages chaque jour, cela signifie qu'il veut notre contenu parce qu'il est considéré comme de qualité et de valeur pour la composition de ses SERPs.

Exemple de budget de Crawl
Exemple de budget de Crawl

Capture d'écran des statistiques de crawl de la Search Console. Il y a deux valeurs principales à prendre en compte : le nombre de pages que Google crawle chaque jour et le temps que cela prend pour le faire. Voyons cela en détail :

  • Pages explorées quotidiennement : la valeur idéale est d'avoir un nombre total de pages explorées supérieur au nombre de pages du site web, mais un nombre égal de pages explorées au nombre de pages du site web est plus que satisfaisant.
  • Temps de téléchargement : il indique principalement le temps nécessaire à Googlebot pour analyser nos pages. Nous devons maintenir cette valeur basse en augmentant la vitesse de notre site Web. Cela aura également une incidence sur le nombre de ko téléchargés par le moteur de recherche lors des analyses, c'est-à-dire sur la facilité (et la rapidité) avec laquelle Google parvient à "télécharger" les pages d'un site web.

Les deux images publiées ici montrent également l'évolution de ce domaine : les valeurs qui, en 2016 (écran supérieur), signalaient une activité moyenne, sont désormais indicatrices d'une demande de faible intensité.

Quel est le budget de crawl pour Google ?

En changeant d'approche, le budget d'exploration est le nombre d'URL que Googlebot peut (en fonction de la vitesse du site) et veut (en fonction de la demande des utilisateurs) explorer. Conceptuellement, il s'agit donc de la fréquence équilibrée entre les tentatives de Googlebot de ne pas surcharger le serveur et le désir général de Google d'explorer le domaine.

Soigner cet aspect peut permettre d'augmenter la vitesse à laquelle les robots des moteurs de recherche visitent les pages du site ; plus la fréquence de ces passages est élevée, plus l'index détecte rapidement les mises à jour des pages. Par conséquent, une valeur d'optimisation du budget de crawl plus élevée peut potentiellement aider à maintenir le contenu populaire à jour et à empêcher le contenu plus ancien de devenir obsolète.

Comment est mesuré le budget du crawl

Le budget d'exploration peut être défini comme le nombre d'URL que Googlebot peut et veut explorer, et détermine le nombre de pages que les moteurs de recherche analysent au cours d'une session de recherche pour les indexer. En termes techniques, sa valeur dépend de la vitesse d'exploration et de la demande d'exploration.

Que sont le taux d'exploration et la demande d'exploration ?

L'expression "taux de balayage" fait référence au nombre de requêtes par seconde qu'une araignée effectue sur un site et au temps qui s'écoule entre deux balayages, tandis que la demande de balayage est la fréquence à laquelle ces robots balayent. Par conséquent, selon les conseils officiels de Google, les sites qui doivent faire plus attention à ces aspects sont ceux qui sont plus grands et ont plus de pages, ou ceux qui ont des pages générées automatiquement sur la base de paramètres d'URL.

Les limites du taux de crawl pour un site

En approfondissant les explications, la limite du taux d'exploration est d'abord donnée par le respect du site : Googlebot essaiera de ne jamais détériorer l'expérience de l'utilisateur en raison d'une surcharge de recherche. Ainsi, il existe pour chaque site un nombre maximal de connexions parallèles simultanées que Googlebot peut utiliser pour l'exploration, et le taux d'exploration peut augmenter ou diminuer en fonction de la santé (si un site répond rapidement, la limite augmente et Google utilise davantage de connexions pour l'exploration ; si l'exploration est lente ou si des erreurs de serveur se produisent, la limite diminue) et de la limite imposée dans Search Console.

La popularité et l'obsolescence déterminent la demande d'exploration de Google.

La demande de crawl, quant à elle, est liée à la popularité : les URL les plus populaires sur le Web ont tendance à être crawlées plus fréquemment afin de les garder plus "fraîches" dans l'index de Google. En outre, les systèmes des moteurs de recherche tentent d'éviter le staleness, c'est-à-dire que les URL deviennent obsolètes dans l'index.

Pourquoi le budget de crawl est important pour le référencement

Lorsqu'il est optimisé, le budget de crawl permet aux webmasters de donner la priorité aux pages qui doivent être crawlées et indexées en premier, dans le cas où les crawlers peuvent analyser chaque chemin. À l'inverse, gaspiller les ressources du serveur sur des pages qui ne génèrent pas de résultats et ne produisent pas réellement de valeur a un effet négatif et risque de priver un site de contenu de qualité.

Comment augmenter le budget "crawl" ?

Mais existe-t-il un moyen d'augmenter le budget de crawl que Google met lui-même à disposition ? La réponse est oui, et il suffit de quelques astuces.

L'une des façons d'augmenter le budget de crawl est certainement d'augmenter la confiance du site. Comme nous le savons tous, les liens sont l'un des facteurs de classement de Google : si un site est lié, cela signifie qu'il est "recommandé" et, par conséquent, le moteur de recherche interprète cela comme une recommandation et prend donc le contenu en considération.

Le budget de crawl est également influencé par la fréquence de mise à jour du site, c'est-à-dire la quantité de nouveau contenu créé et la fréquence. En pratique, si Google vient sur un site Web et découvre de nouvelles pages chaque jour, il réduira le temps nécessaire à l'exploration du site. Un exemple concret : généralement, un site d'information qui publie 30 articles par jour aura un temps d'exploration plus court qu'un blog qui publie un article par jour.

Une autre façon d'augmenter le budget de crawl est certainement la vitesse du site web, c'est-à-dire la réponse du serveur pour servir la page demandée à Googlebot. Enfin, nous pouvons également utiliser le fichier robots.txt pour empêcher Googlebot d'explorer les pages qui comportent une balise "noindex" ou "canonical", afin qu'il n'ait pas à les voir et à les explorer de toute façon pour savoir s'il peut les indexer ou non ; en utilisant intelligemment le fichier robots.txt, nous pouvons donc permettre au robot d'exploration de se concentrer sur les meilleures pages du site Web.

Comment améliorer le budget crawl

Plus généralement, l'une des façons les plus immédiates d'optimiser le budget d'exploration est de limiter la quantité d'URL de faible valeur sur un site Web, qui peuvent prendre un temps et des ressources précieux au détriment de l'exploration des pages les plus importantes d'un site.

Les pages de faible valeur comprennent celles qui contiennent du contenu dupliqué, des pages d'erreur logicielle, une navigation à facettes et des identifiants de session, ainsi que les pages compromises par le piratage, les espaces infinis et les proxies, et bien sûr le contenu de faible qualité et le spam. Un premier travail qui peut être fait est donc de vérifier ces problèmes sur le site, notamment en vérifiant les rapports d'erreurs de crawl dans Search Console et en minimisant les erreurs de serveur.

Optimisation du budget de crawl pour le SEO, meilleures pratiques

Un article approfondi d'Aleh Barysevich, publié sur Search Engine Land, présente une liste de conseils pour optimiser le budget d'exploration et améliorer la capacité d'exploration d'un site, avec 8 règles simples à suivre pour chaque site :

  • Ne bloquez pas les pages importantes.
  • Tenez-vous-en au HTML lorsque cela est possible, en évitant les fichiers JavaScript lourds ou d'autres formats.
  • Résoudre de longues chaînes de réorientation.
  • Signaler les paramètres des URL à Googlebot.
  • Corriger les erreurs HTTP.
  • Maintenez les sitemaps à jour.
  • Utilisez la méthode rel canonical pour éviter le contenu dupliqué.
  • Utilisez les balises hreflang pour indiquer le pays et la langue.
Gary Illyes sur le Crawl Budget et Disalow
Gary Illyes sur le Crawl Budget et Disalow

Un autre conseil technique pour optimiser le budget d'exploration d'un site nous vient de Gary Illyes, qui explique comment le fait d'activer la commande disallow sur les URL non pertinentes vous permet de ne pas grever le budget d'exploration, et donc d'utiliser la commande disallow dans le fichier robots peut vous permettre de mieux gérer l'exploration de Googlebot. Plus précisément, dans une conversation sur Twitter, le Googler a expliqué que "si vous interdisez un répertoire inutile contenant des millions d'URL, vous gagnez en budget d'exploration", car le robot consacrera son temps à l'analyse et à l'exploration de ressources plus utiles sur le site.

Mesures possibles d’optimisation du site

En approfondissant les conseils décrits ci-dessus, nous pouvons alors définir quelques interventions spécifiques qui pourraient aider à mieux gérer le budget de crawl du site : rien de particulièrement "nouveau", car il s'agit de signes bien connus de la santé d'un site Web.

La première suggestion est presque triviale, à savoir autoriser l'analyse des pages importantes du site dans le fichier robots.txt, une étape simple mais décisive pour avoir sous contrôle les ressources analysées et celles bloquées. De même, il est bon de soigner le plan du site XML, afin de donner aux robots un moyen facile et rapide de comprendre où mènent les liens internes ; n'oubliez pas d'utiliser uniquement les URL canoniques pour le plan du site et de toujours le mettre à jour à la version la plus récente chargée dans le fichier robots.txt.

Il serait également judicieux de vérifier - ou d'éviter complètement - les chaînes de redirection, qui obligent Googlebot à analyser plusieurs URL : en présence d'un quota excessif de redirections, le robot d'exploration du moteur de recherche peut soudainement mettre fin à l'analyse sans atteindre la page qu'il doit indexer. Si les 301 et 302 doivent être limités, d'autres codes d'état HTTP sont encore plus nuisibles : les pages 404 et 410 consomment techniquement des budgets de crawl et nuisent également à l'expérience utilisateur du site. Les erreurs 5xx liées au serveur ne sont pas moins ennuyeuses, c'est pourquoi il est bon d'effectuer une analyse périodique et un bilan de santé du site, peut-être en utilisant notre spider SEO !

Un autre point à prendre en compte est celui des paramètres de l'URL, car des URL distinctes sont comptées par les robots d'exploration comme des pages séparées, ce qui fait perdre une partie précieuse du budget et risque également de soulever des doutes quant au contenu dupliqué. Dans le cas de sites multilingues, il faut également utiliser au mieux la balise hreflang, en informant Google le plus clairement possible des versions géo-localisées des pages, tant avec l'en-tête qu'avec l'élément pour une URL donnée.

Enfin, un choix de base pour améliorer le crawling et simplifier l'interprétation de Googlebot pourrait être de toujours préférer le HTML aux autres langages : même si Google apprend à gérer JavaScript de plus en plus efficacement (et il existe de nombreuses techniques d'optimisation SEO de JavaScript), le vieux HTML reste le code qui donne les meilleures garanties.

Les problèmes critiques de référencement du budget de crawl

L'un des Googlers qui a le plus souvent abordé cette question est John Mueller qui, en particulier, a souligné sur Reddit qu'il n'y a pas de point de référence pour le budget crawl de Google, et qu'il n'y a donc pas de "nombre" de référence optimal à viser lors du travail sur le site.

Ce que nous pouvons faire, en termes pratiques, c'est essayer de réduire le gaspillage sur les pages "inutiles" de notre site - c'est-à-dire celles qui n'ont pas de mots-clés positionnés ou qui ne génèrent pas de visites - afin d'optimiser l'attention que Google consacre aux contenus qui sont importants pour nous et qui peuvent générer plus de trafic.

L'absence d'un point de référence ou d'une valeur idéale sur laquelle fonder toute la discussion sur le budget d'exploration repose sur des abstractions et des théories : ce dont nous sommes sûrs, c'est que Google est généralement plus lent à explorer toutes les pages d'un petit site qui n'est pas mis à jour souvent ou qui n'a pas beaucoup de trafic qu'un grand site avec de nombreuses modifications quotidiennes et un trafic organique important.

Le problème réside dans la quantification des valeurs de "souvent" et "très", mais surtout dans l'identification d'un nombre unique aussi bien pour les grands sites puissants que pour les petits blogs ; par exemple, toujours théoriquement, une valeur de X budget crawl atteint par un grand site web pourrait être problématique, alors que pour un blog avec quelques centaines de pages et quelques centaines de visiteurs par jour, il pourrait s'agir du niveau maximum atteint, difficile à améliorer.

Hiérarchisation des pages pertinentes

C'est pourquoi une analyse sérieuse de ce "budget de recherche d'indexation" devrait se concentrer sur la gestion globale du site, en essayant d'améliorer la fréquence des résultats sur les pages importantes (celles qui convertissent ou attirent du trafic) à l'aide de différentes stratégies, plutôt que d'essayer d'optimiser la fréquence globale de l'ensemble du site.

Les tactiques rapides pour y parvenir sont les redirections pour éloigner Googlebot des pages moins importantes (en les empêchant d'être explorées) et l'utilisation de liens internes pour canaliser plus d'importance vers les pages que vous voulez promouvoir (qui, ça va sans dire, doivent fournir un contenu de qualité). Si nous travaillons bien dans cette direction - en utilisant également les outils de Metadosi pour vérifier sur quelles URL il est préférable de se concentrer et de concentrer les ressources - nous pourrions augmenter la fréquence des visites de Googlebot sur le site, car Google devrait théoriquement voir plus de valeur dans l'envoi de trafic vers les pages qu'il indexe, met à jour et classe.

Comprendre si un site est apprécié par Google sans Search Console

Si nous n'avons pas accès à Search Console (par exemple, si nous ne possédons pas le site), il est toujours possible de savoir si le moteur de recherche apprécie le site avec certains outils. Nos allons identifier, les métriques natives qui identifie instantanément l'influence et la pertinence d'un site pour Google.

L'autorité prend en compte de nombreux critères, et pas seulement les pages figurant dans le top 10 de Google ou le nombre de liens obtenus. Une valeur élevée équivaut donc à une sympathie générale du moteur de recherche, qui récompense le contenu de ce site par une visibilité fréquente - et nous pouvons également analyser la pertinence par thème grâce à la métrique du Topical Trust Flow.

Plus précisément, chaque outil, Majestic, Ahref, ou MOZ cataloguent les pages web de chaque site projeté et les regroupent en fonction de leur performance dans les moteurs de recherche. Ainsi, nous savons clairement où intervenir, comment le faire et quand éliminer les pages inutiles ou dupliquées qui gaspillent le budget de crawl.

En pratique, cet outil nous donne une visualisation concise et immédiate des URLs qui consomment et gaspillent le plus de ressources du crawler, afin que nous puissions intervenir et rendre plus efficace la gestion du site dans son ensemble.

Dernières considérations sur le budget de Crawl

En fin de compte, il devrait être clair que le contrôle du budget de crawl est très important, car il peut être une indication positive que Google aime nos pages, surtout si notre site est scanné tous les jours, plusieurs fois par jour.

Selon Illyes - auteur en 2017 d'un article approfondi sur le blog officiel de Google - le budget d'exploration ne devrait toutefois pas trop s'inquiéter si "les nouvelles pages ont tendance à être explorées le jour même de leur publication" ou "si un site compte moins de quelques milliers d'URL", car cela signifie généralement que l'exploration de Googlebot fonctionne efficacement.

D'autres voix publiques chez Google ont également souvent exhorté les propriétaires de sites et les webmasters à ne pas trop s'inquiéter des budgets de crawl, ou plutôt à ne pas penser exclusivement aux aspects techniques absolus lors de l'optimisation onsite. Par exemple, dans un échange sur Twitter, John Mueller recommande de se concentrer d'abord sur les effets positifs de cette stratégie sur l'expérience utilisateur et l'augmentation des conversions.

John Mueller et le Crawl Budget
John Mueller et le Crawl Budget

Pour être précis, Search Advocat affirme qu'il existe de nombreuses bonnes pratiques pour optimiser le budget d'exploration, mais qu'elles peuvent avoir peu d'effets pratiques : par exemple, la suppression de 25 pages inutiles est un bon moyen d'alléger les sites et d'empêcher les utilisateurs de se perdre dans la navigation, mais ce n'est pas quelque chose à faire pour améliorer le budget d'exploration (question du budget d'exploration) ou pour espérer des gains de classement concrets.

Inscrivez-vous à notre Newsletter

Évaluer ce page

Pin It on Pinterest