Un guide des codes HTTP pour le SEO
La classique erreur 404, les redirections 301 ou l'erreur 500 du serveur interne : pour certains, il s'agit simplement de chiffres apparemment sans signification, tandis que d'autres, plus expérimentés, savent qu'ils peuvent cacher de nombreux pièges pour l'efficacité d'un site. Dans nos examens approfondis, nous avons souvent rencontré ces éléments, qui font partie de la liste des codes d'état HTTP, des informations que le navigateur client transmet aux utilisateurs qui naviguent sur les pages Web en effectuant des requêtes pour se lier à des URL spécifiques. Aujourd'hui, Google approfondit ces questions, avec un guide détaillé et officiel sur la façon dont les codes d'erreur affectent le référencement et les performances des sites dans Google Search.
Que sont les codes d’état HTTP
Un code d'état HTTP est la réponse du serveur à une demande du navigateur, identifiée par un code à trois chiffres.
Savoir ce que sont et ce que signifient les codes d'état HTTP, également appelés codes de statut et donc également identifiés par notre Crawler CrawlerDosi, est d'une importance fondamentale pour les gestionnaires de sites et les spécialistes du référencement, car cela leur permet de comprendre comment la navigation du site fonctionne en pratique, s'il y a des problèmes pour atteindre certaines ressources ou si certaines erreurs peuvent affecter le classement des pages.
Ce que signifient les codes HTTP
Les codes indiquent la réponse que le serveur d'un site a générée à une requête HTTP spécifique d'un navigateur : selon le type, cette action peut être menée à bien ou, au contraire, être bloquée par une erreur. Pour les utilisateurs, certaines formes d'erreurs sont visibles, comme les 404 ou 503, pour lesquelles des pages HTML sont automatiquement créées sur le navigateur, tandis que d'autres problèmes sont invisibles et ne sont repérables qu'au moyen d'analyses plus approfondies avec des outils spécifiques tels que les audits SEO.
Les cinq catégories de code HTTP
En fonction du type de réponse, il existe cinq catégories principales de réponse au code d'état, identifiées par le premier chiffre du code :
1xx : Informatif.
Le serveur informe le client que la demande a été reçue et que les informations sont en cours de traitement.
2xx : Succès.
L'opération s'est déroulée avec succès. Ainsi, le serveur a reçu, traité et accepté l'entrée du client, et l'utilisateur visualise généralement directement la page web ou la ressource demandée.
3xx : Redirection.
Le serveur reçoit la demande, mais d'autres actions et étapes côté client sont nécessaires pour l'exécuter correctement, car il y a des transferts et des redirections.
4xx : Erreur du client.
Il s'agit de la première catégorie d'erreurs : la demande ne peut être satisfaite en raison de problèmes côté client, tels qu'une syntaxe incorrecte ou une page supprimée. L'utilisateur voit une page html automatique signalant l'erreur.
5xx : Erreur de serveur.
Ce type de code indique des problèmes côté serveur, ce qui ne permet pas de compléter correctement une requête apparemment valide. L'erreur de serveur peut être temporaire ou permanente, et dans ce cas également, l'utilisateur reçoit une page html signalant la circonstance.
Un guide des principaux codes HTTP
Cette vue d'ensemble étant terminée, voyons quels sont les principaux codes d'état qui surviennent lors de la gestion d'un site web, ceux qu'il est essentiel de connaître (et éventuellement de corriger) pour éviter des problèmes du côté du SEO. L'image montre la liste la plus exhaustive des codes d'état HTTP, y compris les moins fréquents.
Code d'état 200 : OK. Il s'agit de la réponse normale et régulière dans le dialogue entre le serveur et le navigateur, car elle indique que tout fonctionne correctement : toutes les données demandées ont été identifiées sur le serveur web et transmises au client sans aucun problème. Les visiteurs, les robots et les araignées ne trouvent aucune erreur et naviguent sans problème sur les pages.
Code de statut 301 : Redirection permanente. Le serveur communique que la ressource demandée a été déplacée de façon permanente vers une nouvelle page au moyen d'une redirection permanente : les utilisateurs ne voient pas le code, mais l'URL demandée est automatiquement modifiée dans la barre d'adresse et l'ancienne n'est plus valide. Comme nous allons le voir, le traitement de cette action a une forte influence sur le référencement.
Code d'état 302 : Redirection temporaire. Dans ce cas, le transfert de ressources est temporaire : le serveur déplace les visiteurs et les robots vers la nouvelle page, mais l'ancienne page et l'ancienne adresse restent valides.
Code d'état 404 : Page non trouvée. Nous avons consacré un article spécifique à cette erreur, nous pouvons donc simplement vous rappeler que le code d'état 404 indique que les données de la page demandée n'ont pas été localisées sur le serveur.
Code d'état 410 : disparu. Cette erreur est plus définitive que la précédente, car elle indique que la page n'est non seulement plus disponible pour le moment, mais aussi qu'elle ne le sera plus à l'avenir. Tous les liens pointant vers une page 410 conduisent les robots et les utilisateurs vers des ressources mortes. Pour une meilleure gestion, vous devez donc supprimer toutes les références du contenu.
Code d'état 500 : erreur interne du serveur. Ce ne sont pas seulement les pages du site qui ont des problèmes, mais le serveur lui-même, qui ne peut pas satisfaire une demande apparemment valide. L'erreur 500 signale des problèmes génériques et inattendus du serveur, qui empêchent un accès correct au site : vous devez analyser le type de problème et essayer de comprendre si des interventions, des réparations ou des rapports au serveur sont nécessaires pour rétablir la situation normale.
Code d'état 503 : Service indisponible. Le serveur concerné est en panne, surchargé ou temporairement hors service (même pour des travaux de maintenance) : le code 503 indique aux moteurs de recherche de revenir bientôt car la page ou le site ne sera indisponible que pour une courte période.
Guide de Google sur les effets des codes de statut HTTP sur le référencement des sites Web
Comme indiqué, Google a également publié une ressource sur son site Search Central pour clarifier certains aspects du sujet, en décrivant "comment les différents codes d'état HTTP, les erreurs réseau et les erreurs DNS affectent la recherche Google".
Plus précisément, il couvre les 20 premiers codes d'état que Googlebot a rencontrés sur le Web, ainsi que les erreurs de réseau et de DNS les plus importantes : cela signifie donc qu'il n'y a pas de place pour les codes d'état les plus particuliers et les plus bizarres, tels que 418 I'm a teapot. En outre, tous les problèmes mentionnés sur la page génèrent une erreur ou un avertissement correspondant dans le rapport Statistiques d'analyse de la Search Console.
Le document est divisé en trois sections - codes d'état HTTP, erreurs réseau et erreurs DNS - et offre une introduction descriptive au sujet, avec des informations actualisées et, surtout, des détails intéressants sur la façon dont Google réagit à diverses situations. Par exemple :
- Google tentera 10 sauts pour les redirections, après quoi il considérera l'URL avec une erreur de redirection dans Search Console.
- Redirection 301 vs 302 : pour Google, une redirection 301 est un signal fort que la cible de la redirection doit être canonique, tandis qu'une redirection 302 est un signal faible que la cible de la redirection doit être canonique.
- Les codes d'état 200 garantissent que la page sera envoyée au pipeline d'indexation, mais ne garantissent pas que la page sera effectivement indexée.
Google et les codes de statut HTTP
Les codes d'état HTTP, rappelle le document, sont générés par le serveur qui héberge le site lorsqu'il répond à une demande formulée par un client, tel qu'un navigateur ou un robot d'exploration. Chaque code d'état HTTP a une signification différente, mais le résultat de la demande est souvent le même. Par exemple, il existe plusieurs codes d'état qui signalent une redirection, mais leur résultat pratique est le même.
Search Console génère des messages d'erreur pour les codes d'état dans la plage 4xx-5xx et pour les redirections échouées (3xx). Si le serveur a répondu avec un code de statut 2xx, le contenu reçu dans la réponse peut être considéré pour l'indexation (mais, comme nous l'avons dit, il n'y a aucune garantie qu'il sera effectivement indexé par la suite).
Code d'état 2xx (succès)
Google considère le contenu pour l'indexation. Si le contenu suggère une erreur, telle qu'une page blanche ou un message d'erreur, Search Console affichera une erreur soft 404.
- http code 200 (succès / succès)
- code 201 (créé / créé)
Dans ces deux cas, Googlebot transmet le contenu au pipeline d'indexation. Les systèmes d'indexation peuvent indexer le contenu, mais ce n'est pas garanti.
- code 202 (accepté / accepté)
Googlebot attend le contenu pendant un temps limité, puis transmet tout ce qu'il a reçu au pipeline d'indexation. Le délai d'attente dépend de l'agent utilisateur : par exemple, Googlebot Smartphone peut avoir un délai d'attente différent de celui de Googlebot Image.
- http code 204 (pas de contenu / pas de contenu)
Googlebot signale au pipeline d'indexation qu'il n'a pas reçu de contenu. Search Console peut afficher une erreur "soft 404" dans le rapport d'état de la couverture de l'index du site.
Code d'état 3xx (redirections)
Googlebot suit jusqu'à 10 redirections, comme indiqué : si le robot d'exploration ne reçoit pas le contenu dans les 10 sauts, Search Console affiche une erreur de redirection dans le rapport de couverture de l'index du site. Le nombre de sauts que Googlebot suit dépend de l'agent utilisateur, et par exemple Googlebot Smartphone peut avoir une valeur différente de celle de Googlebot Image.
Google signale également que dans le cas de robots.txt, il suit au moins cinq sauts de redirection tels que définis par la RFC 1945, puis s'arrête et le traite comme une erreur 404 pour le fichier robots.txt.
En outre, même si Google Search traite certains de ces codes d'état de la même manière, il faut considérer qu'ils sont sémantiquement différents : le conseil est donc de toujours utiliser le code d'état approprié pour la redirection, afin que d'autres clients (par exemple, les lecteurs électroniques, d'autres moteurs de recherche) puissent en tirer parti.
- code 301 (déplacé définitivement)
Googlebot suit la redirection et le pipeline d'indexation utilise la redirection comme un signal fort que la cible de la redirection doit être canonique.
- code 302 (trouvé / trovatp)
- code 303 (voir autre / voir autre)
Dans les deux cas, Googlebot suit la redirection et le pipeline d'indexation utilise la redirection comme un signal faible indiquant que la cible de la redirection doit être canonique.
- code 304 (non modifié)
Googlebot signale au pipeline d'indexation que le contenu est le même que la dernière fois qu'il a été exploré. Le pipeline d'indexation peut recalculer les signaux pour l'URL, mais autrement le code d'état n'a aucun effet sur l'indexation.
- code 307 (redirection temporaire / redirection)
Équivalent du code 302.
- code 308 (a déménagé de façon permanente / est resté de façon permanente)
Équivalent au code 301.
Code d'état 4xx (erreurs du client)
Les erreurs du client sont définies comme des codes d'état de la gamme 4xx : dans ces cas, le pipeline d'indexation de Google ne prend pas en compte les URL renvoyant un tel code d'état pour l'indexation, et les URL déjà indexées et renvoyant un code d'état 4xx sont supprimées de l'index.
Plus précisément, toutes les erreurs 4xx sauf 429 sont traitées de la même manière : Googlebot signale au pipeline d'indexation que le contenu n'existe pas. Le pipeline d'indexation supprime l'URL de l'index, si elle a été précédemment indexée, et les nouvelles pages 404 rencontrées ne sont pas traitées. La fréquence de rampement diminue progressivement.
Google conseille également de ne pas utiliser les codes d'état 401 et 403 pour limiter le taux d'exploration : à part le code 429, les codes d'état 4xx "n'ont aucun effet sur le taux d'exploration", précise le document.
- code 400 (mauvaise demande / mauvaise demande)
- code 401 (non autorisé)
- code 403 (interdit)
- code 404 (non trouvé)
- code 410 (disparu / supprimé)
- code 411 (longueur requise / longueur demandée)
- code 429 (trop de demandes / demandes excessives)
Googlebot traite le code d'état 429 comme un signe que le serveur est surchargé, le considérant comme une erreur de serveur.
Code d'état 5xx (erreurs de serveur)
Les erreurs de serveur 429 et 5xx entraînent un ralentissement temporaire de l'exploration par les robots de Google. Les URL qui ont déjà été indexées sont conservées dans l'index, mais sont finalement supprimées.
En outre, si le fichier robots.txt renvoie un code d'état d'erreur de serveur pendant plus de 30 jours, Google utilise la dernière copie en cache du fichier robots.txt ; si elle n'est pas disponible, Google suppose qu'il n'y a pas de restrictions d'exploration.
- code 500 (erreur de serveur interne)
- code 502 (mauvaise passerelle)
- code 503 (service indisponible)
Dans tous ces cas, Googlebot réduit la fréquence d'exploration du site : cette diminution est proportionnelle au nombre d'URL individuelles renvoyant une erreur de serveur. Le pipeline d'indexation de Google supprime de l'index les URL qui renvoient de manière persistante une erreur de serveur.
Gestion SEO des codes erreur HTTP
Cette vue d'ensemble rapide et concise vous permet de connaître les principales files d'attente d'état et d'identifier et de diagnostiquer à temps les erreurs du site, afin d'éviter les "pertes de temps" préjudiciables à la résolution des problèmes. Par exemple, les réponses de type 4xx affectent la navigation correcte par les personnes (et les robots d'exploration de type Googlebot) et peuvent dépendre d'erreurs internes au site. Il faut donc travailler pour en déterminer les causes, corriger les modifications apportées aux URL ou améliorer les chemins d'accès des pages supprimées.
Comment utiliser efficacement les redirections 301
Certains de ces codes sont également un outil de référencement, comme la redirection 301 qui est souvent utilisée pour déplacer les robots d'exploration et les utilisateurs d'une page importante du site vers une ressource tout aussi pertinente. Selon les théories du référencement, Google apprécie et accorde plus de crédit aux redirections 301 qu'aux autres méthodes de transfert du jus de lien de la page supprimée vers la nouvelle, alors que la redirection 302 (redirection temporaire) peut ne pas garantir la même transition, car les robots d'exploration des moteurs de recherche considèrent cette information comme temporaire et donnent toujours du poids à l'ancienne page.
Dans le cas d'une erreur 404, il faut donc évaluer l'importance de la page individuelle : si elle faisait autorité, avec beaucoup de trafic et de liens acquis, il peut être judicieux d'utiliser une redirection 301 vers une page au contenu pertinent. C'est la seule façon pour Google de transmettre des liens d'équité à la nouvelle ressource. D'un autre côté, si les pages ne sont pas très utiles, peu recherchées et jamais liées, il peut être plus utile de renvoyer volontairement un 404, ce qui les empêchera d'être indexées et explorées à plusieurs reprises par les robots des moteurs de recherche.
Un guide SEO de Google sur les problèmes de réseau et les erreurs DNS
Mais ce ne sont pas seulement les codes de statut qui doivent nous inquiéter, et en fait Google porte également une attention particulière aux erreurs de réseau et de DNS, qui ont des effets rapides et négatifs sur la présence d'une URL dans la recherche Google.
Googlebot traite les délais d'expiration du réseau, la réinitialisation de la connexion et les erreurs DNS de la même manière que les erreurs de serveur 5xx. En cas de panne du réseau, l'analyse commence immédiatement à ralentir, car une panne du réseau est un signe que le serveur peut ne pas être en mesure de gérer la charge du service. Les URL déjà indexées qui sont inaccessibles seront supprimées de l'index Google dans quelques jours. La Search Console peut générer des erreurs pour chaque erreur respective.
Débogage des erreurs de réseau
Les erreurs de réseau se produisent avant que Google ne commence à explorer une URL ou pendant l'exploration de l'URL. Comme elles peuvent se produire avant que le serveur ne puisse répondre, il n'y a pas de code d'état pour suggérer les problèmes, et donc le diagnostic de ces erreurs peut être plus difficile.
L'erreur peut se trouver dans n'importe quel composant du serveur qui gère le trafic réseau. Par exemple, selon le document, les interfaces réseau surchargées peuvent laisser tomber des paquets et entraîner des délais d'attente (impossibilité d'établir une connexion) et des réinitialisations de connexions (paquet RST envoyé parce qu'un port a été fermé par erreur).
Pour déboguer les erreurs de dépassement de délai et de réinitialisation de la connexion, Google suggère de :
- Examinez les paramètres et les journaux du pare-feu, car il peut y avoir un ensemble trop important de règles de blocage.
- Regardez le trafic réseau. À l'aide d'outils tels que tcpdump et Wireshark, vous pouvez capturer et analyser les paquets TCP et rechercher des anomalies pointant vers un composant réseau ou un module serveur spécifique.
- Contactez la société d'hébergement si vous ne trouvez rien de suspect.
Débogage des erreurs DNS
En général, les erreurs DNS sont dues à une configuration incorrecte.
Pour déboguer les erreurs DNS, Google suggère les étapes suivantes :
- Vérifiez les enregistrements DNS, afin de vous assurer que les enregistrements A et CNAME sont respectueusement adressés aux bonnes adresses IP et aux bons noms d'hôtes, comme le montre l'image.
- Vérifiez que tous les serveurs de noms pointent vers les bonnes adresses IP du site, comme le montre l'image.
- Attendre la propagation des modifications : si nous avons apporté des modifications à la configuration du DNS au cours des 72 dernières heures, il se peut que nous devions attendre que les modifications se propagent dans le réseau DNS mondial. Pour accélérer la propagation, nous pouvons vider le cache DNS public de Google.
- Vérification du serveur DNS : si nous utilisons notre propre serveur DNS privé, nous devons nous assurer qu'il est intact et qu'il n'est pas surchargé.