Pourquoi Google n’indexe-t-il pas mes pages ?
Vous avez écrit un article sur les "meilleures croquettes pour chats d'extérieur en décembre 2021", qui a tout d'un prix Pulitzer pour le référencement, mais vous n'avez aucun moyen de le faire indexer par Google ?
Les problèmes d'indexation des pages, des articles et des produits semblent être de plus en plus récurrents, et il faut souvent attendre des semaines pour voir son contenu se hisser enfin en tête de l'index du moteur de recherche :
- Sur les sites récents (pas uniquement)
- Sur les sites e-commerce
Dans une période historique de grande croissance des boutiques en ligne, c'est un problème qui concerne souvent ces dernières (mais pas seulement). Pour être juste, il faut ajouter que le commerce électronique est par excellence plein de déchets (du point de vue du SEO, compris comme des duplications, des structures douteuses, de la cannibalisation, des pages pauvres, des soft 404s, etc.)
Mais pourquoi Google n'indexe-t-il pas mon maudit contenu ? La réponse est en fait complexe et recouvre dans certains cas des questions techniques, mais le plus souvent il s'agit d'une question de ressources du moteur de recherche par rapport à la qualité réelle ou perçue du site web en question.
Certains pointent du doigt la technologie utilisée pour développer un site web donné. Aujourd'hui, Google est capable de digérer des sites web qui, par exemple, font un usage massif de Javascript et de divers effets. Les problèmes d'indexation concernent également les pages et les sites "simples". Je ne m'attarderais donc pas trop sur cet aspect.
Cela dit, je reste d'avis que la construction de sites web simples et rapides est un choix judicieux, notamment pour faciliter leur assimilation par les moteurs de recherche. Cela ne signifie pas que vous devez mettre en ligne des pages "uniquement en HTML". La recherche d'un équilibre, en fonction de vos différents objectifs, doit être votre modèle de référence.
Les raisons des problèmes d’indexation de Google
En laissant de côté les problèmes les plus évidents et les plus grossiers qui entraînent un manque d'indexation, j'ai rassemblé les raisons en trois volets. Voyons-les en détail.
Je voudrais ajouter une autre remarque : dans certains cas, le coupable peut aussi être votre serveur d'hébergement. Le récent "blizzard" qui a touché des sites sur SiteGround en est la preuve. Pour plus d'informations, voir ici.
Qualité (réelle ou perçue) d'un site web
Les sites web faisant autorité, avec des backlinks puissants, un contenu de qualité et un historique d'appréciation par le moteur de recherche, bénéficient d'un plus grand crédit d'amour de la part de Google, ce qui se traduit généralement par une indexation plus facile du nouveau contenu.
Qu'en est-il des nouveaux sites ou des sites moins puissants ? Ces derniers sont plus susceptibles de rencontrer des problèmes dans l'assimilation des pages, surtout s'il s'agit de sites web très volumineux (comme le commerce électronique).
Je suis tombé sur des posts sur le support Google :
- Pourquoi mon site n'est pas indexé ?
- Pourquoi le message traitement des données en cours, depuis 2 mois ?
- Pourquoi la search console ne prend pas mon sitemap ?
- Pourquoi la search console indique des pages détectées mais non indexées alors que celles-ci sont de qualité ?
- Pourquoi la search console indique des pages explorées, actuellement non indexées alors que celles-ci sont de qualité ?
Si dans certains de ces posts dans le support de Google on constate clairement des sites vides ou sans contenus de qualité :
- Contenus trop courts voir pas de contenu du tout.
- Site construit sur la base "achète ou casse-toi !"
- Site ayant une vision 100 % SEO dans sa conception.
- Articles écrit uniquement pour créer un lien vers une page d'un autre site (depuis une plateforme de vente de liens ou autre).
- Profil de backlinks 100 % SEO
Ce n'est pas le cas dans le contexte que nous traitons ici. Nous constatons aussi ce problème sur des sites de qualité, ce qui est inquiétant et pas acceptable.
Alors, que faire ? Tout d'abord, soyez patient, le référencement n'est pas une activité pour les anxieux.
En outre, nous allons bientôt examiner quelques idées pour vous aider à tomber amoureux de Google. La base, cependant, consiste essentiellement à mettre en œuvre les meilleures pratiques de référencement.
Construisez des sites simples avec des structures qui favorisent le crawling, évitez les doublons, la cannibalisation et les pages pauvres (comme les archives de tags vides ou presque), évitez de copier du contenu, mettez en place un système de liens internes efficace et vertueux.
Parallèlement à cela, il est également essentiel de travailler hors site. Les backlinks faisant autorité sont aujourd'hui un aspect qui peut faire un saut de qualité pour votre projet, en augmentant son "niveau de combat".
La même remarque pour les liens. Nous avons audité un site dont le profil de backlinks dans la search console n'a pas évolué depuis plusieurs mois. Nous avons pu constater en utilisant Semrush, que cela n'était pas le cas, liens pointant vers ce site sont en augmentation.
Par ailleurs, nous avons pu vérifier que sur d'autres sites ces backlinks étaient bien pris en compte. Alors que ce passe-t-il chez Google ? Dans la search console ?
Le référencement est désormais de plus en plus imbriqué dans des aspects qui vont au-delà des meilleures pratiques de base. Si votre projet de site Web gagne en popularité dans d'autres écosystèmes (par exemple, les réseaux sociaux), il est très probable que Google l'écoute également et prenne note de son autorité.
En bref, si vous lisez cet article à la recherche d'une astuce rapide ou d'une "mandragore", vous serez déçu car, si elle existe, je ne la connais pas (si c'était le cas, je vous la vendrais).
Les bugs de Google
Nous arrivons à un point sensible. Lorsqu'il s'agit des algorithmes de Google, il faut reconnaître qu'il y a aussi des bugs. Google n'est pas omnipotent et infaillible, même si, à Mountain View, ils ont réussi à créer une perception de divinité.
Olivier Andrieu parle de "dégénérescence des capacités de crawl" dans son article.
Certains de ces bugs ont effectivement été reconnus, mais il est très probable que d'autres, de moindre ampleur, ne sont pas rendus publics (le linge sale est lavé à la maison à tous les niveaux).
Pour en savoir plus sur ce bogue "intéressant", consultez également cet article du Search Engine Journal.
Le problème des bugs est précisément que, étant des anomalies, s'ils ne nous sont pas communiqués, ils perturbent les processus analytiques d'identification du problème. De ce point de vue, nous ne pouvons que rester sereins.
Ressources limitées
Deuxième point sensible. Ces dernières années, le nombre de sites web mis en ligne a connu une croissance exponentielle. J'irais même jusqu'à ajouter que, proportionnellement, la part du spam qui finit dans le ventre du moteur de recherche est toujours plus grande.
Aussi en forme et musclé qu'il puisse être, le pauvre Google doit assimiler une quantité quotidienne croissante de nouveau contenu. Cela se traduit par la conséquence inévitable de la nécessité de "faire des choix" en matière d'exploration et d'indexation.
Cette limitation pourrait déclencher la hache de la sélection même sur des pages et des sites qui seraient de qualité. Il est donc nécessaire, d'une part, d'en prendre acte et, d'autre part, d'œuvrer pour que nos contenus soient découverts et valorisés (nous revenons ici à ce qui a été dit plus haut sur les bonnes pratiques de référencement et le webmarketing).
Que faire pour favoriser l’indexation
Examinons quelques suggestions pour mettre en place un système vertueux d'indexation et de positionnement conséquent de notre contenu (utilisons également le rapport Index - Couverture de la Search Console pour en savoir plus sur l'état de l'indexation) :
- Patterns : identifier, dans le cas de problèmes d'indexation, s'il y a des patterns problématiques (peut-être qu'une certaine section du site n'est pas indexée, qui peut, pour donner un exemple, être une catégorie de produits qui n'est pas assez valorisée par le système de liens internes).
- Nous évitons de mettre en ligne des pages de mauvaise qualité ou des pages qui pourraient être qualifiées de soft 404.
- Faites attention aux archives (catégories, tags ou autres). Évitons d'augmenter la taille de notre site en publiant des archives vides ou des archives ne contenant qu'un seul article ou produit (j'ajouterai que les tags WordPress ne sont pas des mots-clés, une remarque qu'il n'est jamais inutile de répéter).
- Attention à la cannibalisation : évitez de dire la même chose sur plusieurs pages.
- Nous faisons en sorte que nos balises titre et méta soient uniques afin d'aider le robot à s'y retrouver.
- Ne copiez pas le contenu (en particulier les fiches produits et autres contenus de commerce électronique).
- Si nous sommes confrontés à un site comportant de nombreuses sections superflues, nous nous réjouissons de pouvoir nettoyer et améliorer l'essentiel.
- Utilisons robots.txt de manière vertueuse pour optimiser le budget de crawl.
- Prenons le temps d'optimiser les liens internes (un aspect souvent sous-estimé).
- Nous étudions l'intention de recherche afin de produire un contenu qui ne soit pas un simple enchevêtrement de mots clés ou une longueur de texte comme une fin en soi.
- Nous allouons un budget pour la création de liens, le gain de liens, l'appât de liens (ou quel que soit le nom que vous voulez leur donner, vous voyez le tableau).
Mise à jour du 23/03/2022, John Mueller donné des explications sur Reddit hier sur ces problèmes d'indexation.
Post-scriptum
Je vais ajouter une note suite à une discussion avec un collègue. Il s'agit de l'utilisation de l'API d'indexation de Google pour que le moteur de recherche "avale" rapidement nos pages (en d'autres termes, pour qu'elles soient indexées rapidement).
Voici un guide fourni par Rank Math sur la façon de l'utiliser. Cependant, il y a un gros MAIS : Google recommande d'utiliser ce "raccourci" uniquement pour les pages contenant des offres d'emploi et des diffusions en direct.
Faites donc attention si vous n'entrez pas dans la catégorie à laquelle la voie rapide est réservée. En bref, comme on disait dans le catch : ne faites pas ça chez vous. Faut-il réellement faire uniquement ce que Google vous dit ?