En juillet dernier, Google a ajouté une rubrique « Etat de l’indexation » dans Google Webmaster Tools.

Si ce nouvel outil manque encore énormément de finesse, il a l’avantage indéniable de confirmer des données que nous étions obligés d’extrapoler auparavant.

J’ai jusqu’à présent lu peu d’articles expliquant comment interpréter ces données, donc je me lance, au risque d’essuyer les plâtres :-)

Rapide tour du propriétaire.

Nombre total de pages explorées auparavant

Cette première information est particulièrement intéressante car elle vous indique le nombre de pages connues par Google sur une longue période (laquelle ? j’ai l’impression qu’il s’agit du nombre de pages depuis la création de votre site). Cette information était déjà déterminable via une analyse de logs, mais il n’est pas toujours possible / facile de récupérer des logs serveur sur une longue période.

Ce volume de pages est à comparer avec la taille théorique ou supposée de votre site. Combien avez-vous d’articles ? Quelle est la taille de votre catalogue produit ? Combien pensiez-vous avoir de pages sur votre site ?

De manière plus général, quel est le nombre de pages utiles au SEO de mon site ?

Grâce à ce graphique, vous connaissez la perception qu’à Google de la volumétrie de votre site. Correspond-elle à l’idée que vous vous en faisiez ? Si non, il faut comprendre pourquoi. En effet, plus l’écart sera important, plus votre taux de « crawl inutile » risque d’être important, ce qui peut s’avérer fort préjudiciable pour des sites à forte volumétrie.

Un écart conséquent entre votre perception et celle de Google peut s’expliquer de plusieurs manières :

  • Votre activité fait que vous avez une rotation d’URLs très importantes, c’est le cas des sites de petites annonces par exemple
  • Votre site a subit des changements importants, modification de structure d’URLs par exemple
  • Votre site possède des « spiders traps », il faut les identifier et les corriger (un crawler vous sera utile)

Les éventuels pics sur ce graphique montrent l’apparition de nouvelles pages sur votre site. Correspond-elles à l’apparition de nouveau contenu ? Est-ce un effet de bord ? A vous d’y répondre ;-)

Nombre total de pages indexées

Cette information est plus facile à interpréter. On s’aperçoit d’ailleurs que le nombre remonté n’est pas délirant par rapport à la commande « site:mondomain.com ». L’avantage de ce graph est que l’information est historisé sur un an.

Là encore, il est important de comparer le nombre de pages indexées par rapport à votre nombre théorique de pages utiles au SEO. Un gros écart s’explique généralement par des problèmes d’ordre technique et structurel, ou encore des problèmes de crawl.

Il est également intéressant de mettre le nombre de pages indexées en exergue avec le nombre de pages crawlées sur un jour, une semaine ou un mois. Les chiffres sont-ils cohérents ?

Pages bloquées par le fichier robots.txt

Là encore l’information n’est pas nouvelle puisqu’on pouvait la déterminer en crawlant le site. Mais c’est tout de même plus facile quand c’est accessible via GWT ;-)

Il y a de nombreuses raisons qui peuvent pousser à bloquer des pages via le robots.txt. La raison la plus commune est d’empêcher le crawl de pages inutiles (j’en profite pour rappeler que le robots.txt sert à interdire le crawl, mais il ne garantit en rien la non-indexation ;-) )

Le principal défaut de l’utilisation du robots.txt pour interdire le crawl, c’est qu’on diffuse du PageRank à des pages dont on interdit le crawl. Plus le volume de pages bloquées est important, plus la fuite de PageRank l’est (sans parler du risque de créer des dangling pages !).

Pages non sélectionnées

Très intéressant car c’est en fin de compte la seule information réellement nouvelle que nous apporte Google via ce nouvel outil.

Ce graphique manque clairement de finesse pour qu’il soit vraiment intéressant, mais on peut facilement imaginer que les pages non sélectionnées sont :

  • Des pages en no-index
  • Des pages non canoniques
  • Des pages dupliquées
  • Des pages vides
  • Des pages de spam

Ce qui est intéressant, c’est de calculer le taux de pages non-sélectionnées :

nombre de pages non-sélectionnées / (nombre de pages non-sélectionnées + nombre de pages indexées)

Plus ce taux sera faible, plus la perception de votre site par Google sera bonne, et plus vos actions SEO seront efficaces :-)

Cet indicateur peut à mon sens devenir un véritable indicateur de bonne santé d’un site. Il a en plus l’avantage d’être facilement calculable dans le temps car Google propose l’exportation des données. Il peut donc être corrélé avec les chantiers SEO mis en place.

Conclusion

L’analyse de logs a encore de beaux jours devant lui car ce nouvel outil proposé par Google Webmaster Tools manque encore beaucoup de fonctionnalités et de finesse (aucune catégorisation possible pour le moment !).

Il n’en reste pas moins qu’elle permet de bénéficier instantanément d’informations dont le calcul était beaucoup plus lourd auparavant.

On ne peut donc qu’espérer que cet outil s’enrichisse au fur et à mesure :-)