En juillet dernier, Google a ajouté une rubrique « Etat de l’indexation » dans Google Webmaster Tools.
Si ce nouvel outil manque encore énormément de finesse, il a l’avantage indéniable de confirmer des données que nous étions obligés d’extrapoler auparavant.
J’ai jusqu’à présent lu peu d’articles expliquant comment interpréter ces données, donc je me lance, au risque d’essuyer les plâtres :-)
Rapide tour du propriétaire.
Nombre total de pages explorées auparavant
Cette première information est particulièrement intéressante car elle vous indique le nombre de pages connues par Google sur une longue période (laquelle ? j’ai l’impression qu’il s’agit du nombre de pages depuis la création de votre site). Cette information était déjà déterminable via une analyse de logs, mais il n’est pas toujours possible / facile de récupérer des logs serveur sur une longue période.
Ce volume de pages est à comparer avec la taille théorique ou supposée de votre site. Combien avez-vous d’articles ? Quelle est la taille de votre catalogue produit ? Combien pensiez-vous avoir de pages sur votre site ?
De manière plus général, quel est le nombre de pages utiles au SEO de mon site ?
Grâce à ce graphique, vous connaissez la perception qu’à Google de la volumétrie de votre site. Correspond-elle à l’idée que vous vous en faisiez ? Si non, il faut comprendre pourquoi. En effet, plus l’écart sera important, plus votre taux de « crawl inutile » risque d’être important, ce qui peut s’avérer fort préjudiciable pour des sites à forte volumétrie.
Un écart conséquent entre votre perception et celle de Google peut s’expliquer de plusieurs manières :
- Votre activité fait que vous avez une rotation d’URLs très importantes, c’est le cas des sites de petites annonces par exemple
- Votre site a subit des changements importants, modification de structure d’URLs par exemple
- Votre site possède des « spiders traps », il faut les identifier et les corriger (un crawler vous sera utile)
Les éventuels pics sur ce graphique montrent l’apparition de nouvelles pages sur votre site. Correspond-elles à l’apparition de nouveau contenu ? Est-ce un effet de bord ? A vous d’y répondre ;-)
Nombre total de pages indexées
Cette information est plus facile à interpréter. On s’aperçoit d’ailleurs que le nombre remonté n’est pas délirant par rapport à la commande « site:mondomain.com ». L’avantage de ce graph est que l’information est historisé sur un an.
Là encore, il est important de comparer le nombre de pages indexées par rapport à votre nombre théorique de pages utiles au SEO. Un gros écart s’explique généralement par des problèmes d’ordre technique et structurel, ou encore des problèmes de crawl.
Il est également intéressant de mettre le nombre de pages indexées en exergue avec le nombre de pages crawlées sur un jour, une semaine ou un mois. Les chiffres sont-ils cohérents ?
Pages bloquées par le fichier robots.txt
Là encore l’information n’est pas nouvelle puisqu’on pouvait la déterminer en crawlant le site. Mais c’est tout de même plus facile quand c’est accessible via GWT ;-)
Il y a de nombreuses raisons qui peuvent pousser à bloquer des pages via le robots.txt. La raison la plus commune est d’empêcher le crawl de pages inutiles (j’en profite pour rappeler que le robots.txt sert à interdire le crawl, mais il ne garantit en rien la non-indexation ;-) )
Le principal défaut de l’utilisation du robots.txt pour interdire le crawl, c’est qu’on diffuse du PageRank à des pages dont on interdit le crawl. Plus le volume de pages bloquées est important, plus la fuite de PageRank l’est (sans parler du risque de créer des dangling pages !).
Pages non sélectionnées
Très intéressant car c’est en fin de compte la seule information réellement nouvelle que nous apporte Google via ce nouvel outil.
Ce graphique manque clairement de finesse pour qu’il soit vraiment intéressant, mais on peut facilement imaginer que les pages non sélectionnées sont :
- Des pages en no-index
- Des pages non canoniques
- Des pages dupliquées
- Des pages vides
- Des pages de spam
- …
Ce qui est intéressant, c’est de calculer le taux de pages non-sélectionnées :
nombre de pages non-sélectionnées / (nombre de pages non-sélectionnées + nombre de pages indexées)
Plus ce taux sera faible, plus la perception de votre site par Google sera bonne, et plus vos actions SEO seront efficaces :-)
Cet indicateur peut à mon sens devenir un véritable indicateur de bonne santé d’un site. Il a en plus l’avantage d’être facilement calculable dans le temps car Google propose l’exportation des données. Il peut donc être corrélé avec les chantiers SEO mis en place.
Conclusion
L’analyse de logs a encore de beaux jours devant lui car ce nouvel outil proposé par Google Webmaster Tools manque encore beaucoup de fonctionnalités et de finesse (aucune catégorisation possible pour le moment !).
Il n’en reste pas moins qu’elle permet de bénéficier instantanément d’informations dont le calcul était beaucoup plus lourd auparavant.
On ne peut donc qu’espérer que cet outil s’enrichisse au fur et à mesure :-)
Yep je crois que tu as bien résumé l’importance de l’analyse de l’indexation d’un site.
Une erreur de crawl diminue fortement la visiblité du site dans les SERPS.
Autre chose importante concernant l’indexation d’un site est de bien différencier le taux des pages présentes dans l’index secondaire de Google.
On peut avoir toutes les urls de notre sitemap indexées si 90% sont dans l’index secondaire ça ne sert à rien, la visibilité sera très réduite vu que nos urls n’apparaitront pas dans les pages de résultats de Google.
Pour le robots.txt une erreur peut engendrer une baisse importante du crawl et comme tu l’as dit une perte importante du PR interne du site.
Les erreurs les plus courantes que je vois sont principalement des erreurs de syntaxe qui peuvent tous simplement empêcher google de lire le fichier voir de mal interpréter les règles mise en place => cela peut être des lignes blanches après la ligne indiquant le user-agent concerné ou tout simplement des règles contradictoires qui s’annule l’une l’autre.
Pour le taux de pages non-sélectionnées, je pense que ce n’est utile que pour les sites dont les urls ne changent pas beaucoup au cours de la vie du site. En effet cela permettra de mesurer plus précisement les progrès de crawl du site.
J’avais fait très rapidement le tour de cet outil mais sans y revenir ensuite faute de temps et c’est vrai qu’il a du potentiel, mais encore faut-il qu’il soit développé dans le futur, on verra bien ce que Google va faire maintenant.
Très bonne conclusion. Le manque d’infos fait que l’outil est peu exploitable autrement que lors de rajout de contenu ou de suspicion de pénalité. Dommage qu’il ne soit pas couplé avec le rapport d’erreur, ça serait une super fonctionnalité !
En ce qui concerne les pages non-sélectionnées, est-ce que cela signifie que les pages en no-index sont considérées comme du « spam » ?
Non, aucun soucis la dessus ;-)
C’est vraiment dommage que les pages non sélectionnées ne sont pas listée lors de l’export.. Je pensais toutes les retrouvées mais non. En faite tu sais que tu as X pages moyennes mais je te dis pas lesquelles débrouilles toi ! C’est pas super malin ^^
Merci pour cet article.
« Pages non sélectionnées », c’est probablement aussi du crawl en non 200.
Les urls en 301 représentent une part important du crawl sur certains sites. J’imagine que l’immense majorité est alors non sélectionnée.
Idem pour des pages membres en 403 par exemple.
Peut-être… c’est typiquement là qu’on manque de finesse.
Ca m’étonnerait que tout le crawl non 200 soit pris en compte dans « pages non sélectionnées ».
Sinon tu aurais « nombre de pages total explorées » = « pages indexées » + « pages non sélectionnés » + « pages bloquées dans le robots ».
Donc à mon avis il prend en compte le 3xx, mais pas le 4xx.
Je confirme que les « pages non sélectionnées » prennent bien en compte les 301 (j’ai une courbe exponentielle à partir du moment où j’ai mis en place ces redirections dans le .htaccess).
Très pratique !! Ça m’avait permis de prouver à un collègue sceptique qu’une bonne volée de tweets et retweets facilitaient l’indexation !
Bon, ça reste limité mais c’est un bon début quand même, et puis les explications ici sont claires donc ça m’aidera bien pour la suite :-)
Je rebondis sur votre indicateur taux de pages non-sélectionnées :
nombre de pages non-sélectionnées / (nombre de pages non-sélectionnées + nombre de pages indexées)
Si l’on reprend vos chiffres et que l’on applique votre formule, vous aurez toujours un indicateur tres proche de 1. Je ne vois pas en quoi cet indicateur pourrait être pertinent pour déterminer que Google apprécie votre site.
De plus rien nous dit dans le WMT que le nombre de Pages non sélectionnées n’est pas un indicateur cumulé. Du coup faire l’amalgame d’un indicateur cumulé avec un indicateur non cumulé : Nombre total de pages indexées ne peut engendrer que des mauvaises interprétations.
A bon entendeur
Paul
Je suis d’accord qu’il faudrait connaître la méthodologie de calcul des chiffres par Google pour faire des indicateurs vraiment pertinents.
Par contre si le résultat de ma formule est proche de 1, c’est que près de 100% de tes pages sont « non sélectionnées ».
Tu as alors certainement un problème…
Je ne veux pas paraître trop insistant ni désagréable mais si le résultat de ta formule :
nombre de pages non-sélectionnées / (nombre de pages non-sélectionnées + nombre de pages indexées)
est proche de 1, et je me répète, c’est en se basant sur TES chiffres annoncés sur les graphes de TON post.
En reprenant tes chiffres :
nombre de pages non-sélectionnées = 8731809
nombre de pages indexées = 183245
Ce qui fait : 8731809 / ( 8731809 + 183245) autrement dit très proche de 1
Si je suis ton raisonnement c’est ton site qui a un probleme.
Cet indicateur n’est pas fiable ni pertinent même si il mérite réflexion
A bon entendeur
Paul
Tu n’es ni insistant ni désagréable, mais mes graphs sont issus de plusieurs sites différents, tu ne peux donc rien en tirer :D
Refais les calculs avec des données à toi et ça ressemblera à quelque chose de pertinent ;-)