L’impératif numéro un lorsqu’on référence un site, c’est de faire en sorte que chaque page soit indexé par Google.

A quoi bon optimiser une page, produire du contenu unique et de qualité si la page en question n’est pas présente dans l’index de Google ?

Sans indexation, pas de trafic en provenance des moteurs de recherche !

Si il est facile de contrôler qu’une page est bien indexée grâce à la commande site:http://www.monsite.com/mapage.php, il est très laborieux de réitérer l’opération pour chaque page de son site.

Il n’existe à ma connaissance aucun outil permettant d’identifier les pages non indexés d’un site.

J’ai donc bricolé un petit script que j’utilise régulièrement.

Ce script récupère toutes les URLs d’un fichier sitemap donné et, pour chacune d’elle, va vérifier si elle est indexée dans Google.

Une fois que vous connaissez les pages non indexés de votre site, voici une liste de points à vérifier :

  • Le fichier robots.txt bloque t-il ma page ?
  • Ma page possède-t-elle la mention noindex ?
  • Est-ce que GoogleBot passe sur cette page ? (analysez vos logs ou utilisez ce script)
  • Y a t-il des liens pointant vers cette pages ? Sont t-ils en nofollow ?
  • A quel niveau de profondeur se trouve cette page depuis la home ?
  • Y a t-il une possibilité de duplicate content ?
  • (…)

Cette liste n’est pas exhaustive, n’hésitez pas à la compléter 😉

N.B. : Ce script émet des requêtes automatisées auprès de Google, ce qu’il n’aime pas trop. Il faut donc l’utiliser avec parcimonie et de préférence avec une autre adresse IP que la vôtre.

Télécharger le script

Je suis à l’écoute de tout conseil permettant d’améliorer ce script 🙂