Script PHP pour contrôler l’indexation des pages d’un sitemap par Google
L'impératif numéro un lorsqu'on référence un site, c'est de faire en sorte que chaque page soit indexé par Google.
A quoi bon optimiser une page, produire du contenu unique et de qualité si la page en question n'est pas présente dans l'index de Google ?
Sans indexation, pas de trafic en provenance des moteurs de recherche !
Si il est facile de contrôler qu'une page est bien indexée grâce à la commande site:http://www.monsite.com/mapage.php, il est très laborieux de réitérer l'opération pour chaque page de son site.

Il n'existe à ma connaissance aucun outil permettant d'identifier les pages non indexés d'un site.
J'ai donc bricolé un petit script que j'utilise régulièrement.
Ce script récupère toutes les URLs d'un fichier sitemap donné et, pour chacune d'elle, va vérifier si elle est indexée dans Google.
Une fois que vous connaissez les pages non indexés de votre site, voici une liste de points à vérifier :
- Le fichier robots.txt bloque t-il ma page ?
- Ma page possède-t-elle la mention noindex ?
- Est-ce que GoogleBot passe sur cette page ? (analysez vos logs ou utilisez ce script)
- Y a t-il des liens pointant vers cette pages ? Sont t-ils en nofollow ?
- A quel niveau de profondeur se trouve cette page depuis la home ?
- Y a t-il une possibilité de duplicate content ?
- (...)
Cette liste n'est pas exhaustive, n'hésitez pas à la compléter
N.B. : Ce script émet des requêtes automatisées auprès de Google, ce qu'il n'aime pas trop. Il faut donc l'utiliser avec parcimonie et de préférence avec une autre adresse IP que la vôtre.
Je suis à l'écoute de tout conseil permettant d'améliorer ce script
Aucun trackbacks pour l'instant

26 avril 2011
J’ai effectivement une suggestion : la même chose mais à partir d’une liste d’URL dans un txt.
26 avril 2011
J’ai pas trop le temps pour l’instant mais j’essaie de faire ça.
C’est pas trop compliqué de faire la modif si tu bricoles en PHP.
26 avril 2011
Si je trouve un poil de temps je le fais
31 mai 2011
Non, il faut utiliser info: et pas site:
31 mai 2011
Merci pour l’info, c’est effectivement plus rigoureux.