SEO
10

L’impératif numéro un lorsqu’on référence un site, c’est de faire en sorte que chaque page soit indexé par Google.

A quoi bon optimiser une page, produire du contenu unique et de qualité si la page en question n’est pas présente dans l’index de Google ?

Sans indexation, pas de trafic en provenance des moteurs de recherche !

Si il est facile de contrôler qu’une page est bien indexée grâce à la commande site:http://www.monsite.com/mapage.php, il est très laborieux de réitérer l’opération pour chaque page de son site.

Il n’existe à ma connaissance aucun outil permettant d’identifier les pages non indexés d’un site.

J’ai donc bricolé un petit script que j’utilise régulièrement.

Ce script récupère toutes les URLs d’un fichier sitemap donné et, pour chacune d’elle, va vérifier si elle est indexée dans Google.

Une fois que vous connaissez les pages non indexés de votre site, voici une liste de points à vérifier :

  • Le fichier robots.txt bloque t-il ma page ?
  • Ma page possède-t-elle la mention noindex ?
  • Est-ce que GoogleBot passe sur cette page ? (analysez vos logs ou utilisez ce script)
  • Y a t-il des liens pointant vers cette pages ? Sont t-ils en nofollow ?
  • A quel niveau de profondeur se trouve cette page depuis la home ?
  • Y a t-il une possibilité de duplicate content ?
  • (…)

Cette liste n’est pas exhaustive, n’hésitez pas à la compléter 😉

N.B. : Ce script émet des requêtes automatisées auprès de Google, ce qu’il n’aime pas trop. Il faut donc l’utiliser avec parcimonie et de préférence avec une autre adresse IP que la vôtre.

Télécharger le script

Je suis à l’écoute de tout conseil permettant d’améliorer ce script :-)

Auteur : Jean-Benoît MOINGT

Développeur de formation, ancien consultant chez Aposition. Je suis spécialiste SEO des sites à grosse volumétrie. Actuellement responsable SEO chez PagesJaunes Groupe, je propose par ailleurs des formations SEO sur-mesure et développe des outils d’analyse avancés.

10 Comments to “Script PHP pour contrôler l’indexation des pages d’un sitemap par Google”

  • J’ai effectivement une suggestion : la même chose mais à partir d’une liste d’URL dans un txt. :)

    • J’ai pas trop le temps pour l’instant mais j’essaie de faire ça.

      C’est pas trop compliqué de faire la modif si tu bricoles en PHP.

  • Si je trouve un poil de temps je le fais 😉

  • Non, il faut utiliser info: et pas site: 😉

    • Merci pour l’info, c’est effectivement plus rigoureux.

  • Calculer le nb d’interactions sociales, c’est facile à ajouter sur le script ^^

  • je vais tester ce petit script mais s’il marche, tu vas faire gagner beaucoup de temps à tous les référenceurs 😉

  • Voilà une excellente initiative que celle de partager ton code.

    Je suis étonné que l’on ne trouve pas davantage ce type d’outils vraiment nécessaire…

    Enfin pas si étonné que cela quand même ! 😉

  • Y’a déjà eu un outil qui utilisait le sitemap XML.
    Mais cela ne fonctionnait pas avec les URLs contenant des paramètres, Est-ce le cas avec celui-ci ?

  • Oh allez « eCommerce revendeurs informatique », des petits scripts PHP utiles pour les référenceurs, il y en a à la pelle. Si tu fais un peu de veille, ça se remarque assez rapidement.

    Pour que ça soit moins laborieux à l’utilisation (éviter d’éditer le code), j’aurais mis un input pour entrer l’url du sitemap mais sinon il est fonctionnel 😉

    Nombre d’URLs total : x
    Nombre d’URLs non indexés : y

    ça suffit 😉

    ps : j’ai aussi modifié site: en info:

Réagissez

XHTML: Vous pouvez utiliser les balises suivantes <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Articles similaires

Articles récents

Catégories

Archives

Liens