Pour les sites disposant d’un volume de page conséquent (plusieurs milliers), il est important de monitorer le crawl de son site par les bots. Généralement, on se contente du monitoring de Google Bot.

Le monitoring du crawl va permettre de vérifier que la structure d’un site est optimisée pour Google Bot, et que celui-ci parcourt bien l’intégralité des pages du site.

De même, lors du lancement d’un site de plusieurs milliers de pages, il est dangereux de mettre en ligne 100% du contenu du site. Il est préférable de ne pas effrayer Google Bot et de lui donner à manger petit à petit. Le monitoring du crawl va permettre de vérifier que tout se passe bien avec l’ami Google Bot. L’ouverture de contenu pourra ainsi se faire progressivement, à chaque fois que 90% des pages ont été crawlé par exemple.

Toujours dans le cadre du lancement d’un site, je vous conseille de ne pas soumettre votre sitemap à Google. Si votre site est bien structuré, Google n’en a pas besoin. Si il est mal structuré, vous vous en rendrez compte plus facilement.

La capacité de Google Bot à visiter l’intégralité des pages est fonction de la structure du site et du maillage interne. Idéalement, les pages les plus profondes doivent être accessibles en 4 clics depuis la home.

Une page visitée régulièrement par Google Bot sera à coup sûr bien indexée.

Une page qui n’est pas (ou plus) visitée risque d’être désindexée.

Le Google Webmaster Tools met à notre disposition un graphique de crawl des 90 derniers jours mais question finesse d’analyse… on repassera.

La manière la plus fine de monitorer le crawl d’un site est d’analyser les logs du serveur.

Ces logs ne sont pas toujours accessibles lorsqu’on utilise un hébergement mutualisé.

De plus, l’analyse des logs nécessite le développement d’outils spécifiques complexes.

Il y a quelques jours, l’ami mrboo donnait sur le blog d’apicube un moyen d’utiliser Google Analytics en PHP grâce à la class open source Galvanize.

Grâce à cette classe, on peut très facilement bricoler quelques lignes de code permettant de monitorer son crawl directement sur Google Analytics.

La première étape consiste à créer un nouveau profil Google Analytics et récupérer son identifiant sous la forme UA-XXXXXXXX-1.

La deuxième étape consiste à inclure le code suivant sur toutes les pages que l’on souhaite monitorer.

include_once 'class/Galvanize.php';
if(strstr($_SERVER['HTTP_USER_AGENT'] ,'Googlebot')){
   $GA = new Galvanize('UA-XXXXXXXX-1');
   $GA->trackPageView();
}

Au bout de quelques heures, les premières données apparaîtront dans Google Analytics.

Ca monte, ça monte ;-)

Je vous encourage vivement d’utiliser le système d’annotation de Google Analytics à chaque fois que vous réaliser une modification de structure ou de maillage. Cela vous permettra de suivre l’impact que ces modifications auront sur le crawl. Le but du jeu étant bien entendu d’être crawlé le plus possible ;-)

De même, en vous rendant dans Contenu > Détail des pages par URL. Vous pourrez analyser page par page celles qui sont crawlé et celles qui le sont moins.

Et vous ? Est-ce que vous pratiquez le monitoring de crawl ? Quels sont vos outils ?