Pour les sites disposant d’un volume de page conséquent (plusieurs milliers), il est important de monitorer le crawl de son site par les bots. Généralement, on se contente du monitoring de Google Bot.
Le monitoring du crawl va permettre de vérifier que la structure d’un site est optimisée pour Google Bot, et que celui-ci parcourt bien l’intégralité des pages du site.
De même, lors du lancement d’un site de plusieurs milliers de pages, il est dangereux de mettre en ligne 100% du contenu du site. Il est préférable de ne pas effrayer Google Bot et de lui donner à manger petit à petit. Le monitoring du crawl va permettre de vérifier que tout se passe bien avec l’ami Google Bot. L’ouverture de contenu pourra ainsi se faire progressivement, à chaque fois que 90% des pages ont été crawlé par exemple.
Toujours dans le cadre du lancement d’un site, je vous conseille de ne pas soumettre votre sitemap à Google. Si votre site est bien structuré, Google n’en a pas besoin. Si il est mal structuré, vous vous en rendrez compte plus facilement.
La capacité de Google Bot à visiter l’intégralité des pages est fonction de la structure du site et du maillage interne. Idéalement, les pages les plus profondes doivent être accessibles en 4 clics depuis la home.
Une page visitée régulièrement par Google Bot sera à coup sûr bien indexée.
Une page qui n’est pas (ou plus) visitée risque d’être désindexée.
Le Google Webmaster Tools met à notre disposition un graphique de crawl des 90 derniers jours mais question finesse d’analyse… on repassera.
La manière la plus fine de monitorer le crawl d’un site est d’analyser les logs du serveur.
Ces logs ne sont pas toujours accessibles lorsqu’on utilise un hébergement mutualisé.
De plus, l’analyse des logs nécessite le développement d’outils spécifiques complexes.
Il y a quelques jours, l’ami mrboo donnait sur le blog d’apicube un moyen d’utiliser Google Analytics en PHP grâce à la class open source Galvanize.
Grâce à cette classe, on peut très facilement bricoler quelques lignes de code permettant de monitorer son crawl directement sur Google Analytics.
La première étape consiste à créer un nouveau profil Google Analytics et récupérer son identifiant sous la forme UA-XXXXXXXX-1.
La deuxième étape consiste à inclure le code suivant sur toutes les pages que l’on souhaite monitorer.
include_once 'class/Galvanize.php'; if(strstr($_SERVER['HTTP_USER_AGENT'] ,'Googlebot')){ $GA = new Galvanize('UA-XXXXXXXX-1'); $GA->trackPageView(); } |
Au bout de quelques heures, les premières données apparaîtront dans Google Analytics.
Je vous encourage vivement d’utiliser le système d’annotation de Google Analytics à chaque fois que vous réaliser une modification de structure ou de maillage. Cela vous permettra de suivre l’impact que ces modifications auront sur le crawl. Le but du jeu étant bien entendu d’être crawlé le plus possible ;-)
De même, en vous rendant dans Contenu > Détail des pages par URL. Vous pourrez analyser page par page celles qui sont crawlé et celles qui le sont moins.
Et vous ? Est-ce que vous pratiquez le monitoring de crawl ? Quels sont vos outils ?
Sympa !Merci pour cette astuce qui permet de suivre cet indicateur qui est essentiel pour tout bon référencer, le crawl de googlebot. Perso j’utilise les logs, soit de manière plus ou moins manuelle, soit via des outils de ma boite (Apo) qui me permet d’avoir un suivi temps réel du crawl de googlebot (entre autres) et par catégories, croisés avec tout un tas d’indicateurs. J’ai pas encore testé mais des outils comme splunk doivent permettre un suivi du crawl de googlebot via les logs toujours.
Merci pour ton message.
J’ai effectivement déjà entendu parler du fait qu’Aposition s’intéressait de très prêt à l’analyse du crawl, je pense que c’est l’une des rares agences de référencement à y attacher autant d’importance.
Je serai curieux de connaître les fonctionnalités de l’outil, il y a une documentation quelque part ?
Merci, C’est le Graal que je cherchais. Je vais enfin pouvoir arreter d’analyser les logs Apache pour trouver comment GG crawl, et surout quand faire les mises à jour.
Ravi que cette astuce te convienne :-)
Aprés 2 mois de monitoring cette astuce marche superberment bien. Comme par hasard les pages les mieux référencées sont le plus souvent indexées….
Les plus crawlées tu veux dire ?
Ce n’est absolument pas le fait du hasard ;-)
Il est aussi possible de monitorer les visites par « Google Preview » de la même façon…..
Merci,
Le fait d’appeller trackPageview() une nouvelle fois double-t-il les chiffres dans le rapport des pages vues ?
Il faut créer un autre profil Analytics, sinon ça fausse effectivement toutes les stats.
Astuce intéressante, ca m’a donné l’idée de traquer ma page fan facebook de cette manière.
Pas mal ! Et à coup sûr ce sera plus présentable que mes scripts qui parsent les logs serveurs. Par contre le fait de coller ça sur toutes les pages ne me plait pas car ça va ralentir le site.
Donc à mon avis la meilleure façon de l’utiliser est encore de faire un autre script qui parse les logs en temps réel et simule la visite à chaque fois qu’il y a lieu de le faire.
Tout à fait, à condition de pouvoir simuler une visite à une date antérieure.
Je ne suis pas sûr que ce soit possible.
Très bonne solution, mais comment faire avec plusieurs centaines (milliers …) de pages pour insérer ce code dans ‘chaque page’ ???
Généralement tu as des templates, il suffit de modifier seulement quelques pages.
Tu peux le mettre dans le header, dans le footer…
templates, non … css oui ;)
le reste est fait main et sur plusieurs milliers de pages ^^
on devrait y penser avant …
tres bon astuce .. merci bien watussi ^^
Merci pour cette astuce !
Vraiment efficace pour suivre le travail du robot de Google.
Hello
Est ce que script existe en version .net?
Merci
Merci pour cette article mon site http://www.visiclic.fr et visiter tout les 4jours en moyenne….c’est grave docteur? :)
Bonne journée Jean-Benoit
Hello ! Je viens d’intégrer le code à mon wordpress. J’ai hâte de voir ce que ça donne. ^^
Pour WP, il faut mettre le dossier ‘class’ à la racine (ce que j’ai fait) ou dans le thème utilisé ? (désolée je patauge en dev…)
Mmm…
J’avais fait un mini-plugin spécifique, tu as essayé ? http://www.watussi.fr/suivez-le-crawl-de-votre-blog-wordpress-avec-googlebot-monitor
Pas certain que ça fonctionne encore, mais il n’y a pas trop de raisons.
Alors on dirait que j’ai bien implémenté le code (finalement dans mon thème) car ce matin, j’ai des données qui remontent. Ce qui est bizarre c’est qu’il y a plus du double de visites crawler (104 visites, autant de visiteurs uniques) que de visites humaines (env. 58 : trackées par mon profil GA « normal »).
C’est possible / normal ?
Oui oui, c’est tout a fait possible.
Tu peux regarder dans Google Webmaster Tools pour regarder si l’ordre de grandeur est le même.
Rien qui me semble anormal en tout cas.
Merci beaucoup pour ton aide ! Je vais surveiller tout ça de près. Au vu des infos GWT, ça a effectivement l’air de coller jusqu’ici.
Excellente astuce ! Je m’en vais installer ce script !
Merci !
Merci beaucoup pour cette méthoque ! Ca semble plus agréable que ce qui est servi par Webmastertools et moins contraignant qu’une analyse de logs!
Je viens de l’installer pour un site perso, je n’ai encore que la vue en « temps réels » sur analytics, néanmoins je vois dans source de trafic des visites venant de bing et yahoo. Le script étant configurer pour cibler uniquement Googlebot, marche-t-il toujours ?
Je l’ai mis en footer juste au dessus de la balise
L’article date de quelques années mais l’astuce fonctionne toujours !
Juste une petite question, dans Google Analytics, dans Audience > Technologie > Réseau ça indique que le fournisseur de service du crawler est en faite mon hébergeur (mediatemple) « media temple inc ». C’est pas censé indiqué « google inc » ou quelque chose du genre ? Ou alors le robot Google passe par mon fournisseur d’hébergement pour crawler mon site?