Divers
2

Dans la foulée de l’article sur l’analyse des logs serveur d’hier, je vous propose aujourd’hui un script bash vous permettant d’identifier les pages de votre site non crawlés par Googlebot.

Plus précisément, nous allons chercher les pages pour lequel Google nous as envoyé du trafic, mais sur lequel Googlebot ne passe plus.

Ces pages sont particulièrement critiques, si Googlebot ne passe plus, la page risque à terme d’être déclassée voire désindexée. La page ne reçoit probablement pas assez de jus, elle est peut-être trop profonde. C’est un indice d’un problème de structure sur votre site.

Le fonctionnement du script est assez simple, on récupère d’abord l’ensemble des pages qui ont reçu de la visite depuis Google, puis pour chacune d’elles, on regarde si Googlebot est passé dessus.

Pour utiliser ce script, vous devez avoir accès à une console linux (je pense que ça fonctionne également sur une console mac).

Créez le fichier, nommez le googlebot.sh par exemple, et copiez le code suivant

#! /bin/bash
 
if test $# -eq 0; then
	echo Veuillez passer le fichier log en paramètre
	exit 1
fi
 
more $1 | grep www.google | grep -v Googlebot | awk {'print $7'}  | sort | uniq > liste_url.txt
 
while read line  
do   
 
   var=`awk {'print $0'} $1 | grep $line | grep Googlebot | sort | uniq | wc -l`   
 
   if [ $var = 0 ]; then
		echo $line	
	fi
 
 done < liste_url.txt

Donnez les droits d’exécution au script

chmod +x googlebot.sh

Puis exécutez le en passant votre fichier log en paramètre

./googlebot.sh watussi.log

Vous allez avoir la liste des URLs posant problème, à vous d’analyser le pourquoi du comment !

Vous pouvez simplement copier cette liste dans un fichier txt en procédant ainsi

./googlebot.sh watussi.log > resultats.txt

Je suis loin d’être un expert en script bash, si quelqu’un a des remarques, je suis preneur !

Auteur : Jean-Benoît MOINGT

Développeur de formation, ancien consultant chez Aposition. Je suis spécialiste SEO des sites à grosse volumétrie. Actuellement responsable SEO chez PagesJaunes Groupe, je propose par ailleurs des formations SEO sur-mesure et développe des outils d’analyse avancés.

2 Comments to “Analyse de logs : Identifiez les pages non crawlés par Googlebot”

  • Bonjour Benoît,

    Quelle est la fréquence que tu utilises pour ton critère « sur lesquelles Google bot ne passe plus » ? J’ai des résultats incohérents et certains étonnants.
    Par exemple des pages qui, suite à une 301, sortent dans le listing alors qu’elles n’existent que depuis trois jours.

    Comment analyserais tu une page listée dans ces résultats mais qui est très fortement liée en interne (plus de 5000 BL internes, peu de liens out). Suroptimisation sur la page en question ?

    Merci

  • Ca dépend des sites et des catégories de pages de ton site, mais généralement tu peux prendre une fenêtre de 30 jours.

    Ça fait très longtemps que je n’utilise plus ce script (qui date de plus un an), en fonction de volumétrie, ça risque de prendre beaucoup beaucoup de temps.

    Difficile de répondre à tes questions sans connaitre le site et le nombre de jours de logs que tu as pris.

    Si la page que tu as pris est une « top page » et qu’elle n’est pas crawlée dans une fenêtre de 30 jours, tu as un soucis 😉

Réagissez

XHTML: Vous pouvez utiliser les balises suivantes <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Articles similaires

Articles récents

Catégories

Archives

Liens