L’analyse des logs serveur : une mine d’information pour le SEO
Je reviens aujourd'hui sur la présentation de Philippe Yonnet "Analyser les logs pour rendre son référencement efficace" lors du SEOCampus.
J'ai lu assez peu de retours sur cette conférence, c'était pourtant l'une des plus intéressantes selon moi, même si j'aurai aimé qu'elle soit plus poussée. Mais en une heure, c'est sûr que c'est un peu compliqué.
Nous allons donc essayer de voir quelques applications concrètes.
Sachez qu'on peut analyser ses logs sans être un aficionado de linux ou même avoir un serveur dédié. OVH par exemple permet de se connecter à son serveur en SSH, même si l'on ne dispose que d'un hébergement mutualisé.
Nous allons utiliser quelques commandes linux : awk, grep, sort, uniq, tail. N'ayez pas peur, ce n'est pas si compliqué que ça peut le sembler, je vous laisse consulter les documentations si vous voulez en savoir plus.
C'est parti, on y va !
Vous devez bien entendu remplacer "watussi.log" par votre propre fichier logs.
Lister les codes retours
Cette commande va vous permettre de lister les codes retours des requêtes et de les classer par nombre d'apparition. Si le code 200 n'est pas largement en tête, vous avez un gros problème !
awk {'print $9'} watussi.log | sort | uniq -c | sort -n -r
Lister les 40 appels générant le plus d'erreurs 404
Identifiez les problèmes et corrigez les vite !
awk '{if($9 ~ /404/) {print $7}}' watussi.log | sort | uniq -c | sort -n | tail -40
Lister les 40 pages les plus crawlés par Googlebot
Les pages les plus crawlés sont à priori celles que Google considère les plus importantes, vérifiez si cela correspond à l'idée que vous aviez de votre site.
awk '{if($14 ~ /Googlebot/) {print $7}}' watussi.log | sort | uniq -c | sort -n | tail -40
Lister les pages qui n'ont été crawlés qu'une fois
awk '{if($14 ~ /Googlebot/) {print $7}}' watussi.log | sort | uniq -u | sort -r -n
Lister les adresses IP de Googlebot qui passent sur votre site
more watussi.log | grep "Googlebot" | awk '{print $1}' | sort | uniq
Classer les user agents par nombre de requêtes
Utile pour détecter d'éventuels spiders qui pompent inutilement de la bande passante.
awk -F\" {'print $6'} watussi.log | sort | uniq -c | sort -n
Connaître le nombre de passages de Googlebot sur une page précise
grep 'comment-augmenter-votre-trafic-grace-a-google-webmaster-tools' watussi.log | grep 'Googlebot' | wc -l
Connaître le nombre de passages de Googlebot par jour
more watussi.log | grep Googlebot | awk {'split($4, a, ":"); split(a[1], a, "["); print a[2]'} | sort | uniq -c
Lister les pages ayant généré du trafic depuis Google Image
more watussi.log | grep imgres | awk {'print $7'} | sort | uniq -c | sort -n -r
Nombre de pages uniques ayant généré du trafic
awk {'print $7'} watussi.log | sort | uniq -c | wc -l
Nombre de pages uniques sur lequel Googlebot est passé
more watussi.log | grep Googlebot | awk {'print $7'} | sort | uniq -c | wc -l
Découvrez les sites qui "piquent" vos images
awk -F\" '($2 ~ /\.(jpg|gif)/ && $4 !~ /^http:\/\/www\.watussi\.fr/){print $4}' watussi.log \ | sort | uniq -c | sort
Voilà pour une première introduction à l'analyse des logs, utilisez-vous cette pratique ?
Une question ? Une idée ? N'hésitez pas !
Je vous laisse consulter les slides de Philippe pour revenir sur l'intérêt d'analyser ses logs.
Aucun trackbacks pour l'instant

9 mars 2011
Bon résumé, merci !
Un petit outil à la awstats peut aussi résumer beaucoup de ces informations.
9 mars 2011
très intéressant.
en complément à awstats & weballizer , c’est effectivement nickel.
10 mars 2011
Bonjour jeanbenoit ,
Pour ceux qui ont le message d’erreur suivant:
« awk: cannot open meslogs-access.log (Value too large for defined data type) »
installez gawk et utilisez le à la place de awk…
10 mars 2011
Merci pour la remarque.
Quel est le poids de ton fichier log ?
10 mars 2011
2,4 Go ^^
10 mars 2011
Il est aussi très utile de regarder de temps en temps le fichier error.log d’apache. Notamment pour trouver les « tentatives d’attaques » et pour blacklister quelques adresses IPs.
11 mars 2011
Pas mal de tips.
Merci pour les infos
14 mars 2011
Hello, j’ai installé awstats mais je suis loin d’avoir les informations délivrés ici. Connaissez-vous un tutoSEO pour exploiter awstat ?
Merci !
14 mars 2011
A ma connaissance, impossible d’avoir les infos évoquées dans l’article avec awstats.
14 mars 2011
Oui c’est ce que j’ai fini par conclure.
Awstat ne m’apporte pas grand chose en plus de mon webanalytics. Peut être que je ne l’utilise pas correctement.
En tout cas je vais surement utiliser tes scripts qui me semblent hyper pertinents. Enfin ! ; )
Merci !
11 mai 2011
Merci pour cet article. Il vient d’être ajouté dans le compte-rendu du SEO Campus 2011 http://seo-camp.org/CR-SC11
11 mai 2011
Merci président