Je reviens aujourd’hui sur la présentation de Philippe Yonnet « Analyser les logs pour rendre son référencement efficace » lors du SEOCampus.

J’ai lu assez peu de retours sur cette conférence, c’était pourtant l’une des plus intéressantes selon moi, même si j’aurai aimé qu’elle soit plus poussée. Mais en une heure, c’est sûr que c’est un peu compliqué.

Nous allons donc essayer de voir quelques applications concrètes.

Sachez qu’on peut analyser ses logs sans être un aficionado de linux ou même avoir un serveur dédié. OVH par exemple permet de se connecter à son serveur en SSH, même si l’on ne dispose que d’un hébergement mutualisé.

Nous allons utiliser quelques commandes linux : awk, grep, sort, uniq, tail. N’ayez pas peur, ce n’est pas si compliqué que ça peut le sembler, je vous laisse consulter les documentations si vous voulez en savoir plus.

C’est parti, on y va !

Vous devez bien entendu remplacer « watussi.log » par votre propre fichier logs.

Lister les codes retours

Cette commande va vous permettre de lister les codes retours des requêtes et de les classer par nombre d’apparition. Si le code 200 n’est pas largement en tête, vous avez un gros problème !

awk {'print $9'} watussi.log | sort | uniq -c | sort -n -r

Lister les 40 appels générant le plus d’erreurs 404

Identifiez les problèmes et corrigez les vite !

awk '{if($9 ~ /404/) {print $7}}' watussi.log | sort | uniq -c | sort -n  | tail -40

Lister les 40 pages les plus crawlés par Googlebot

Les pages les plus crawlés sont à priori celles que Google considère les plus importantes, vérifiez si cela correspond à l’idée que vous aviez de votre site.

awk '{if($14 ~ /Googlebot/) {print $7}}' watussi.log | sort | uniq -c | sort -n  | tail -40

Lister les pages qui n’ont été crawlés qu’une fois

awk '{if($14 ~ /Googlebot/) {print $7}}' watussi.log | sort | uniq -u | sort -r -n

Lister les adresses IP de Googlebot qui passent sur votre site

more watussi.log | grep "Googlebot" | awk '{print $1}' | sort | uniq

Classer les user agents par nombre de requêtes

Utile pour détecter d’éventuels spiders qui pompent inutilement de la bande passante.

awk -F\" {'print $6'} watussi.log | sort | uniq -c | sort -n

Connaître le nombre de passages de Googlebot sur une page précise

grep 'comment-augmenter-votre-trafic-grace-a-google-webmaster-tools' watussi.log | grep 'Googlebot' | wc -l

Connaître le nombre de passages de Googlebot par jour

more watussi.log | grep Googlebot | awk {'split($4, a, ":");  split(a[1], a, "["); print a[2]'} | sort | uniq -c

Lister les pages ayant généré du trafic depuis Google Image

more watussi.log | grep imgres | awk {'print $7'} | sort | uniq -c | sort -n -r

Nombre de pages uniques ayant généré du trafic

awk {'print $7'} watussi.log | sort | uniq -c | wc -l

Nombre de pages uniques sur lequel Googlebot est passé

more watussi.log | grep Googlebot | awk {'print $7'} | sort | uniq -c | wc -l

Découvrez les sites qui « piquent » vos images

awk -F\" '($2 ~ /\.(jpg|gif)/ && $4 !~ /^http:\/\/www\.watussi\.fr/){print $4}' watussi.log \ | sort | uniq -c | sort

Voilà pour une première introduction à l’analyse des logs, utilisez-vous cette pratique ?

Une question ? Une idée ? N’hésitez pas !

 

Je vous laisse consulter les slides de Philippe pour revenir sur l’intérêt d’analyser ses logs.