Je reviens aujourd’hui sur la présentation de Philippe Yonnet « Analyser les logs pour rendre son référencement efficace » lors du SEOCampus.
J’ai lu assez peu de retours sur cette conférence, c’était pourtant l’une des plus intéressantes selon moi, même si j’aurai aimé qu’elle soit plus poussée. Mais en une heure, c’est sûr que c’est un peu compliqué.
Nous allons donc essayer de voir quelques applications concrètes.
Sachez qu’on peut analyser ses logs sans être un aficionado de linux ou même avoir un serveur dédié. OVH par exemple permet de se connecter à son serveur en SSH, même si l’on ne dispose que d’un hébergement mutualisé.
Nous allons utiliser quelques commandes linux : awk, grep, sort, uniq, tail. N’ayez pas peur, ce n’est pas si compliqué que ça peut le sembler, je vous laisse consulter les documentations si vous voulez en savoir plus.
C’est parti, on y va !
Vous devez bien entendu remplacer « watussi.log » par votre propre fichier logs.
Lister les codes retours
Cette commande va vous permettre de lister les codes retours des requêtes et de les classer par nombre d’apparition. Si le code 200 n’est pas largement en tête, vous avez un gros problème !
awk {'print $9'} watussi.log | sort | uniq -c | sort -n -r |
Lister les 40 appels générant le plus d’erreurs 404
Identifiez les problèmes et corrigez les vite !
awk '{if($9 ~ /404/) {print $7}}' watussi.log | sort | uniq -c | sort -n | tail -40 |
Lister les 40 pages les plus crawlés par Googlebot
Les pages les plus crawlés sont à priori celles que Google considère les plus importantes, vérifiez si cela correspond à l’idée que vous aviez de votre site.
awk '{if($14 ~ /Googlebot/) {print $7}}' watussi.log | sort | uniq -c | sort -n | tail -40 |
Lister les pages qui n’ont été crawlés qu’une fois
awk '{if($14 ~ /Googlebot/) {print $7}}' watussi.log | sort | uniq -u | sort -r -n |
Lister les adresses IP de Googlebot qui passent sur votre site
more watussi.log | grep "Googlebot" | awk '{print $1}' | sort | uniq |
Classer les user agents par nombre de requêtes
Utile pour détecter d’éventuels spiders qui pompent inutilement de la bande passante.
awk -F\" {'print $6'} watussi.log | sort | uniq -c | sort -n |
Connaître le nombre de passages de Googlebot sur une page précise
grep 'comment-augmenter-votre-trafic-grace-a-google-webmaster-tools' watussi.log | grep 'Googlebot' | wc -l |
Connaître le nombre de passages de Googlebot par jour
more watussi.log | grep Googlebot | awk {'split($4, a, ":"); split(a[1], a, "["); print a[2]'} | sort | uniq -c |
Lister les pages ayant généré du trafic depuis Google Image
more watussi.log | grep imgres | awk {'print $7'} | sort | uniq -c | sort -n -r |
Nombre de pages uniques ayant généré du trafic
awk {'print $7'} watussi.log | sort | uniq -c | wc -l |
Nombre de pages uniques sur lequel Googlebot est passé
more watussi.log | grep Googlebot | awk {'print $7'} | sort | uniq -c | wc -l |
Découvrez les sites qui « piquent » vos images
awk -F\" '($2 ~ /\.(jpg|gif)/ && $4 !~ /^http:\/\/www\.watussi\.fr/){print $4}' watussi.log \ | sort | uniq -c | sort |
Voilà pour une première introduction à l’analyse des logs, utilisez-vous cette pratique ?
Une question ? Une idée ? N’hésitez pas !
Je vous laisse consulter les slides de Philippe pour revenir sur l’intérêt d’analyser ses logs.
Bon résumé, merci !
Un petit outil à la awstats peut aussi résumer beaucoup de ces informations.
très intéressant.
en complément à awstats & weballizer , c’est effectivement nickel.
Bonjour jeanbenoit ,
Pour ceux qui ont le message d’erreur suivant:
« awk: cannot open meslogs-access.log (Value too large for defined data type) »
installez gawk et utilisez le à la place de awk…
Merci pour la remarque.
Quel est le poids de ton fichier log ?
2,4 Go ^^
Il est aussi très utile de regarder de temps en temps le fichier error.log d’apache. Notamment pour trouver les « tentatives d’attaques » et pour blacklister quelques adresses IPs.
Pas mal de tips.
Merci pour les infos
Hello, j’ai installé awstats mais je suis loin d’avoir les informations délivrés ici. Connaissez-vous un tutoSEO pour exploiter awstat ?
Merci !
A ma connaissance, impossible d’avoir les infos évoquées dans l’article avec awstats.
Oui c’est ce que j’ai fini par conclure.
Awstat ne m’apporte pas grand chose en plus de mon webanalytics. Peut être que je ne l’utilise pas correctement.
En tout cas je vais surement utiliser tes scripts qui me semblent hyper pertinents. Enfin ! ; )
Merci !
Merci pour cet article. Il vient d’être ajouté dans le compte-rendu du SEO Campus 2011 http://seo-camp.org/CR-SC11
Merci président ;-)
Je découvre ce billet seulement aujourd’hui via un tweet et il va bien m’aider.
merci beaucoup !
Merci pour cet article, n’étant pas très technique, mais ayant besoin de mettre le nez dedans, cela va bien m’aider. :)
Bonjour,
Merci pour ce partage très utile.
Afin de lister les pages ayant généré du traffic depuis google, est ce que cette commande parait correcte ?
awk ‘{if($11 ~ /www.google/) {print $7}}’ watussi.log | sort | uniq -c | sort -n | tail -40
Merci !
Merci pour cet article, peu de ressources en français sur les analyses de logs. Cela va me permettre d’avancer dans ma démarche d’audit.
Hello ! j’ai reçu un mail d’ovh qui m’a demandé de contrôler mes logs. Suite à une hausse de mon trafic, ils m’ont isolé dans un sous cluster :( comment faire sur un mutu pour voir ses logs etc… ?