SEO
15

Je reviens aujourd’hui sur la présentation de Philippe Yonnet « Analyser les logs pour rendre son référencement efficace » lors du SEOCampus.

J’ai lu assez peu de retours sur cette conférence, c’était pourtant l’une des plus intéressantes selon moi, même si j’aurai aimé qu’elle soit plus poussée. Mais en une heure, c’est sûr que c’est un peu compliqué.

Nous allons donc essayer de voir quelques applications concrètes.

Sachez qu’on peut analyser ses logs sans être un aficionado de linux ou même avoir un serveur dédié. OVH par exemple permet de se connecter à son serveur en SSH, même si l’on ne dispose que d’un hébergement mutualisé.

Nous allons utiliser quelques commandes linux : awk, grep, sort, uniq, tail. N’ayez pas peur, ce n’est pas si compliqué que ça peut le sembler, je vous laisse consulter les documentations si vous voulez en savoir plus.

C’est parti, on y va !

Vous devez bien entendu remplacer « watussi.log » par votre propre fichier logs.

Lister les codes retours

Cette commande va vous permettre de lister les codes retours des requêtes et de les classer par nombre d’apparition. Si le code 200 n’est pas largement en tête, vous avez un gros problème !

awk {'print $9'} watussi.log | sort | uniq -c | sort -n -r

Lister les 40 appels générant le plus d’erreurs 404

Identifiez les problèmes et corrigez les vite !

awk '{if($9 ~ /404/) {print $7}}' watussi.log | sort | uniq -c | sort -n  | tail -40

Lister les 40 pages les plus crawlés par Googlebot

Les pages les plus crawlés sont à priori celles que Google considère les plus importantes, vérifiez si cela correspond à l’idée que vous aviez de votre site.

awk '{if($14 ~ /Googlebot/) {print $7}}' watussi.log | sort | uniq -c | sort -n  | tail -40

Lister les pages qui n’ont été crawlés qu’une fois

awk '{if($14 ~ /Googlebot/) {print $7}}' watussi.log | sort | uniq -u | sort -r -n

Lister les adresses IP de Googlebot qui passent sur votre site

more watussi.log | grep "Googlebot" | awk '{print $1}' | sort | uniq

Classer les user agents par nombre de requêtes

Utile pour détecter d’éventuels spiders qui pompent inutilement de la bande passante.

awk -F\" {'print $6'} watussi.log | sort | uniq -c | sort -n

Connaître le nombre de passages de Googlebot sur une page précise

grep 'comment-augmenter-votre-trafic-grace-a-google-webmaster-tools' watussi.log | grep 'Googlebot' | wc -l

Connaître le nombre de passages de Googlebot par jour

more watussi.log | grep Googlebot | awk {'split($4, a, ":");  split(a[1], a, "["); print a[2]'} | sort | uniq -c

Lister les pages ayant généré du trafic depuis Google Image

more watussi.log | grep imgres | awk {'print $7'} | sort | uniq -c | sort -n -r

Nombre de pages uniques ayant généré du trafic

awk {'print $7'} watussi.log | sort | uniq -c | wc -l

Nombre de pages uniques sur lequel Googlebot est passé

more watussi.log | grep Googlebot | awk {'print $7'} | sort | uniq -c | wc -l

Découvrez les sites qui « piquent » vos images

awk -F\" '($2 ~ /\.(jpg|gif)/ && $4 !~ /^http:\/\/www\.watussi\.fr/){print $4}' watussi.log \ | sort | uniq -c | sort

Voilà pour une première introduction à l’analyse des logs, utilisez-vous cette pratique ?

Une question ? Une idée ? N’hésitez pas !

 

Je vous laisse consulter les slides de Philippe pour revenir sur l’intérêt d’analyser ses logs.

Auteur : Jean-Benoît MOINGT

Développeur de formation, ancien consultant chez Aposition. Je suis spécialiste SEO des sites à grosse volumétrie. Actuellement responsable SEO chez PagesJaunes Groupe, je propose par ailleurs des formations SEO sur-mesure et développe des outils d’analyse avancés.

15 Comments to “L’analyse des logs serveur : une mine d’information pour le SEO”

  • Bon résumé, merci !

    Un petit outil à la awstats peut aussi résumer beaucoup de ces informations.

  • très intéressant.
    en complément à awstats & weballizer , c’est effectivement nickel.

  • Bonjour jeanbenoit ,

    Pour ceux qui ont le message d’erreur suivant:
    « awk: cannot open meslogs-access.log (Value too large for defined data type) »

    installez gawk et utilisez le à la place de awk…

    • Merci pour la remarque.

      Quel est le poids de ton fichier log ?

  • Il est aussi très utile de regarder de temps en temps le fichier error.log d’apache. Notamment pour trouver les « tentatives d’attaques » et pour blacklister quelques adresses IPs.

  • Pas mal de tips.
    Merci pour les infos

  • Hello, j’ai installé awstats mais je suis loin d’avoir les informations délivrés ici. Connaissez-vous un tutoSEO pour exploiter awstat ?

    Merci !

    • A ma connaissance, impossible d’avoir les infos évoquées dans l’article avec awstats.

  • Oui c’est ce que j’ai fini par conclure.

    Awstat ne m’apporte pas grand chose en plus de mon webanalytics. Peut être que je ne l’utilise pas correctement.

    En tout cas je vais surement utiliser tes scripts qui me semblent hyper pertinents. Enfin ! ; )

    Merci !

  • Merci pour cet article. Il vient d’être ajouté dans le compte-rendu du SEO Campus 2011 http://seo-camp.org/CR-SC11

    • Merci président 😉

  • Je découvre ce billet seulement aujourd’hui via un tweet et il va bien m’aider.

    merci beaucoup !

  • Merci pour cet article, n’étant pas très technique, mais ayant besoin de mettre le nez dedans, cela va bien m’aider. :)

  • Bonjour,

    Merci pour ce partage très utile.

    Afin de lister les pages ayant généré du traffic depuis google, est ce que cette commande parait correcte ?

    awk ‘{if($11 ~ /www.google/) {print $7}}’ watussi.log | sort | uniq -c | sort -n | tail -40

    Merci !

Réagissez

XHTML: Vous pouvez utiliser les balises suivantes <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

Articles similaires

Articles récents

Catégories

Archives

Liens