Dans la boîte à outil d’un référenceur, on trouve inévitablement un crawler (Xenu, LinkExaminer, …).
Dans ce screencast, découvrez comment analyser la structure d’un site en couplant LinkExaminer et les tableaux croisés dynamiques d’Excel.
Il s’agit de mon premier screencast, merci de votre indulgence ;-)
Bonjour.
Bravo pour la qualité de votre premier sreencast. Claire et concis. J’ai une question concernant le procédé qui permet de calculer le nombre de liens par profondeur de pages. Vous mettez « Depth » dans « Row Labels » et « TotalHits » dans « Values ». Pourquoi vous ne mettez pas « TotalLinks » à la place de « TotalHits »?
Merci pour les compliments :-)
Sauf erreur de ma part, « TotalHits » correspond aux liens entrants tandis que « TotalLinks » correspond aux liens sortants.
Merci pour ta réponse rapide.
Je pense que tu as raison. J’ai toute fois une autre question. Pourquoi le nombre de « Out » (nombre de liens externes depuis la page) ne correspond pas toujours au nombre de « Links from this pages to other pages » dans la fenêtre « Link details » qui apprait quand on fait un clic droit sur l’une des URLs dans les résultats ?
En regardant de près les résultats fournis par LinkExaminer je me suis rendu également compte de la chose suivante.
Quand on choisit une URL et qu’on analyse ses « Link details » on voit que « hits » (dans la partie « Link from other pages to this page » par exemple) veut dire le nombre total de liens que reçoit la page analysée tandis que « link » veut dire le nombre total de pages qui renvoient ces liens. Pour que ce soit plus claire je prends un exemple.
La page A reçoit 12 hits mais cela ne veut pas forcément dire que 12 pages différentes pointent vers la page A. Le nombre de pages qui pointent est égale à 9 (par exemple). LinkExaminer dit alors dans la fenêtre « Link details »: « Links from other pages to this page (9 links) tandis que dans la colonne « In » (nombre de liens internes pointant vers la page) il dit « 12 ». Il nous fournit donc 2 types d’informations: le nombre total de liens internes qui pointent vers la page analysée et le nombre total de pages internes différentes qui renvoient ces liens.
Êtes-vous arrivé à la même conclusion que moi ?
Tu as été plus perspicace que moi sur ce coup et tu as bien raison !
Par défaut, LinkExaminer va compter deux fois un même lien.
Typiquement sur mon blog, tu as un lien vers la home dans le header + un lien vers la home sur le lien « Accueil ».
LinkExaminer va alors compter deux « in » pour la home.
Pour éviter ça, dans « File » > « Config » > « Parser », décoche « Count duplicate links ».
J’espère que je répond à ta remarque, je te renvois également vers la doc du logiciel : http://www.analogx.com/contents/download/Network/lnkexam/Documentation.htm
Ha cool ce crawler j’étais resté sur celui ci qui a la particularité d’être en ligne. http://www.auditmypc.com/xml-sitemap.asp
Comme toi je ne suis pas un fan de Xenu du coup Linkexaminer est directement passé dans mes outils favoris.
Au passage super ton tuto ;)
Salut !
Intéressant article, mais un title vide donnera une longueur de 1 mot avec cette formule… Il faut ajouter que si le title est vide alors la longueur est zero.
excellent ton screencast! par contre pour un site de 12000 pages ca passe avec excel mais comment on peut faire avec un site de 1.000.000 pages?
Effectivement, ça ne passe plus avec Excel ;-) Pour ces volumes là j’utilise des tools perso.
ok dans ce cas il ne me reste plus qu’a faire développer un tool
Inutile de réinventer la roue :)
Il y a des scripts disponibles sur internet, et en fouillant bien, avec Bash, sed, grep et un peu d’huile de coude on peut faire des miracles :)
Pour ceux qui aiment mettre les mains dans le cambouis en se basant sur les commandes utilisées dans le cadre d’une analyse de log on peut faire quelques trucs intéressant:
Ce site est une bonne base:
http://www.the-art-of-web.com/system/logs/
Et également d’autres commandes intéressantes:
http://www.aldana-online.de/2011/03/13/top-tools-for-logging-analysis-cli-based/
Et si les fichiers sont vraiment trop gros:
https://developers.google.com/bigquery/ :D
Sur l’analyse de logs, tu prêches un convaincu !
Par contre, je suis curieux de voir comment tu vas analyser la profondeur de tes pages ou la longueur des TITLEs avec des logs ;-)
Je me suis mal fait comprendre ;)
L’idée c’est d’utiliser les outils linux en ligne de commande pour analyser l’export du crawler (en l’occurence LinkExaminer). De mémoire, Awk est très bien adapté pour ce genre de chose :)
Compris !
Sauf que sur du gros volume, c’est LinkExaminer qui ne va pas s’en sortir.
Clairement… De tête, Xenu est donné pour 1 000 000. Je l’ai vu bloquer à 600 000 …
Je n’ai pas trouvé la limite d’URLs crawlable par Analogx, l’as-tu trouvée ?
Non, pas testé.
Ces outils ne sont à mon esprit pas adapté pour faire du volume.
Pour la longueur des titles: Awk permet d’intégrer des commandes linux de bases, dont « wc -m » pour compter le nombre de caractère :)
Je sais bien, mais les balises TITLE ne sont pas dans les logs…
Lorsque je lance LinkExaminer, je fais planter le serveur… comment limiter le nombre d’URLs par seconde ? C’est bien Threads ou est ce une autre case ? Combien dois je mettre ? (2-3) ?
Merci d’avance !
il m’arrive régulièrement que le site bug (100 000 urls) quand je lance une analyse linkexaminer, une solution ?