Podcast
17

Dans la boîte à outil d’un référenceur, on trouve inévitablement un crawler (Xenu, LinkExaminer, …).

Dans ce screencast, découvrez comment analyser la structure d’un site en couplant LinkExaminer et les tableaux croisés dynamiques d’Excel.

Il s’agit de mon premier screencast, merci de votre indulgence ;-)

Télécharger la vidéo

 

Auteur : Jean-Benoît MOINGT

Développeur de formation, ancien consultant chez Aposition. Je suis spécialiste SEO des sites à grosse volumétrie. Actuellement responsable SEO chez PagesJaunes Groupe, je propose par ailleurs des formations SEO sur-mesure et développe des outils d’analyse avancés.


17 Comments to “Screencast #1 – Comment analyser la structure d’un site avec LinkExaminer ?”

  • Bonjour.

    Bravo pour la qualité de votre premier sreencast. Claire et concis. J’ai une question concernant le procédé qui permet de calculer le nombre de liens par profondeur de pages. Vous mettez « Depth » dans « Row Labels » et « TotalHits » dans « Values ». Pourquoi vous ne mettez pas « TotalLinks » à la place de « TotalHits »?

    • Merci pour les compliments :-)

      Sauf erreur de ma part, « TotalHits » correspond aux liens entrants tandis que « TotalLinks » correspond aux liens sortants.

      • Merci pour ta réponse rapide.

        Je pense que tu as raison. J’ai toute fois une autre question. Pourquoi le nombre de « Out » (nombre de liens externes depuis la page) ne correspond pas toujours au nombre de « Links from this pages to other pages » dans la fenêtre « Link details » qui apprait quand on fait un clic droit sur l’une des URLs dans les résultats ?

        En regardant de près les résultats fournis par LinkExaminer je me suis rendu également compte de la chose suivante.
        Quand on choisit une URL et qu’on analyse ses « Link details » on voit que « hits » (dans la partie « Link from other pages to this page » par exemple) veut dire le nombre total de liens que reçoit la page analysée tandis que « link » veut dire le nombre total de pages qui renvoient ces liens. Pour que ce soit plus claire je prends un exemple.

        La page A reçoit 12 hits mais cela ne veut pas forcément dire que 12 pages différentes pointent vers la page A. Le nombre de pages qui pointent est égale à 9 (par exemple). LinkExaminer dit alors dans la fenêtre « Link details »: « Links from other pages to this page (9 links) tandis que dans la colonne « In » (nombre de liens internes pointant vers la page) il dit « 12″. Il nous fournit donc 2 types d’informations: le nombre total de liens internes qui pointent vers la page analysée et le nombre total de pages internes différentes qui renvoient ces liens.

        Êtes-vous arrivé à la même conclusion que moi ?

        • Tu as été plus perspicace que moi sur ce coup et tu as bien raison !

          Par défaut, LinkExaminer va compter deux fois un même lien.

          Typiquement sur mon blog, tu as un lien vers la home dans le header + un lien vers la home sur le lien « Accueil ».

          LinkExaminer va alors compter deux « in » pour la home.

          Pour éviter ça, dans « File » > « Config » > « Parser », décoche « Count duplicate links ».

          J’espère que je répond à ta remarque, je te renvois également vers la doc du logiciel : http://www.analogx.com/contents/download/Network/lnkexam/Documentation.htm

  • Ha cool ce crawler j’étais resté sur celui ci qui a la particularité d’être en ligne. http://www.auditmypc.com/xml-sitemap.asp

    Comme toi je ne suis pas un fan de Xenu du coup Linkexaminer est directement passé dans mes outils favoris.

    Au passage super ton tuto ;)

  • Salut !
    Intéressant article, mais un title vide donnera une longueur de 1 mot avec cette formule… Il faut ajouter que si le title est vide alors la longueur est zero.

  • excellent ton screencast! par contre pour un site de 12000 pages ca passe avec excel mais comment on peut faire avec un site de 1.000.000 pages?

    • Effectivement, ça ne passe plus avec Excel ;-) Pour ces volumes là j’utilise des tools perso.

  • Je me suis mal fait comprendre ;)

    L’idée c’est d’utiliser les outils linux en ligne de commande pour analyser l’export du crawler (en l’occurence LinkExaminer). De mémoire, Awk est très bien adapté pour ce genre de chose :)

    • Compris !

      Sauf que sur du gros volume, c’est LinkExaminer qui ne va pas s’en sortir.

      • Clairement… De tête, Xenu est donné pour 1 000 000. Je l’ai vu bloquer à 600 000 …
        Je n’ai pas trouvé la limite d’URLs crawlable par Analogx, l’as-tu trouvée ?

        • Non, pas testé.

          Ces outils ne sont à mon esprit pas adapté pour faire du volume.

  • Pour la longueur des titles: Awk permet d’intégrer des commandes linux de bases, dont « wc -m » pour compter le nombre de caractère :)

    • Je sais bien, mais les balises TITLE ne sont pas dans les logs…

Réagissez

XHTML: Vous pouvez utiliser les balises suivantes <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Articles similaires

Articles récents

Catégories

Archives

Liens