Dotbot : Un robot bien sympathique

par Jean-Benoît | Juil 3, 2011 | SEO | 24 commentaires

En consultant les fichiers logs de mon blog, je me suis aperçu qu’un petit nouveau était passé me rendre visite : Dotbot (welcome ;-) ).

Si il existe de très nombreux bots qui parcourent le web avec des objectifs plus ou moins cool (recherche d’adresses mails à spammer, recherche de failles de sécurités, domainers qui vous proposent d’acheter des NDD, …), Dotbot est bien plus sympathique.

Dotbot a été conçu par quelques geeks à Seattle qui ont pour but de rendre le web plus ouvert.

Leur constat : seules quelques sociétés possèdent un index complet du web (NB : c’est en fait un abus de langage car en réalité, même Google ne possède pas un index complet : le web invisible est immense).

Ils ont donc développés un petit bot en C et en Python et rendent le résultat de leur crawl téléchargeable gratuitement !

Je ne l’ai pas téléchargé (un fichier plat de 14 Go O_O) mais si le résultat est représentatif du web, les possibilités d’analyses, de stats, d’études envisageables avec un tel index sont infinis ! D’autant plus que toutes les informations du crawl sont mise à disposition : code HTML retourné, retour HTTP complet, …

Autre initiative intéressante des concepteur de Dotbot : mettre à disposition des statistiques sur le web, et par exemple les statuts HTTP que leur bot rencontre.

Le résultat est ci-dessous

Il y a des codes retour que je ne connaissais même pas ^^.

Ce qui me surprend, c’est que « seulement » 75% des pages que crawle Dotbot retournent un code 200. On se rend compte de la difficulté de la vie d’un bot puisque 25% de son travail est « inutile ». Un peu étonné également qu’il y ait près de 3 fois plus de redirections 302 que 301.

Dotbot est donc une initiative très sympathique à encourager. C’est pour ce genre de projets qu’on aime le web :-)

24 Commentaires

Olivier Lance sur 3 juillet 2011 à 11 h 54 min

Sympa en effet !

Par contre, je ne suis pas d’accord avec tes « 25% » inutiles !
Les codes 301 et 301 sont tout à fait utiles puisqu’ils indiquent une redirection vers un contenu qui a bougé, ce qui permet de ne pas casser un lien dont la page aurait bougé après sa diffusion.

Ca fait donc 10% de travail « inutile » :-)
Réponse
- Olivier Lance sur 3 juillet 2011 à 11 h 54 min
  
  je voulais bien sûr dire « 301 et 302 » ;)
  Réponse
- admin sur 3 juillet 2011 à 12 h 08 min
  
  Tu as raison,
  
  D’où le « inutile » entre guillemets.
  
  Le phénomène serait beaucoup plus limité si les liens étaient modifiés, car on se rend compte que beaucoup de redirections viennent de maillage interne à un site.
  
  Dans ce cas là, un bot doit crawler deux pages (voire plus, on rencontre régulièrement des redirections multipkes). Il y en a bien une qui est « inutile » ;-)
  Réponse
  - Olivier Lance sur 3 juillet 2011 à 12 h 28 min
    
    Hmm oui, mais si le lien est parti à l’extérieur, ça entraîne beaucoup plus d’erreurs 404 !
    Donc je ne suis que moyennement d’accord avec l’idée de modifier un lien ^^
    
    Après, le robot crawlant sans doute tout sans distinction, il faut imaginer aussi qu’il a dû essayer d’accéder à du contenu réservé aux membres des sites qu’il a visités, et à ce moment une redirection vers une page de login est tout à fait légitime :)
    Réponse
    - Olivier Lance sur 3 juillet 2011 à 12 h 29 min
      
      Ou alors ça serait peut-être plus efficace de faire une erreur 404 sur les liens qui ont changé, avec une manière ou un autre de comprendre la véritable adresse recherchée et l’indiquer à l’utilisateur sur une page 404 personnalisée ?
      Réponse
Mutuelle santé sur 3 juillet 2011 à 20 h 10 min

J’ai rien compris de ces statistiques, mais je crois qu’une telle partage mérite respect et encouragement.
Réponse
- admin sur 3 juillet 2011 à 20 h 15 min
  
  Lol,
  
  Je suis pas certain que tu aurais laissé ce commentaire si les liens étaient en no-follow ;-)
  Réponse
  - Olivier Lance sur 3 juillet 2011 à 20 h 19 min
    
    ahaha :D
    
    C’est où le bouton « like » (ou « +1 » ^^) sur les commentaires de ton blog ? =D
    Réponse
    - Gilbert sur 3 juillet 2011 à 20 h 26 min
      
      Je te suis Olivier ! pour le « like » ;)
      Réponse
      - admin sur 3 juillet 2011 à 20 h 34 min
        
        A la demande générale, je viens de l’ajouter au bas des articles.
        
        A votre bon coeur messieurs ;-)
Gilbert sur 3 juillet 2011 à 20 h 21 min

Lol,
Tu sais c’est vraiment sincère ce que je disais là haut! (cool)
Réponse
Olivier Lance sur 3 juillet 2011 à 20 h 37 min

Ah oui mais moi c’est surtout ton commentaire sur le lien « no-follow » que je voulais « +1 »-er :P
Mais bon allez, je salue l’effort :D
Réponse
JB sur 3 juillet 2011 à 20 h 52 min

Par contre c’est dommage que l’on ait pas les volumes de 304 :) ça aurait pu être intéressant de voir l’utilisation qui en est faite. Sinon le volume de 302 ne m’étonne même pas … si on ne force pas la 301, la 302 est très souvent par défaut :(
Réponse
- admin sur 3 juillet 2011 à 21 h 44 min
  
  Exact, ça aurait été bien ;-)
  
  Mais à mon avis leur bot ne gère pas l’entête « if modified since », donc il ne reçoit jamais des 304.
  
  Concernant les 302, dans quels cas tu en as par défaut ?
  Réponse
JB sur 4 juillet 2011 à 8 h 26 min

Moi j’ai un client lorsqu’il met une redirection dans asp ça lui génère de base une 302 et non une 301. il est obligé de mettre en place l’entête.

idem dans le htacess je croie, si tu mets pas R=301 il génère une 302 (ça dépend peut être de la config d’Apache)
Réponse
- admin sur 4 juillet 2011 à 8 h 37 min
  
  OK…
  
  Bonne chose à savoir.
  Réponse
Ecole de français sur 4 juillet 2011 à 22 h 43 min

Oui je vous lis souvent mais là je suis pas sure de comprendre toutes les opportunités que recèle ce robots. une sorte de xenu globale ??? :)
Réponse
- admin sur 5 juillet 2011 à 7 h 20 min
  
  En quelques sortes ;-)
  Réponse
serge esteves sur 7 juillet 2011 à 16 h 38 min

pour les 302, je suis d’accord, beaucoup de framework propose les redirect par défaut en 302. J’ai le cas sur un de mes clients en ce moment.

pour l’expression « inutile », c’est je pense une déformation professionnelle de l’admin, que je connais pas du tout :).
Inutile lorsqu’il est utilisé pour autre chose qu’une migration, ca provoque :
– gaspillage de crawl, or google a un « quota » de crawl par site, donc ce gaspillage de rcawl en 301 se fait au détriment d’autres pages.
– Perte de linkjuic transmis à la page cible, la 301 ne transmettant pas l’intégralité du linkjuice à la page redirigée.
– Et ca coute en perfs serveur.

L’idéal étant d’éviter d’avoir des 301 dans son maillage interne, ou de les brouiller si on a pas le choix et que ca redirige vers des pages sans objectifs SEO.

Pour l’intéret du dotbot, on peux imaginer des services basés dessus, comme des mini audit structurel de son site, de monitoring de rescodes http pour etre alerté en cas d’explosion de 302, 301,404 par exemple.
Réponse
Formation emarketing sur 22 juillet 2011 à 13 h 33 min

Où avez vous clairement lu qu’une 301 faisait perdre du jus en termes SEO ? Je me posais la question, et jusqu’à présent je n’étais pas convaincu par cette affirmation !
Réponse
- admin sur 5 août 2011 à 21 h 58 min
  
  Désolé, ton commentaire était passé dans les commentaires indésirables.
  
  Pour la perte de jus, c’est Matt Cutts qui le dit : http://www.youtube.com/watch?v=zW5UL3lzBOA
  
  Et quand bien même on n’en perdrait pas, ça oblige Googlebot à crawler deux pages au lieu d’une. Et rien que ça c’est pas top ;-)
  Réponse
Roman sur 29 septembre 2011 à 8 h 01 min

Le 301 fait un peu perdre de jus, mais c’est la meilleure solution en cas de changement d’url pour ne pas tout perdre.

sinon, les statistiques sont intéressantes. Un peu moins d’une page sur quinze est en erreur 404, pas mal non ?
Réponse
Graphemeride - Rédactrice Web sur 5 février 2012 à 19 h 46 min

Si j’ai mis une 302 plutot qu’une 301 c’est pas bien? (ou l’inverse)
Réponse
- admin sur 5 février 2012 à 19 h 59 min
  
  Ca dépent du contexte.
  
  301 = redirection permanente
  302 = redirection temporaire.
  Réponse

Dotbot : Un robot bien sympathique

24 Commentaires

Poster le commentaire Annuler la réponse

Articles récents

Catégories