En consultant les fichiers logs de mon blog, je me suis aperçu qu’un petit nouveau était passé me rendre visite : Dotbot (welcome ;-) ).
Si il existe de très nombreux bots qui parcourent le web avec des objectifs plus ou moins cool (recherche d’adresses mails à spammer, recherche de failles de sécurités, domainers qui vous proposent d’acheter des NDD, …), Dotbot est bien plus sympathique.
Dotbot a été conçu par quelques geeks à Seattle qui ont pour but de rendre le web plus ouvert.
Leur constat : seules quelques sociétés possèdent un index complet du web (NB : c’est en fait un abus de langage car en réalité, même Google ne possède pas un index complet : le web invisible est immense).
Ils ont donc développés un petit bot en C et en Python et rendent le résultat de leur crawl téléchargeable gratuitement !
Je ne l’ai pas téléchargé (un fichier plat de 14 Go O_O) mais si le résultat est représentatif du web, les possibilités d’analyses, de stats, d’études envisageables avec un tel index sont infinis ! D’autant plus que toutes les informations du crawl sont mise à disposition : code HTML retourné, retour HTTP complet, …
Autre initiative intéressante des concepteur de Dotbot : mettre à disposition des statistiques sur le web, et par exemple les statuts HTTP que leur bot rencontre.
Le résultat est ci-dessous
Il y a des codes retour que je ne connaissais même pas ^^.
Ce qui me surprend, c’est que « seulement » 75% des pages que crawle Dotbot retournent un code 200. On se rend compte de la difficulté de la vie d’un bot puisque 25% de son travail est « inutile ». Un peu étonné également qu’il y ait près de 3 fois plus de redirections 302 que 301.
Dotbot est donc une initiative très sympathique à encourager. C’est pour ce genre de projets qu’on aime le web :-)
Sympa en effet !
Par contre, je ne suis pas d’accord avec tes « 25% » inutiles !
Les codes 301 et 301 sont tout à fait utiles puisqu’ils indiquent une redirection vers un contenu qui a bougé, ce qui permet de ne pas casser un lien dont la page aurait bougé après sa diffusion.
Ca fait donc 10% de travail « inutile » :-)
je voulais bien sûr dire « 301 et 302 » ;)
Tu as raison,
D’où le « inutile » entre guillemets.
Le phénomène serait beaucoup plus limité si les liens étaient modifiés, car on se rend compte que beaucoup de redirections viennent de maillage interne à un site.
Dans ce cas là, un bot doit crawler deux pages (voire plus, on rencontre régulièrement des redirections multipkes). Il y en a bien une qui est « inutile » ;-)
Hmm oui, mais si le lien est parti à l’extérieur, ça entraîne beaucoup plus d’erreurs 404 !
Donc je ne suis que moyennement d’accord avec l’idée de modifier un lien ^^
Après, le robot crawlant sans doute tout sans distinction, il faut imaginer aussi qu’il a dû essayer d’accéder à du contenu réservé aux membres des sites qu’il a visités, et à ce moment une redirection vers une page de login est tout à fait légitime :)
Ou alors ça serait peut-être plus efficace de faire une erreur 404 sur les liens qui ont changé, avec une manière ou un autre de comprendre la véritable adresse recherchée et l’indiquer à l’utilisateur sur une page 404 personnalisée ?
J’ai rien compris de ces statistiques, mais je crois qu’une telle partage mérite respect et encouragement.
Lol,
Je suis pas certain que tu aurais laissé ce commentaire si les liens étaient en no-follow ;-)
ahaha :D
C’est où le bouton « like » (ou « +1 » ^^) sur les commentaires de ton blog ? =D
Je te suis Olivier ! pour le « like » ;)
A la demande générale, je viens de l’ajouter au bas des articles.
A votre bon coeur messieurs ;-)
Lol,
Tu sais c’est vraiment sincère ce que je disais là haut! (cool)
Ah oui mais moi c’est surtout ton commentaire sur le lien « no-follow » que je voulais « +1 »-er :P
Mais bon allez, je salue l’effort :D
Par contre c’est dommage que l’on ait pas les volumes de 304 :) ça aurait pu être intéressant de voir l’utilisation qui en est faite. Sinon le volume de 302 ne m’étonne même pas … si on ne force pas la 301, la 302 est très souvent par défaut :(
Exact, ça aurait été bien ;-)
Mais à mon avis leur bot ne gère pas l’entête « if modified since », donc il ne reçoit jamais des 304.
Concernant les 302, dans quels cas tu en as par défaut ?
Moi j’ai un client lorsqu’il met une redirection dans asp ça lui génère de base une 302 et non une 301. il est obligé de mettre en place l’entête.
idem dans le htacess je croie, si tu mets pas R=301 il génère une 302 (ça dépend peut être de la config d’Apache)
OK…
Bonne chose à savoir.
Oui je vous lis souvent mais là je suis pas sure de comprendre toutes les opportunités que recèle ce robots. une sorte de xenu globale ??? :)
En quelques sortes ;-)
pour les 302, je suis d’accord, beaucoup de framework propose les redirect par défaut en 302. J’ai le cas sur un de mes clients en ce moment.
pour l’expression « inutile », c’est je pense une déformation professionnelle de l’admin, que je connais pas du tout :).
Inutile lorsqu’il est utilisé pour autre chose qu’une migration, ca provoque :
– gaspillage de crawl, or google a un « quota » de crawl par site, donc ce gaspillage de rcawl en 301 se fait au détriment d’autres pages.
– Perte de linkjuic transmis à la page cible, la 301 ne transmettant pas l’intégralité du linkjuice à la page redirigée.
– Et ca coute en perfs serveur.
L’idéal étant d’éviter d’avoir des 301 dans son maillage interne, ou de les brouiller si on a pas le choix et que ca redirige vers des pages sans objectifs SEO.
Pour l’intéret du dotbot, on peux imaginer des services basés dessus, comme des mini audit structurel de son site, de monitoring de rescodes http pour etre alerté en cas d’explosion de 302, 301,404 par exemple.
Où avez vous clairement lu qu’une 301 faisait perdre du jus en termes SEO ? Je me posais la question, et jusqu’à présent je n’étais pas convaincu par cette affirmation !
Désolé, ton commentaire était passé dans les commentaires indésirables.
Pour la perte de jus, c’est Matt Cutts qui le dit : http://www.youtube.com/watch?v=zW5UL3lzBOA
Et quand bien même on n’en perdrait pas, ça oblige Googlebot à crawler deux pages au lieu d’une. Et rien que ça c’est pas top ;-)
Le 301 fait un peu perdre de jus, mais c’est la meilleure solution en cas de changement d’url pour ne pas tout perdre.
sinon, les statistiques sont intéressantes. Un peu moins d’une page sur quinze est en erreur 404, pas mal non ?
Si j’ai mis une 302 plutot qu’une 301 c’est pas bien? (ou l’inverse)
Ca dépent du contexte.
301 = redirection permanente
302 = redirection temporaire.