En consultant les fichiers logs de mon blog, je me suis aperçu qu’un petit nouveau était passé me rendre visite : Dotbot (welcome ;-) ).

Si il existe de très nombreux bots qui parcourent le web avec des objectifs plus ou moins cool (recherche d’adresses mails à spammer, recherche de failles de sécurités, domainers qui vous proposent d’acheter des NDD, …), Dotbot est bien plus sympathique.

Dotbot a été conçu par quelques geeks à Seattle qui ont pour but de rendre le web plus ouvert.

Leur constat : seules quelques sociétés possèdent un index complet du web (NB : c’est en fait un abus de langage car en réalité, même Google ne possède pas un index complet : le web invisible est immense).

Ils ont donc développés un petit bot en C et en Python et rendent le résultat de leur crawl téléchargeable gratuitement !

Je ne l’ai pas téléchargé (un fichier plat de 14 Go O_O) mais si le résultat est représentatif du web, les possibilités d’analyses, de stats, d’études envisageables avec un tel index sont infinis ! D’autant plus que toutes les informations du crawl sont mise à disposition : code HTML retourné, retour HTTP complet, …

Autre initiative intéressante des concepteur de Dotbot : mettre à disposition des statistiques sur le web, et par exemple les statuts HTTP que leur bot rencontre.

Le résultat est ci-dessous

Il y a des codes retour que je ne connaissais même pas ^^.

Ce qui me surprend, c’est que « seulement » 75% des pages que crawle Dotbot retournent un code 200. On se rend compte de la difficulté de la vie d’un bot puisque 25% de son travail est « inutile ». Un peu étonné également qu’il y ait près de 3 fois plus de redirections 302 que 301.

Dotbot est donc une initiative très sympathique à encourager. C’est pour ce genre de projets qu’on aime le web :-)