Zanran.com, le future Google des chiffres

Lancé au printemps 2011 après plusieurs année de recherche et développement, Zanran est un nouveau moteur de recherche quelque peu original, puisqu’il se concentre exclusivement sur les données chiffrées (statistiques, graphiques, tableaux, etc). 
             
A l’origine de ce projet, on trouve une start-up britannique fondée par Jon Goldhill, un docteur en chimie également titulaire d’un MBA de la London Business School et Yves Dassas, un ingénieur.

A l’heure actuelle, le projet est auto-financé par les deux cofondateurs et aucun modèle économique n’a encore été défini.

En termes d’algorithme, Zanran fonctionne sur un modèle un peu différent des autres moteurs. Il extrait tout d’abord les tableaux, images et graphiques présents sur des pages html, des fichiers PDF et Excel – et, dans quelque temps, des fichiers Word et PowerPoint –. 

Le système examine ensuite des millions d’images, puis détermine pour chacune si elle contient des chiffres, s’il s’agit d’un graphique, d’un tableau, etc. 

Pour les graphiques et tableaux qui ne sont pas au format image, le moteur est capable de détecter grâce à son algorithme si le contenu est essentiellement composé de données chiffrées ou non.
            
De prime abord, Zanran ressemble à un moteur classique avec son interface épurée et une simple zone de saisie.
             
On remarque que les différents exemples présentés sur la page d’accueil du moteur  sont tous rédigés en langage naturel.
             
Faut-il alors en conclure que le moteur comprend mieux les questions sous cette forme ? Difficile de le savoir à ce stade, puisqu’aucune explication sur le sujet n’est véritablement donnée.
            
Toujours est-il qu’il accepte l’usage des guillemets, qu’il semble sensible aux accents et qu’il connaît les opérateurs booléens AND, OR et NOT.
             
On pensera à privilégier une requête en langue anglaise, puisque le moteur contient pour le moment très majoritairement des données en provenance de pays anglophones.
            
 Sous la zone de saisie, un clic sur Search Option affiche une nouvelle barre proposant quelques fonctionnalités supplémentaires ; on peut depuis cette barre restreindre la recherche :
            
- à certains pays : Tout, Royaume-Uni, Etats-Unis, Canada, Australie, Irlande, Nouvelle-Zélande, Inde ou Afrique du Sud ;
             
- selon la date de création des documents PDF ou Excel : pas de limite, les six derniers mois, depuis un an ou depuis deux ans;
             
- par type de document : PDF, Excel, images...
          
- ou même limiter à certains sites en particulier (l’équivalent de l’opérateur site: sur Google en quelque sorte) ; on peut entrer un nom de domaine dans son intégralité ou utiliser une extension «*.gov» par exemple).
           
On sera très prudent avec la limitation par date car, au vu des quelques tests que nous avons effectués, il n’est pas rare qu’un document soi-disant daté de plusieurs années contiennent en réalité des données beaucoup plus récentes.
             
Nous avons fait quelques tests en anglais et en français afin d’avoir une image plus précise des résultats fournis par Zanran, en comparaison de ceux fournis par Google.
            
Nous avons donc effectué quelques requêtes en langue anglaise sur Zanran et Google, à propos du taux d’absentéisme scolaire au Royaume-Uni, du nombre de divorces en Inde ou encore de la production de blé en Australie.
             
Dans certains cas, Zanran s’est avéré plus performant que Google ; dans d’autres, Google est resté indétrônable.
             
Les quelques tests ont montré que lorsque Zanran contenait les données exactes correspondant à notre requête, il disposait d’un avantage certain : la recherche était vite effectuée et le résultat disponible en quelques clics.
             
Sur Google en revanche, la recherche prend généralement un peu plus de temps et il est souvent nécessaire de reformuler plusieurs fois la question, afin de mieux la cibler (par exemple, dans un deuxième temps, en limitant aux fichiers PDF et Excel, en restreignant à certains types de sites, etc). 
            
Mais Zanran n’est pas aussi bien achalandé que Google, même en matière de chiffres, et il n’est donc pas rare de ne pas trouver la réponse à sa question.
            
Tout en sachant que Zanran indexe majoritairement des sources anglophones, nous avons d’autre part voulu lancer  une requête en français sur le «chômage en France» : cette recherche n’a fourni  que  44 résultats, mais le premier répondait parfaitement à la question. Il s’agissait d’un fichier Excel provenant du ministère du Travail intitulé «Fichier mensuel des "Séries nationales brutes" sur les offres et demandes d'emploi», avec des données allant de 1996 à janvier 2011.
          
Zanran est un projet récent, ce qui explique pourquoi il est loin d’être exhaustif pour le moment. Mais l’initiative en elle-même présente un intérêt certain et permettrait d’avoir une alternative à Google dans les cas bien précis d’une recherche sur des données chiffrées.
            
Il ne reste plus qu’à espérer que l’index de Zanran s’enrichisse rapidement, ce qui est un pré-requis indispensable s’il ambitionne de devenir – aux dires de ses fondateurs – le «Google for data»...



Carole Tisserand-Barthole
Publié dans le n° 94 de Netsources (Septembre/Octobre 2011)



Aucun commentaire:

Enregistrer un commentaire