L’expertise humaine qui donne du sens à l'IA

S'abonner ou acheter un numéro

Connexion

Google Dataset Search : peut-il devenir le Google Scholar des données ? Dossier spécial Data

Carole Tisserand-Barthole

Bases no

364

publié en

2018.11

4123

Acheter ce no

Tags

recherche Web | Google | open data

Google Dataset Search : peut-il devenir le Google Scholar ... Image 1

Si Google a choisi de lancer un nouveau moteur dédié aux datasets (https://toolbox.google.com/datasetsearch), ce n’est certainement pas par pur philanthropisme. Il y voit très certainement son intérêt et ambitionne de refaire avec les données ce qu’il a déjà fait avec les publications scientifiques et académiques à travers le moteur académique Google Scholar.

Google a très justement perçu l’importance de ce mouvement d’ouverture des données qu’il s’agisse de données publiques ou de données de la recherche, le manque d’homogénéité et de visibilité des initiatives existantes et l’importance de pouvoir y accéder facilement.

Et il ne compte pas passer à côté de cette opportunité de fédérer la recherche sur les données et de devenir la source de référence sur le sujet. Il le dit d’ailleurs lui-même :

« Dataset Search permet aux utilisateurs de trouver des ensembles de données sur le Web grâce à une simple recherche par mot-clé. L’outil présente des informations sur des ensembles de données hébergés dans des milliers de référentiels sur le web. Ces ensembles de données deviennent ainsi accessibles et utiles à tous. »

La recherche de données en 2018 : un véritable challenge

Il est vrai que la recherche de données est aujourd’hui un challenge.

Les données et datasets sont aujourd’hui nombreux sur le web ouvert mais très fragmentés, et les identifier relève parfois du parcours du combattant...

La première difficulté réside dans l’hétérogénéité des datasets. Si les données sont partagées et mises en ligne librement, elles ne sont pas pour autant bien décrites par des métadonnées et les mots-clés qui leur sont associés ne sont pas nécessairement les meilleurs ni les plus adaptés. De fait, ces datasets sont donc difficilement identifiables. De plus, les différents acteurs n’utilisent pas tous les mêmes référentiels de métadonnées et on se retrouve face à une très grande variété de datasets et de métadonnées.

D’autre part, elles sont peu visibles dans les résultats des moteurs de recherche traditionnels et mal indexées. En effet, dans le cas des datasets, la recherche s’effectue généralement sur les métadonnées¹ uniquement et non sur du texte intégral ou les données elles-mêmes, comme c’est le cas sur des articles ou des pages web. On a donc intérêt à ce qu’elles soient bien décrites.

Enfin, même s’il existe une multitude d’initiatives, plateformes, entrepôts de données, outils de recherche dédiés, etc., ils restent peu visibles et peu harmonisés.

Avec Google Dataset Search, Google vient donc se positionner sur un créneau où il y a un réel besoin. Est-il le plus légitime pour le faire ? Son outil répond-il vraiment aux besoins et problématiques d’une recherche d’information professionnelle ? C’est ce que nous verrons dans la suite de cet article.

Déjà abonné ? Connectez-vous...

Connexion

Précédent 368 / 628 Suivant

Les abonnés peuvent poster des commentaires ! N'hésitez pas à vous abonner à Bases et Netsources...

JComments

L’expertise humaine qui donne du sens à l'IA

Google Dataset Search : peut-il devenir le Google Scholar des données ? Dossier spécial Data

La recherche de données en 2018 : un véritable challenge

Menu principal