Bases de données vs Google : le test

Une étude de juin 2010 démontre la supériorité d’une base de données structurée sur un moteur de recherche tel que Google ou Google Scholar.

Dans le milieu professionnel, Google est devenu un outil inégalé pour retrouver très vite une information précise et permet de localiser en quelques secondes des documents auxquels il était impossible d’avoir accès auparavant.
            
La conséquence la plus radicale de cette évolution, est la tendance à supprimer les centres de documentation au sein des entreprises, le top management étant persuadé que grâce à Google, n’importe qui est en mesure de retrouver n’importe quoi.
 
Le domaine scientifique et la R&D ne sont pas épargnés par de telles positions : combien de chercheurs sont amenés maintenant à faire les recherches d’information préalables par eux-mêmes, et se contentent d’interroger Google Scholar ?
            
Certes, leur excellente connaissance du domaine leur permet de retrouver assez facilement “de l’information”, mais une recherche professionnelle menée efficacement dans une base de données structurée permettra beaucoup mieux de découvrir de l’information pertinente sur un sujet.
             
C’est ce que démontre l’étude qui a été menée cette année par l’ETDE (Energy Technology Data Exchange). Cet institut est une structure internationale qui produit la base de données scientifique ETDEWEB, spécialisée sur l’énergie.
             
Début 2010, la base contenait 4,3 millions de références à la littérature scientifique mondiale dans le domaine de l’énergie. L’un de ses points forts est l’accès direct au texte intégral, grâce à plus de 300 000 documents PDF visualisables depuis le site de l’ETDE, auxquels s’ajoutent plus d’un million de liens supplémentaires vers les sites où le document complet pourra être recherché.
             
L’étude comparative a consisté à lancer 15 requêtes sur chacun des trois systèmes – ETDEWEB Google et Google Scholar –, en utilisant exactement les mêmes mots ou phrases, puis à comparer les résultats (environ 40 000 références en tout).
            
 L’une des conclusions les plus intéressantes de cette étude est que la base de donnée structurée ETDEWEB reste la source la plus adaptée pour un public d’experts, dont le but est de découvrir de nouvelles informations pertinentes : en moyenne, 86,7 % des résultats de la base de données ne sont pas retrouvés dans Google ni dans Google Scholar.
             
Pourtant, une recherche à l’aide des mots du titre précis d’un document sera fructueuse dans les trois systèmes, mais dès lors qu’on effectue une recherche thématique, les informations les plus professionnelles et adaptées au monde de la recherche dans le domaine de l’énergie sont retrouvées grâce à ETDEWEB.
             
Cette expérience montre donc que paradoxalement, la présence d’un document dans l’index du moteur ne signifie pas qu’il se retrouvera pour autant et systématiquement, dans la liste des résultats d’une requête…
             
Cela peut s’expliquer de plusieurs façons. D’abord, à cause de l’algorithme de classement de Google qui prend en compte la fraîcheur de l’information, la popularité, voire les sponsors d’une page… et pas forcément la pertinence par rapport à un mot-clé. Par ailleurs, la recherche dans Google et Google Scholar s’effectue aussi sur des documents en texte intégral, là où ETDEWEB n’effectue des recherches que sur un résumé, ce qui induit une recherche plus ciblée.
            
Plus surprenant, alors que les producteurs de ETDEWEB ont décidé depuis 2009 de rendre indexable par Google et d’autres moteurs une grande partie de la base, très peu de résultats issus de ETDEWEB ont été retrouvés dans les résultats de Google.
             
Une étude plus poussée de l’activité des crawlers leur a d’ailleurs permis de déterminer que Google indexe moins de 10% des références, qui lui sont rendues pourtant accessibles…
             
Google est parfait pour retrouver de l’information de premier niveau, destinée au non-spécialiste, tandis que Google Scholar se concentre sur les disciplines scientifiques, mais n’est pas forcément centré sur la recherche dans le domaine de l’énergie.
             
Au total, ETDEWEB garde une tête d’avance et possède une forte valeur ajoutée dans la découverte d’informations pertinentes.
            
INFORMATIONS
 
www.etde.org
Etude en anglais visualisable à www.etde.org/ETDEOA237.pdf


Aurélie Vathonne
Publié dans le n°275 de Bases (octobre 2010) 

Aucun commentaire:

Enregistrer un commentaire