Les auteurs fantômes de Google Sholar


Lancé en 2004 et toujours en version bêta – les services de Google restent toujours très longtemps en bêta ! –, Google Scholar est un outil très utilisé par les chercheurs, parce qu’il est simple d’accès et surtout parce qu’il est gratuit.
             
Tant qu’il s’agit d’utiliser cet outil pour trouver quelques réponses pertinentes à une question, il s’avère bien adapté.
            
En revanche, dès lors que l’on veut l’utiliser comme outil professionnel, la prudence s’impose.
            
Comme pour ses autres services (Actualités, Livres...), on regrettera d’abord l’opacité totale de Google sur les données de contenu. Il est, en effet, impossible d’avoir une liste de titres avec leurs antériorités ou des comptages précis, par exemple sur le nombre total de documents.
            
La plupart des utilisateurs ne sont pas gênés par cette “face obscure”, mais Peter Jacso de l’université d’Hawaï, qui écrit fréquemment des articles dans la presse spécialisée anglo-saxonne, a étudié de près et depuis plusieurs années les nombreux problèmes que l’on rencontre, lorsque l’on s’intéresse aux auteurs des documents présents (références ou textes complets) dans Google Scholar. Il a dénombré, en effet, nombre d’auteurs fantômes et d’auteurs devenus invisibles.
             
Cela vient du fait qu’au lieu de prendre les meta données des éditeurs, Google a créé son propre outil pour analyser le début des articles et en extraire les données.                          
 
Malheureusement, cet outil est loin d’être fiable.
            
LES AUTEURS FANTOMES
             
Même si au cours du temps, Google a fait diminuer le nombre de données incohérentes, il en reste encore beaucoup.
             
On sait qu’il faut prendre avec beaucoup de précaution le nombre de réponses annoncées par le moteur, mais cela donne néanmoins une idée.
             
Comme exemple d’amélioration, Peter Jacso trouvait, il y a quelques années, 910 000 réponses à la question author:password ; on n’en trouve plus aucune aujourd’hui. Cela provenait du fait que l’analyseur syntaxique (parser) de Google n’interprétait pas correctement “please enter password”, que l’on trouve sur de nombreuses interfaces.
             
Autre amélioration, il n’y a plus “qu’environ” 823 réponses quand on cherche des documents écrits par un certain “Subscribe”, alors que dans son article de novembre dernier, Peter Jacso en trouvait 73 400.
            
Néanmoins, on obtient  encore 8 490 réponses en cherchant les documents écrits par un certain M View (pour Mountain View).
             
Dans l’article “Dynamics of TCP Traffic over ATM Networks” par exemple, on trouve bien les deux vrais auteurs, mais comme un renvoi indique que le premier travaille chez Sun Microsystems Inc, 2550 Garcia Ave, Mountain View CA 94043, Google Scholar indique deux co-auteurs supplémentaires qui sont … SM Inc et M View.
             
Ajouter des auteurs fictifs sans enlever les vrais n’a pas de conséquences dramatiques, sauf si l’on veut compter avec précision les auteurs.
             
Beaucoup plus ennuyeux est la disparition des auteurs réels.
             
LES AUTEURS PERDUS
            
C’est ainsi que “author:results” génère 38 400 réponses ; mais si l’on prend, par exemple, l’article intitulé “Instruments for assessing the quality of drug studies published in the medical literature”, l’auteur indiqué par Google Scholar est M Results, parce que l’outil a repéré (au hasard ?) un paragraphe intitulé Main Results.
             
Quant aux vrais auteurs, Mildred K Cho et Lisa A. Bero, ils n’apparaissent pas dans la référence. Cela veut dire qu’une recherche par le nom de ces auteurs ne fait pas apparaître cet article et que les analyses bibliométriques sont faussées.
             
Nous n’allons pas poursuivre ici la liste des exemples, mais on ne peut s’empêcher de regretter qu’un outil de recherche présentant de tels défauts soit utilisé autant – et parfois comme seul outil –, tant pour les recherches que pour la bibliométrie.
             
Pour conclure, nous avons vérifié si d’autres systèmes fournissant de l’information scientifique et technique identifiaient des auteurs “password” ou “subscribe” ...
             
LES AUTRES SYSTEMES
             
Dans Scopus, une recherche sur l’auteur “password” ne donne rien, pas plus que sur “subscribe”, “view m” ou “results”. Quant aux deux articles cités plus haut, leurs auteurs sont correctement indexés.
            
Dans Scirus (moteur de recherche gratuit proposé par Elsevier), on ne trouve rien sur les auteurs “password” et “subscribe”. Une recherche sur l’auteur “results” donne 33 réponses, dont beaucoup sont des résultats d’études apparaissant dans le champ auteur, tels que “The Prostate cancer results study”.
             
Dans Dialog, aucun document scientifique n’a pour auteur un dénommé Password. On trouve seulement 27 documents de presse. Une vérification fait apparaître que dans les documents de Global Reporter que nous avons regardés, le mot password apparaît dans la deuxième partie du titre ou dans le sous-titre, qui sont alors confondus avec le champ auteur.
             
Quant à “subscribe” au niveau scientifique, on ne trouve qu’un document dans Medline datant de … 1912.
             
Il y en a 223 dans Dialog Global Reporter, pour la même raison que précédemment.
             
Dans STN on ne trouve aucun auteur Password.
             
Quant à Subscribe, on trouve la même référence de Medline.
             
REFERENCES
             
“Google Scholar’s Ghost Authors”, Peter Jacso, Library Journal, November 2009
 www.libraryjournal.com/article/CA6703850.html
 
“Ghost Authors, Teachable Moments”, Marydee Ojala, Online, January/February 2010
 www.infotoday.com/online/jan10/HomePage.shtml
 

Aucun commentaire:

Enregistrer un commentaire