La recherche gratuite des abstracts

Le développement de l’accès sous forme électronique aux publications scientifiques est un mouvement de fond de plusieurs années. Cela ne veut pas dire que les publications n’existent plus, mais que la plupart «cohabitent» sous deux formats et  que l’on voit apparaître de plus en plus de publications disponibles uniquement sous forme électronique. 


On remarquera, dans ce dernier cas, que si la revue n’existe plus en tant que telle au format papier, il est plus que vraisemblable que les articles connaissent une version papier car, sauf exception, on imagine mal les chercheurs lire un long article scientifique à l’écran. Ce n’est qu’un exemple de plus du report de l’acte – et des coûts – d’impression de l’émetteur vers le récepteur/utilisateur de l’information.
             
Pour illustrer cette évolution, on donnera les chiffres cités par Dan Tonkery[1], indiquant que les revenus de Springer proviennent à 79 % des licences de publications sous forme électronique, ce chiffre étant de 70 % chez Elsevier.
            
D’après l’auteur, ce basculement c’est effectué en moins de sept ans.
            
Cette évolution n’a sans doute pas été sans effet pour les agences d’abonnement, dont le modèle était fondé sur les abonnements papier ; ils ont du faire évoluer leur offre pour que leurs clients ne contractent pas directement avec les éditeurs, du moins avec les plus grands d’entre eux.
            
Dans ce nouveau schéma, l’élément économiquement important est l’article lui-même, que l’on paye soit en étant abonné au journal qui le publie, soit de façon ponctuelle, par carte de crédit.
             
On notera que cette façon de se procurer les articles, si l’on n’est pas abonné, ne s’est développée que dans un deuxième temps, sans doute le temps pour les éditeurs de réaliser que les achats ponctuels constituaient un revenu complémentaire, hors du paradigme de l’abonnement, et qu’ils ne lui faisaient pas vraiment concurrence.
             
On remarquera au passage que le prix d’un achat ponctuel est souvent relativement élevé.
             
En effet, 30 ou  40 $ sont des prix courants, qui présentent évidemment l’avantage de l’immédiateté, mais qui sont significativement plus élevés que ceux pratiqués par certains fournisseurs traditionnels de copies d’articles ; c’est le cas par exemple de l’Inist ou de l’allemand TIB, pour lesquels un délai est nécessaire et avec lesquels il reste un aléa de disponibilité, même si leurs collections sont larges et qu’ils ont des accords entre eux.
           
L’élément valorisé économiquement étant l’article lui-même, une retombée quelque peu inattendue est que l’abstract n’a, dans ce cas, aucune valeur marchande.
Le résumé est là pour aider à identifier l’article et surtout à vérifier qu’il est pertinent, avant de chercher à l’obtenir – que ce soit d’un simple clic, si l’on est abonné à la publication, ou en l’achetant, si ce n’est pas le cas.
             
De façon analogue, la recherche n’est pas non plus valorisée car elle est gratuite, comme souvent sur le Web.
             
Le fait que les abstracts et la recherche soient gratuits télescope quelque peu le modèle des grands serveurs traditionnels.
             
Des serveurs comme STN ou Dialog et DataStar – ces deux derniers bientôt fusionnés sur la nouvelle plateforme Dialog Proquest – vendent en effet non seulement les abstracts, mais aussi la recherche elle-même.
             
Cette dernière est facturée selon le temps de connexion ou les DialUnits (appelés à disparaître dans la nouvelle plateforme) ou en fonction de l’utilisation de certains opérateurs, comme Analyze chez STN et Rank dans certains cas chez Dialog.
             
Il nous a donc paru intéressant de voir plus précisément les avantages et inconvénients des deux modèles et de dessiner un panorama, rarement fait semble-t-il, des retombées sur le processus de recherche du développement des sites d‘éditeurs.
             
Dressons d’abord un comparatif des avantages et inconvénients de l’un et l’autre de ces systèmes.
             
Avantages pour les serveurs :
             
- possibilités de recherches complexes, voire très complexes ;        
- fonds multi éditeurs, donc une seule recherche ;
- opérateurs d’analyse des documents, y compris de gros volume, de relativement simple à très sophistiqué.
             
Avantages pour les sites éditeurs :         
              
- gratuité de la recherche et de la visualisation des résumés ;
- lien immédiat vers l’article ;
- possibilité de recherche dans le texte de l’article, même si cela n’est vraiment utile que dans certains cas ;
- classement par pertinence des résultats.
             
Inconvénients pour les serveurs :

- payant, inscription préalable ;
- lien différé avec le document, sauf pour le texte des brevets et de quelques publications ;
- pas de recherche sur le texte de l’article, sauf pour les brevets et quelques publications.
            
 Inconvénients pour les sites d’éditeurs :

- possibilités de recherche relativement limitées ;
- prix élevé de l’article si l’on n’est pas abonné à la publication ;
- limité aux publications d’un seul éditeur (Elsevier, Springer, Wiley...), donc nécessité d’une recherche sur chaque site.
             
Pour poursuivre la comparaison de façon plus quantitative, nous avons choisi trois mots dans des domaines différents – à savoir airbag, heptane et phototherapy – et cherché les publications de 2010 contenant l’un de ces mot soit dans le titre, soit dans le titre et le résumé et, dans certains cas, les mots-clés, soit dans l’ensemble de l’article, quand c’était possible.
             
On trouvera les résultats de ces tests page 4.
            
Les résultats sont extrêmement parlants, et permettent de distinguer très nettement trois catégories de sources :
            
- les quatre sites d’éditeurs (parmi les plus grands) que nous avons testés, de même que les deux sites multi-éditeurs HighWire et Ingenta, qui offrent un nombre de résultats non nul – dans la plus grande majorité des cas –, mais limité ;



- Scopus, qui obtient un nombre significativement supérieur de résultats, bien qu’il n’y ait pas de pluriels automatiques, comme dans plusieurs sites d’éditeurs ;
             
- Dialog, qui offre plus du double du nombre de résultats obtenus dans Scopus, là aussi sans pluriel automatique. Un bref test dans STN a montré que l’une des recherches obtenait  légèrement plus de résultats que dans Dialog.
             
Cela donne un élément supplémentaire pour bien mesurer les avantages et les inconvénients des différents types de sources.
             
Nous allons maintenant présenter les principaux sites d’éditeurs en donnant quelques éléments quantitatifs (nombre de publications, nombre de documents…) et surtout en précisant quelles sont les possibilités de recherche offertes.
             
Puis nous présenterons des sites de même nature mais agrégeant les contenus de plusieurs éditeurs et, enfin, nous évoquerons rapidement quelques sites dédiés aux publications en open access même si, quantitativement, ces publications ne représentent qu’une faible part de l’édition scientifique.
             
LES SITES DES GRANDS EDITEURS
             
Nous allons commencer par les sites des grands éditeurs, qui présentent beaucoup de points communs et quelques originalités.
            
Il s’agit de ScienceDirect (Elsevier), SpringerLink (Spinger) et Wiley Online Library (ce dernier remplaçant Wiley Interscience).
             
Un premier point commun à ces sites est que s’ils sont en libre accès, il est néanmoins fortement conseillé de s’enregistrer (gratuitement), car cela donne accès à des fonctionnalités complémentaires et évite d’avoir à entrer ses coordonnées à chaque fois que l’on veut acheter un article en ligne.
             
Le volume des contenus offerts est du même ordre de grandeur pour ces trois sites : plus de 10,8 millions de documents et plus de 2 500 journals (nous employons le terme anglais) pour ScienceDirect, plus de 5,3 millions de documents (pas seulement d’articles) et 2 635 journals pour SpringerLink et plus de 4 millions d’articles et 2 065 journals pour Wiley Online Library.
             
Les pages de recherche par défaut de Science Direct et SpringerLink sont très proches et centrées sur la recherche d’un article, dont on possède toutes les références bibliographiques.
             
Sur Wiley, cette page est plus simple puisque l’on saisit un terme en choisissant seulement s’il doit se trouver dans tout le contenu ou dans le titre d’une publication.
             
Les sites de ces trois éditeurs  proposent des recherches avancées qui se ressemblent à quelques détails près.
             
Dans ScienceDirect par exemple, on peut sélectionner toutes les sources, les journals ou les livres, un ou plusieurs domaines et la période.
            
On dispose de deux zones de saisie reliées par un opérateur booléen avec, pour chacune, le choix du champ (chez Wiley, on peut rajouter des zones au moins jusqu’à 12, nous n’avons pas été au-delà).
             
ScienceDirect propose aussi une grille de recherche experte, qui est une grande boîte vide que l’on remplit avec son équation, sachant que les pluriels, de même que les formes possessives de la plupart des mots, sont recherchés.
            
A noter qu’au-delà des booléens, on peut utiliser des opérateurs de proximité (dans l’ordre ou sans ordre, ce qui n’est pas le cas pour les autres).
            
On dispose aussi de masques et de troncatures.
             
On peut enfin entrer des noms de champs dont la liste est disponible dans l’aide.
             
La recherche avancée de SpringerLink est plus simple, puisque l’on ne dispose que d’une boîte, à l'intérieur de laquelle on peut utiliser les booléens AND, OR et NOT.
             
Par ailleurs, on a le choix entre une recherche dans le texte intégral, dans le titre et le résumé ou dans le titre seulement. On peut aussi entrer les éléments bibliographiques et une période.
             
On notera que la troncature est automatique.
             
Quant à Wiley, outre la possibilité de créer un grand nombre de boîtes, il propose la troncature et la recherche automatique sur les pluriels – y compris la plupart des pluriels irrégulier –, une équivalence entre les orthographes américaines et anglaises, ainsi que les variations des verbes irréguliers les plus courrants.
             
On notera que Wiley est le seul des trois à offrir une troncature gauche.
             
On citera aussi Taylor & Francis Online (www.tandfonline.com), dont la nouvelle plateforme  a remplacé InformaWorld fin juin.
             
Cette plateforme propose l’accès au contenu de 1 513 publications de Taylor & Francis et de ses filiales (Routledge, Psychology Press, CRC Press et Garland Science), ainsi qu’à 25 ouvrages de référence.
             
On trouve classiquement une boîte de recherche simple et une recherche avancée avec une zone de saisie par champ (texte intégral, titre, auteur …) et des booléens pour les relier, ainsi que différents filtres concernant notamment la date de publication.
             
LES AGREGATEURS MULTI-EDITEURS
             
Nous en avons retenu deux : Highwire – anciennement Highwire Press, dont nous avons parlé dans Bases à plusieurs reprises – et Ingenta Connect.
             
Highwire est réalisé et maintenu par la bibliothèque de l’université de Stanford en Californie. Cet agrégateur propose les contenus de 1 527 publications, d’un nombre relativement important d’éditeurs. Ces publications offrent plus de 6,7 millions d’articles, dont plus de 2,1 millions en accès libre.
             
Comme pour les sites que nous avons vus, l’écran d’accueil dispose d’une zone de saisie pour la recherche simple, dans laquelle les opérateurs booléens fonctionnent.

Les résultats apparaissent dans une colonne avec la photo de la couverture de la publication, la référence bibliographique complète et des extraits autour des mots de recherche.
             
Des liens sont proposés vers le résumé (gratuit), le texte intégral gratuit ou payant (dans notre cas moins cher que sur les sites des grands éditeurs), vers des documents semblables (more like this) et parfois vers une carte des citations.
            
La recherche avancée permet de lancer une requête sur tous les mots, au moins un mot ou la phrase, en précisant si celle-ci doit se faire dans le texte intégral, dans le titre et le résumé, dans le titre ou parmi les auteurs.
            
On peut croiser avec une recherche par citation (année, volume, pays).
            
On dispose par ailleurs de filtres par date ou pour limiter aux reviews, pour ajouter le contenu de Medline ou ne chercher que dans sa propre sélection de titres.
            
Ingenta Connect, pour sa part, propose 4,5 millions d’articles issus de près de 16 000 publications de 255 éditeurs.
            
Il offre également une recherche simple constituée d’une zone de saisie et une recherche avancée relativement rustique, puisque la grille se compose d’une boîte pour chercher au choix dans les titres, le titre + résumé + mots- clés ou le texte intégral, une autre pour l’auteur, puis la publication, le volume et le numéro.
            
On peut utiliser dans ces boîtes les booléens classiques.
            
On notera qu’il n’y a pas de limitation par période dans la recherche, mais on peut classer les résultats par pertinence (par défaut) ou par date (dans les deux sens).
             
En comparant les chiffres (voir tableau), on observera que les résultats dans Ingenta Connect sont, pour une même recherche, systématiquement inférieurs à ceux trouvés sur le site des grands éditeurs.
            
Renseignements pris, c’est tout simplement parce que les éditeurs ne fournissent pas l’intégralité de leur contenu au producteur d’Ingenta Connect.
             
LES SITES EN OPEN ACCESS
             
Les sites strictement en open access présentent essentiellement deux différences.
             
La première, évidente, est que tous les articles sont en accès libre, alors que sur les sites mentionnés ci-dessus, il ne s’agit que d’une partie plus ou moins importante, mais l’essentiel est payant.
            
La seconde différence tient surtout au volume, qui est significativement moins important.
             
C’est ainsi que Biomed Central édite 219 publications et Springer Open 45.
             
On citera aussi PLOS et le site français HAL, qui a une approche par article et non par éditeur, et qui ne contient «que» 172 568 documents.
             
Au final, on verra très clairement, en lisant le tableau ci-contre, que l’utilisateur a deux options :
            
- trouver gratuitement des résultats (résumés) en nombre réduit et en interrogeant plusieurs sites ;
            
- aller sur les grands agrégateurs et payer pour pouvoir faire une recherche plus sophistiquée et obtenir des résultats beaucoup plus complets.
             
Comparaison du nombre de résultats obtenu, sur les différents sites,
pour une même requête (limité au titre, titre + résumé et texte intégral)

                                   TI                                        TI + AB                     Fulltext
 
AIRBAG 2010

ScienceDirect             9                                            14 (+KW)                 157
SpringerLink               1                                            11                             179
Wiley                          1                                              1                               55
Taylor & Francis         0                                              1 (+KW)                    28
HighWire                    2                                              5                               62
Ingenta Connect        1                                              6 (+KW)
Scopus                     33                                          121 (+KW)                    40
Dialog                     173 (dans 24 bdd)                   671 (dans 33 bdd) (+KW)
                               101 après dédoublonnage       446 après dédoublonnage     
      
HEPTANE 2010

ScienceDirect             49                                          227 (+KW)               1 773
SpringerLink               16                                            53                              751
Wiley                            8                                             48                             949
Taylor & Francis           5                                           124 (+KW)                  200
HighWire                      2                                             23                             240
Ingenta Connect          9                                             43 (+KW)
Scopus                     145                                           758 (+KW)                  242
Dialog                       678 (dans 33 bdd)                 3 451(dans 57 bdd) (+KW)
                                 229 après dédoublonnage     1 296 après dédoublonnage    
    
PHOTOTHERAPY 2010
ScienceDirect             42                                          73 (+KW)                    437
SpringerLink               12                                          27                               306
Wiley                          39                                          83                                506
Taylor & Francis           0                                            1 (+KW)                       28
HighWire                      7                                          32                                190
Ingenta Connect         50                                        108 (+KW)                    151
Scopus                     131                                        998 (+KW)
Dialog                       659 (dans 28 bdd)              2 865 (dans 36 bdd) (+KW)
                                 198 après dédoublonnage  1 519 après dédoublonnage        


[1] EJournals: coming of age in the library and publishing community. Dan Tonkery.
Searcher, November 2010.



François Libmann
Publié dans le n° 282 de Bases (Mai 2011)

Aucun commentaire:

Enregistrer un commentaire