Quand on dispose de la référence bibliographique d’un article scientifique, il n’est souvent pas très difficile d’identifier et d’obtenir l’article en texte intégral même si cela a un coût.
Dans la majorité des cas, une simple recherche sur le titre de l’article dans un moteur de recherche généraliste, comme Google ou Bing, ou dans un moteur de recherche académique, comme Google Scholar, permet d’identifier rapidement le PDF de l’article en ligne, qu’il soit accessible gratuitement ou de façon payante sur le site de l’éditeur.
Dans le dernier numéro de NETSOURCES (n°132 - janvier/février 2018), nous avons analysé la place grandissante de la recommandation de contenu dans les outils de recherche aussi bien grand public que professionnels, et l’impact que cela peut avoir sur les pratiques de veille et de recherche d’information.
Nous aborderons aujourd'hui la recommandation appliquée aux outils et sources d’information scientifiques, techniques et académiques :
Quelle est aujourd’hui la place des systèmes de recommandation de contenus dans les moteurs de recherche académiques, les serveurs et bases de données scientifiques, académiques et brevets, les outils de recherche développés par les éditeurs, les réseaux sociaux académiques, etc. ? Et qu'apporte ce système de recommandation au processus de recherche et de veille dans ces domaines ?
Nous avions signalé dans le numéro de janvier 2018 de BASES (n° 355) quelques problèmes de mise au point de la nouvelle interface de STN.
Ces problèmes sont maintenant réglés. En effet, quand on tape une parenthèse sur un clavier AZERTY, elle n’efface plus le caractère précédent.
D’autre part, on peut régler ses « settings » de façon à ce qu'à la déconnexion le système propose automatiquement le déchargement du transcript au moment du logoff. Pour cela, il faut aller dans les settings que l’on trouve dans le menu déroulant qui s’affiche quand on clique sur son nom, puis dans la rubrique « transcript download » activer l’option « Prompt at Logout/Logoff Hold » puis ne pas oublier de cliquer sur « apply » en haut à droite de l’écran.
La dématérialisation des publications a permis aux éditeurs privés, ainsi qu’aux éditeurs issus de la sphère publique d’explorer de nouveaux territoires. On assiste en particulier à la montée en puissance d’initiatives éditoriales comme celles relevant de l’Open Access dont le but est de proposer un accès en ligne et gratuit aux publications scientifiques.
Penchons-nous dans un premier temps sur le mode de publication scientifique qui a prévalu pendant les 200 dernières années, afin de mieux appréhender la nature des évolutions récentes.
Le modèle traditionnel de publication scientifique repose sur une collaboration entre un producteur de connaissance (le chercheur) et un professionnel de la publication (l’éditeur). Le chercheur obtient auprès de l’éditeur la publication de son travail de recherche, en échange de la cession de ses droits sur ledit travail, et parfois du versement d’une somme complémentaire.
Dans le cas de la publication dite « scientifique », le processus de publication comporte en particulier une étape de validation des travaux par les pairs scientifiques, gage de qualité des travaux publiés. Au-delà du strict service de diffusion de ses travaux, le chercheur acquiert ainsi un accès à la reconnaissance de son travail, répercuté en termes de prestige plus ou moins grand en fonction du degré d’exigence de la revue choisie.
Penchons-nous sur la nature des services rendus par les éditeurs et les modalités de leur exécution. La figure 1 décrit les taches habituellement prises en charge par les uns et les autres.
Figure 1. Étapes nécessaires à la publication des travaux scientifique dans le modèle traditionnel, et répartition des tâches entre les éditeurs et le monde académique, auteur des travaux. ©Marie-Laure Chesne-Seck
L’habitude est prise par beaucoup de démarrer une recherche sur un sujet scientifique non familier dans Wikipedia, et plus généralement sur le Web l'éditeur Elsevier a lancé récemment ScienceDirect Topics pour proposer une alternative.
Cette «couche» créée par Elsevier, ajoutée à son produit ScienceDirect vise à répondre à ces questions de premier niveau qui ne sont en général pas traitées dans les articles scientifiques disponibles sur la plateforme car ils sont trop pointus. Elsevier considère, en effet, que ces réponses de premier niveau peuvent plutôt se trouver dans des chapitres de sa collection d’e-books constituée, en particulier d’encyclopédies et d’ouvrages de référence.
Il est rare que la mise en ligne d’un nouveau logiciel ne génère pas quelques soucis. STNext n’y a pas échappé. En effet, on rencontre un problème lorsque l’on utilise une parenthèse avec un clavier AZERTY car cette parenthèse efface le caractère précédent.
Par exemple, si l’on tape S (un terme) le S est effacé et la commande ne peut être exécutée. On ne peut donc faire que des stratégies de recherches qui ne comportent pas de parenthèse ce qui est évidemment très restrictif.
Pour pallier cet inconvénient, il y a plusieurs solutions : utiliser un clavier QWERTY, ou bien utiliser Command Window accessible à partir de la flèche en bas à gauche de l’écran si l’on veut rester sur STNext.
Sinon, on peut bien sûr utiliser STN on the Web ou STN Express.
Autre «détail» à prendre en compte si l’on utilise STNext : il faut penser à récupérer le transcript avant de se déconnecter, contrairement à ce qui se passe avec STN on the Web où l'on accède au transcript après la déconnexion.
Pour ceux qui n’ont pas de contrat forfaitaire, cela augmente inutilement les coûts.
La dernière édition de la manifestation ICIC en tant que telle vient d’avoir lieu à Heidelberg en Allemagne, citée universitaire charmante mais toujours aussi peu pratique d’accès.
Le schéma précis de cette organisation est original. Il a été créé il y a bien longtemps par Harry Collier et sa société Infonortics et a résisté fort longtemps, bien plus que le fameux Online de Londres qui a aussi duré longtemps mais s’est effondré totalement en quelques années, son modèle n’ayant finalement pas résisté aux évolutions, en particulier celle du Web.
Nous avons déjà évoqué à la suite de l’édition 2016 de l’ICIC la généralisation de la reconnaissance automatique des éléments chimiques dans le texte, et ce quelle que soit la façon de les écrire (BASES n° 345, février 2017).
Comme on l’avait vu, au moins quatre acteurs étaient présents sur ce créneau : Infochem, en particulier avec l’OMPI, Ontochem IT Solution avec Infoapps, Chemaxon avec Questel, NextMove Software avec Minesoft (pour PatBase), sans oublier STN avec PatentPack basé sur la reconnaissance intellectuelle et non pas automatique des noms chimiques au sens large.
A l’occasion de l’édition 2017 de l’ICIC, Infochem (filiale de Springer Nature depuis 2015) a annoncé de nouveaux développements dans l’informatique appliqué à la chimie et en particulier a précisé l’ensemble des langues dans lesquelles son outil de reconnaissance fonctionnait désormais à savoir, l’anglais, l’allemand, le français, le russe, le coréen, le japonais et le chinois.
Infochem a notamment insisté sur le fait qu’ils adaptent précisément leurs prestations aux besoins précis de leurs clients, généralement dans le cadre d’un projet.
On connaissait déjà les accès professionnels à STN par STN Express ou par STN on the Web (attention pour cet accès à bien se connecter sur le site de FIZ Karlsruhe et pas sur celui de CAS). S’est ajouté en fanfare, il y a quelques années le «New STN» supposé remplacer et rendre obsolète les deux interfaces précédentes.
Le New STN, longtemps mis en avant, ne mettait toujours pas à disposition toutes les bases du catalogue et son développement apparaissait long et quelque peu problématique. Et effectivement, STN a fini par annoncer que cette interface utilisait des technologies nouvelles pour lesquelles des contraintes non prévues étaient apparues.
Dans l’imaginaire collectif des professionnels de l’information, Google Scholar, le moteur de recherche académique de Google, apparaît comme un concurrent des serveurs et bases de données payantes comme Scopus, Web of Science, Proquest, Proquest Dialog, etc.
S’il est de notoriété publique qu’une grande partie du contenu des sites et outils des éditeurs scientifiques se retrouvent sur Google Scholar, cela paraît moins évident pour le contenu des bases de données disponibles sur les grands serveurs.
Pourtant, on apprenait il y a peu que Google étendait sa collaboration avec Proquest en indexant près d’un demi million de thèses disponibles dans la base de données ProQuest Dissertations & Theses Global™ database (PQDT).
Suite du feuilleton entre les éditeurs scientifiques et le réseau social scientifique ResearchGate.
Rappelons qu’au dernier épisode, les éditeurs avaient proposé un accord à ResearchGate pour limiter le nombre d’articles enfreignant les règles du copyright. Le réseau social n’a semble t-il jamais répondu à leurs sollicitations.
Cinq acteurs (American Chemical Society, Brill, Elsevier, Wiley et Wolters Kluwer) ont donc décidé de se regrouper pour créer la « Coalition for responsible sharing » et ont alors prévu de prendre des mesures légales envers ResearchGate.
Face à cette levée de boucliers, ResearchGate a décidé de réagir à sa façon en supprimant un certain nombre de publications présentes dans son système. Certaines publications ont ainsi été rendues privé avec un accès restreints à certaines personnes et d’autres ont tout simplement été supprimées sans que l’auteur n’ait été prévenu au préalable.
Nous apprenions il y a quelques jours que Pubmed testait une nouvelle interface. Celle-ci est accessible sur Pubmed Labs (https://www.ncbi.nlm.nih.gov/labs/pubmed) et n’a pas vocation à supplanter l’interface actuelle pour le moment. Le but étant de tester de nouvelles fonctionnalités.
Parmi les nouveautés, on notera :
Nous avons voulu récemment effectuer une recherche dans HighWire Press en complément de recherches dans Proquest Dialog, Scopus et STN sur un sujet qui générait peu de réponses. C’est à cette occasion que nous avons appris qu’HighWire Press avait abandonné son moteur de recherche qui permettait de rechercher dans un grand nombre de publications académiques.
Il n’offre plus maintenant qu’un service aux éditeurs pour constituer leur site Web.
Quant à la recherche, quand nous avons posé la question, notre interlocuteur nous a renvoyé sur … Google Scholar, dommage...
Rappelons qu’HighWire Press a été créé en 1995 au sein de la bibliothèque de l’Université de Stanford en Californie. Nous l’avions présenté dans le n° 290 (Février 2012) de BASES.
Dans le secteur de la recherche, il est en ce moment beaucoup question des « revues prédatrices », en l’occurrence des revues pseudo-scientifiques dont le but principal est l’enrichissement plutôt que l’avancement de la recherche.
Les chercheurs sont généralement sollicités par email par ces revues et invités à soumettre des articles. Elles fonctionnent sur le modèle du libre accès où les auteurs payent pour que leurs articles soient publiés. Mais dans le cas des revues prédatrices, n’importe quel article est accepté et publié, les comités éditoriaux étant souvent composés de membres fictifs ou de chercheurs dont les noms ont été inscrits sans leur accord.
Jeffrey Beall, un bibliothécaire de l’Université du Colorado à Denver avait mis en ligne une liste des revues prédatrices pour aider les chercheurs à ne pas se faire piéger, liste qui a malheureusement été retirée en janvier dernier suite aux nombreuses pressions qu’il a reçues.
L’industrie pharmaceutique est un secteur riche en informations de diverses natures, ce qui implique de disposer de multiples sources pour accéder à l’information la plus pertinente et la plus à jour.
Les différents métiers de l’industrie du médicament font appel à des sources spécialisées abordant les aspects scientifiques, cliniques, médicaux, techniques, réglementaires ou financiers du domaine.
A l’occasion de la dernière réunion annuelle du CFIB (Club francophone d’information brevet), Marie-Pierre Vidonne, directrice du cabinet suisse Innovea, a fait un fort utile tour d’horizon des possibilités de libre accès (open access) à la littérature scientifique.
Ces problématiques sont apparues peu après que les articles scientifiques soient devenus disponibles sous forme électronique. S’est, en effet, alors posé le problème des modalités de leur accessibilité.
Claritive Analytics qui a racheté les activités Propriété Intellectuelle de Thomson vient d’acquérir Publons et sa plateforme à destination des chercheurs pour partager, discuter et mettre en valeur le travail des reviewers. Le CEO de Claritive a ainsi annoncé que l’entreprise souhaitait investir dans des solutions d’analytics et d’optimisation des workflows pour aider ses clients à accélérer leur processus d’innovation.
LexisNexis a récemment lancé une base de données appelée LexisNexis Media Contacts Solution qui recense plus de 800 000 contacts médias dans plus de 200 pays. Cette base permet ainsi d’identifier des journalistes et influenceurs.
Du côté de l’information business et financière, les opérations de rachat et partenariats se font nombreuses.
Nous apprenions récemment le rachat de Bureau Van Dijk (Orbis, Diane, Zehyr, etc.) par l’agence de notation Moody’s pour 3.3 milliards de dollars. Pour Moody’s, l’opération a pour but d’étendre ses activités « en services d’analyse de risques et d’évaluation analytique ».
Claritive Analytics qui a récemment racheté les activités Propriété Intellectuelle de Thomson a annoncé son intention d’investir dans Web of Science en élargissant sa couverture de l’ « Emerging Sources Citation Index ». L’index passera ainsi de 5 000 revues émergentes à 7 500 et ce sont dix années d’archives qui seront également proposées dans le cours de l’année.
Les « fake news » et la désinformation ne cessent de faire la Une des médias en cette période d’élection. Facebook et Google se sont eux-mêmes lancés dans la course au fact checking en proposant un meilleur contrôle du contenu partagé en ligne et en lançant ou en s’associant à des outils et projets de fact checking, en l’occurrence de vérification des informations.
En France, plusieurs initiatives coexistent depuis plusieurs années mais le dernier en date vient d’être lancé par le quotidien Libération. Checknews (http://checknews.fr/), c’est son nom, se définit comme un moteur de recherche humain pour lutter contre la désinformation. Les internautes posent leurs questions sur le moteur : si une réponse à cette question existe déjà, il est renvoyé vers cette réponse. Dans le cas contraire, sa question va être traitée par un journaliste qui va se charger de vérifier les faits et rédiger une réponse.
Le producteur de Chemical Abstracts vante depuis longtemps la qualité de l’indexation manuelle qu’il réalise des composés chimiques présents dans les textes d’articles ou de brevets référencés dans la banque de données. Cette indexation manuelle est réalisée par des chimistes des pays d’origine des documents.
Avec Chemical Explorer et Textmine lancé par Minesoft (voir Bases n° 335, Mars 2016) sont apparus le repérage et l’indexation automatique des composés chimiques et l’analyse automatique du contenu des brevets selon certains critères.
Peu après, STN a lancé PatentPak (voir Bases n° 339, juillet-août 2016) qui, sur un nombre relativement limité de brevets, néanmoins en augmentation rapide, permet la localisation dans le texte du brevet de la citation d’une molécule précise.
Parmi les produits présentés par CAS à l'ICIC 20161 figurait un nouveau venu baptisé «MethodsNow» (www.methodsnow.com). Il est constitué en fait de deux produits, l’un consacré aux méthodes de réalisation de synthèses (MethodsNow-Synthesis) et le second aux méthodes analytiques (MethodsNow-Analytical).
La partie consacrée aux méthodes de synthèse est une extension de SciFinder, auquel il faut déjà avoir souscrit.
Peter Derycz, CEO et président de la société californienne Reprints Desk a présenté sa solution de location d’articles qui fonctionne en particulier avec son widget « Article Galaxy » accessible sur n’importe quel navigateur.
Prenant l’exemple de la veille dans le cadre de la pharmacovigilance, il est parti du fait que dans 50 % des cas, les responsables de la pharmacovigilance n’étaient pas sûrs de la pertinence des documents obtenus par leur veille. En effet les références bibliographiques, même avec le résumé, ne permettent pas toujours de faire un choix sans ambigüité.
A l’occasion de l’ICIC 2016 à Heidelberg, CAS (Chemical Abstracts Services) a présenté deux nouveaux produits ChemZent et MethodsNow.
Nous allons nous intéresser ici à Chemzent.
Chemzent propose la traduction en anglais des notices/résumés de la publication Chemisches Zentralblatt, la plus ancienne publication d’abstracts rédigés originellement en allemand, dans le domaine de la chimie.
Clarivate Analytics lance une nouvelle version de son outil de gestion bibliographique EndNote. EndNote X8 offre désormais la possibilité de partager une bibliothèque de références, des références, des PDFs et des annotations avec 100 personnes maximum, la possibilité de travailler simultanément sur une bibliothèque partagée en temps réel, du stockage illimité sans coût additionnel et l’ajout d’un flux d’activité pour voir les nouveaux membres ou les changements apportés aux bibliothèques partagées.
L’organisation des Nations-Unies pour l’Alimentation et l’Agriculture (FAO) vient de lancer une nouvelle version de sa base de données statistique FAOSTAT. Au programme des nouveautés, une interface plus moderne et adaptée à la lecture sur supports mobiles, de nouvelles fonctionnalités de recherche et de filtrage et la possibilité de télécharger des ensembles de données personnalisées, des cartes et graphiques. Le nouveau site propose également une nouvelle fonction avec un ensemble d’indicateurs-clés prêts à l’emploi.
L’édition 2016 de l’ICIC (The International Conference on Trends for Scientific Information Professionals) a eu lieu une nouvelle fois en Allemagne à Heidelberg.
L’essentiel des personnes présentes (congressistes, conférenciers, exposants) étaient d’origine allemande. Les deux seules sociétés françaises représentées étaient QUESTEL et BASES PUBLICATIONS, même si le nombre de francophones n’était pas pour autant négligeable.
La banque de données Dimensions a été créée par la société allemande UberResearch basée à Cologne, elle-même appartenant au groupe Digital Science, proposant par ailleurs Readcube ou Altmetric.
Dimensions est destinée à la fois aux financeurs de la recherche publique (NIH, Commission Européenne et beaucoup d’autres) et aux organismes de recherche recevant des fonds de ces organismes.
Cette banque de données recense les financements publics dans le monde entier, les pays les plus représentés étant les USA avec plus de 476 000 projets pour 400 milliards de dollars, viennent ensuite le Japon, le Canada, la Chine, le Royaume Uni, ….
Academia, le réseau social académique qui compte plus de 40 millions d’utilisateurs vient d’annoncer le lancement d’une offre premium. Cette offre est accessible en beta privée uniquement pour le moment et semble offrir par rapport à l’inscription classique plus de données analytiques.
Jusqu’à présent, le réseau social était entièrement gratuit et même si les premières informations ne semblent pas remettre en cause l’accès gratuit à tous les documents hébergés sur la plateforme, cette annonce a soulevé de nombreuses critiques dans le monde académique qui s’inquiète de voir disparaître certaines fonctionnalités et surtout l’accès gratuit à l’intégralité des documents. Aucune information tarifaire n’est pour le moment publique mais certains beta testeurs ont indiqué sur les réseaux sociaux que les tarifs proposés étaient bien trop élevés. Affaire à suivre...
La vie de l’INIST n’a pas été un long fleuve tranquille et les remises en cause ou les questionnements sur sa vocation et ses produits et services n’ont pas manqué. Hors de la sphère publique (l’INIST est un établissement du CNRS), l’INIST était essentiellement connu pour deux produits, Pascal et Francis et un service, Refdoc.
Pascal et Francis sont deux banques de données, la première spécialisée en sciences, technologie, médecine et la seconde couvrant 15 disciplines en sciences humaines et sociales. Francis était particulièrement appréciée aux Etats-Unis où elle n’avait pas tellement d’équivalent.
L’information scientifique et technique est importante pour une structure de type centre technique. Il est donc nécessaire de remettre périodiquement en cause ses sources d’informations en choisissant le meilleur compromis entre la qualité et le coût.
En 2016, le CETIM a cherché à évaluer la pertinence de ses sources d’informations. Celles-ci ont en effet évolué depuis quelques années, en particulier avec l’apparition de l’offre des éditeurs scientifiques. Le département Veille Technologique et Stratégique du CETIM s’est appuyé sur un projet de fin d’année de Licence Pro en info-doc de Lyon pour évaluer la pertinence des différentes sources d’information.
Le 24 août dernier, Elsevier annonçait le lancement de Datasearch, un moteur de recherche de données scientifiques multisectoriel en libre accès. L’outil fonctionne comme un moteur classique et interroge des sources scientifiques et répertoires institutionnels. Elsevier explique avoir voulu aider les chercheurs à gagner du temps dans leurs recherches car les moteurs de recherche généralistes ne sont pas forcément les plus adaptés pour identifier de l’information très spécialisée et ne se limitent pas à des sources d’information qualifiées et reconnues.
Ainsi, Datasearch indexe pour le moment les tableaux, figures et données supplémentaires associées aux articles publiés sur ScienceDirect, arXiv et PubMed Central ainsi que le contenu de NeuroElectro, Dryad, PetDB, ICPSR, Harvard Dataverse et ThemoML.
Pour le moment Datasearch n’est pas un produit commercial mais Elsevier indique que le business model n’est pas encore finalisé. Impossible donc de savoir comment va évoluer le produit dans les mois et années à venir et s’il va rester en libre accès.
Le Ministère de l’éducation Nationale, de l’Enseignement et de la Recherche vient de lancer en version beta ScanR, un moteur de recherche permettant d’identifier des organismes de recherche publics et privées (petites, moyennes et grandes entreprises).
Quand on connaît la difficulté qu’il y a à localiser des experts ou des acteurs sur une thématique précise, on ne peut que se féliciter du lancement d’un tel produit.
Mais comment fonctionne t-il, quelles sources interroge t-il et quelles sont ses limites ?