La recherche d’information et notamment ses outils et méthodes, ne cesse d’évoluer. C'est le cas avec les outils gratuits dont nous avons fait un panorama dans le dernier BASES (la recherche d'information au mille visages). Il est temps maintenant d’aborder la question des outils de recherche payants comme les serveurs, bases de données ou agrégateurs de presse.
Car si le paysage des acteurs n’a pas tant changé au cours des dernières années, à l’exception des nouveaux outils liés à l’exploration du Web ouvert et des médias sociaux, les technologies et la façon d’utiliser les outils de recherche professionnels payants ont quant à elles beaucoup évolué.
Après le léger passage à vide observé lors de l’abandon du développement de New STN, STN montre un regain de dynamisme et, lors de la dernière journée d’utilisateurs, les nouveautés ne manquaient pas.
Il faut d’abord savoir que tous les nouveaux développements et les ajouts de nouvelles bases se feront sur STNext.
Pour leur part, New STN et STN Express continueront à exister mais ne bénéficieront d’aucune nouvelle fonctionnalité et seront abandonnés à terme
Quand on pense recherche d’information et veille scientifique et technique, on pense essentiellement articles, revues scientifiques mais aussi brevets. Mais jusqu’à encore récemment, les données de la recherche ne faisaient pas vraiment partie du spectre.
La raison en est simple : Ces données, produites par les chercheurs dans le cadre de leurs recherches étaient rarement diffusées et rendues publiques. Et lorsque c’était le cas, très peu d’outils de recherche ou sources d’information capitalisaient dessus.
Et encore aujourd’hui, bon nombre de sources classiques comme les bases de données, serveurs, moteurs académiques, archives ouvertes, etc. ne proposent pas de datasets ou bien fort peu.
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Quelques rappels sur l’open data au service de la recherche d’information
La majorité des plateformes de veille classiques ou de social media monitoring mettent en avant la veille stratégique, concurrentielle ou encore e-réputation.
Si certains mentionnent bien la veille scientifique, technique ou technologique, elle est presque toujours reléguée en arrière-plan. A la limite, dans ce domaine-là, c’est la « veille innovation » qui a le plus de visibilité car il s’agit d’un concept en vogue et très utilisé dans le monde des startups même si ça n’a en soi rien de nouveau...
Les outils de recherche scientifiques et académiques gratuits, qui permettent de rechercher principalement des articles scientifiques mais également des monographies, compte-rendus de conférences ou encore thèses sont en pleine expansion.
Depuis le début de l’année, on a déjà pu voir apparaître deux nouveaux venus assez similaires, Dimensions et 1findr. Et à l’heure où nous écrivons ces lignes, les créateurs d’Unpaywall, l’extension de navigateur qui permet de savoir si un article est disponible ou non en libre accès (voir BASES n 350 – juillet/août 2017) vient d’annoncer le lancement prochain d’un moteur dopé à l’intelligence artificielle permettant de découvrir plus de 20 millions d’articles scientifiques en libre accès appelé Get the Research (http://gettheresearch.org/).
Et c’est sans compter sur Google Scholar qui est un quasi-réflexe pour bon nombre de chercheurs et qui existe quant à lui depuis 2004.
Quand il s’agit d’effectuer des recherches bibliographiques ou de réaliser une revue de littérature, Google Scholar apparaît généralement en tête de liste chez les chercheurs, universitaires, étudiants et même certains professionnels de l’information.
Une réalité qui est particulièrement surprenante, la rigueur de la démarche de recherche scientifique semblant a priori incompatible avec le mode de recherche très pauvre, proposé par Google Scholar dans des amas d’informations non structurées, et dont on ne connaît pas les contours.
Lire aussi dans ce dossier :
La perversité de Google Scholar
Recherche et veille sur la littérature scientifique et académique : nouveaux entrants et ressources-clés
Le volume important de documents contenus dans Google Scholar fait qu’il est extrêmement rare de ne trouver aucune réponse à n’importe quelle question un tant soit peu scientifique. Parmi ces réponses, le chercheur trouvera bien quelques documents intéressants parmi les premiers de la liste car on serait curieux de savoir combien vont examiner les 1 000 résultats visualisables (c’est la limite).
Ces résultats trouvés à partir d’une ou plusieurs recherches permettent le plus souvent de tirer quelques fils et de trouver quelques documents présentant un intérêt.
Et c’est là toute la perversité du système. Car l’accès à Google Scholar est gratuit et son contenu un des plus importants disponibles.
Lire aussi dans ce dossier :
Google Scholar est-il un véritable outil de recherche scientifique ?
Recherche et veille sur la littérature scientifique et académique : nouveaux entrants et ressources-clés
Il convient maintenant de dresser le portrait des principales ressources généralistes et multidisciplinaires pour la veille et la recherche bibliographiques. Et si nombre d’entre elles sont connues depuis longtemps des professionnels de l’information, nous avons également identifié quelques nouveaux acteurs prometteurs apparus au cours des deux dernières années et dont nous n’avons pas encore eu l’occasion de parler dans BASES.
Nous avons choisi ici de nous intéresser aux grandes ressources généralistes et multidisciplinaires proposant des références ou accès aux articles scientifiques et académiques. Sont donc exclues les ressources spécialisées sur une discipline en particulier ou sur certains types de documents qui pourront faire l’objet d’autres articles comme les thèses, mémoires, ouvrages, etc.
Lire aussi dans ce dossier :
Google Scholar est-il un véritable outil de recherche scientifique ?
La perversité de Google Scholar
Quand on dispose de la référence bibliographique d’un article scientifique, il n’est souvent pas très difficile d’identifier et d’obtenir l’article en texte intégral même si cela a un coût.
Dans la majorité des cas, une simple recherche sur le titre de l’article dans un moteur de recherche généraliste, comme Google ou Bing, ou dans un moteur de recherche académique, comme Google Scholar, permet d’identifier rapidement le PDF de l’article en ligne, qu’il soit accessible gratuitement ou de façon payante sur le site de l’éditeur.
Dans le dernier numéro de NETSOURCES (n°132 - janvier/février 2018), nous avons analysé la place grandissante de la recommandation de contenu dans les outils de recherche aussi bien grand public que professionnels, et l’impact que cela peut avoir sur les pratiques de veille et de recherche d’information.
Nous aborderons aujourd'hui la recommandation appliquée aux outils et sources d’information scientifiques, techniques et académiques :
Quelle est aujourd’hui la place des systèmes de recommandation de contenus dans les moteurs de recherche académiques, les serveurs et bases de données scientifiques, académiques et brevets, les outils de recherche développés par les éditeurs, les réseaux sociaux académiques, etc. ? Et qu'apporte ce système de recommandation au processus de recherche et de veille dans ces domaines ?
Nous avions signalé dans le numéro de janvier 2018 de BASES (n° 355) quelques problèmes de mise au point de la nouvelle interface de STN.
Ces problèmes sont maintenant réglés. En effet, quand on tape une parenthèse sur un clavier AZERTY, elle n’efface plus le caractère précédent.
D’autre part, on peut régler ses « settings » de façon à ce qu'à la déconnexion le système propose automatiquement le déchargement du transcript au moment du logoff. Pour cela, il faut aller dans les settings que l’on trouve dans le menu déroulant qui s’affiche quand on clique sur son nom, puis dans la rubrique « transcript download » activer l’option « Prompt at Logout/Logoff Hold » puis ne pas oublier de cliquer sur « apply » en haut à droite de l’écran.
La dématérialisation des publications a permis aux éditeurs privés, ainsi qu’aux éditeurs issus de la sphère publique d’explorer de nouveaux territoires. On assiste en particulier à la montée en puissance d’initiatives éditoriales comme celles relevant de l’Open Access dont le but est de proposer un accès en ligne et gratuit aux publications scientifiques.
Penchons-nous dans un premier temps sur le mode de publication scientifique qui a prévalu pendant les 200 dernières années, afin de mieux appréhender la nature des évolutions récentes.
L’habitude est prise par beaucoup de démarrer une recherche sur un sujet scientifique non familier dans Wikipedia, et plus généralement sur le Web l'éditeur Elsevier a lancé récemment ScienceDirect Topics pour proposer une alternative.
Cette «couche» créée par Elsevier, ajoutée à son produit ScienceDirect vise à répondre à ces questions de premier niveau qui ne sont en général pas traitées dans les articles scientifiques disponibles sur la plateforme car ils sont trop pointus. Elsevier considère, en effet, que ces réponses de premier niveau peuvent plutôt se trouver dans des chapitres de sa collection d’e-books constituée, en particulier d’encyclopédies et d’ouvrages de référence.
Il est rare que la mise en ligne d’un nouveau logiciel ne génère pas quelques soucis. STNext n’y a pas échappé. En effet, on rencontre un problème lorsque l’on utilise une parenthèse avec un clavier AZERTY car cette parenthèse efface le caractère précédent.
Par exemple, si l’on tape S (un terme) le S est effacé et la commande ne peut être exécutée. On ne peut donc faire que des stratégies de recherches qui ne comportent pas de parenthèse ce qui est évidemment très restrictif.
Pour pallier cet inconvénient, il y a plusieurs solutions : utiliser un clavier QWERTY, ou bien utiliser Command Window accessible à partir de la flèche en bas à gauche de l’écran si l’on veut rester sur STNext.
Sinon, on peut bien sûr utiliser STN on the Web ou STN Express.
Autre «détail» à prendre en compte si l’on utilise STNext : il faut penser à récupérer le transcript avant de se déconnecter, contrairement à ce qui se passe avec STN on the Web où l'on accède au transcript après la déconnexion.
Pour ceux qui n’ont pas de contrat forfaitaire, cela augmente inutilement les coûts.
La dernière édition de la manifestation ICIC en tant que telle vient d’avoir lieu à Heidelberg en Allemagne, citée universitaire charmante mais toujours aussi peu pratique d’accès.
Le schéma précis de cette organisation est original. Il a été créé il y a bien longtemps par Harry Collier et sa société Infonortics et a résisté fort longtemps, bien plus que le fameux Online de Londres qui a aussi duré longtemps mais s’est effondré totalement en quelques années, son modèle n’ayant finalement pas résisté aux évolutions, en particulier celle du Web.
Nous avons déjà évoqué à la suite de l’édition 2016 de l’ICIC la généralisation de la reconnaissance automatique des éléments chimiques dans le texte, et ce quelle que soit la façon de les écrire (BASES n° 345, février 2017).
Comme on l’avait vu, au moins quatre acteurs étaient présents sur ce créneau : Infochem, en particulier avec l’OMPI, Ontochem IT Solution avec Infoapps, Chemaxon avec Questel, NextMove Software avec Minesoft (pour PatBase), sans oublier STN avec PatentPack basé sur la reconnaissance intellectuelle et non pas automatique des noms chimiques au sens large.
A l’occasion de l’édition 2017 de l’ICIC, Infochem (filiale de Springer Nature depuis 2015) a annoncé de nouveaux développements dans l’informatique appliqué à la chimie et en particulier a précisé l’ensemble des langues dans lesquelles son outil de reconnaissance fonctionnait désormais à savoir, l’anglais, l’allemand, le français, le russe, le coréen, le japonais et le chinois.
Infochem a notamment insisté sur le fait qu’ils adaptent précisément leurs prestations aux besoins précis de leurs clients, généralement dans le cadre d’un projet.
On connaissait déjà les accès professionnels à STN par STN Express ou par STN on the Web (attention pour cet accès à bien se connecter sur le site de FIZ Karlsruhe et pas sur celui de CAS). S’est ajouté en fanfare, il y a quelques années le «New STN» supposé remplacer et rendre obsolète les deux interfaces précédentes.
Le New STN, longtemps mis en avant, ne mettait toujours pas à disposition toutes les bases du catalogue et son développement apparaissait long et quelque peu problématique. Et effectivement, STN a fini par annoncer que cette interface utilisait des technologies nouvelles pour lesquelles des contraintes non prévues étaient apparues.
Dans l’imaginaire collectif des professionnels de l’information, Google Scholar, le moteur de recherche académique de Google, apparaît comme un concurrent des serveurs et bases de données payantes comme Scopus, Web of Science, Proquest, Proquest Dialog, etc.
S’il est de notoriété publique qu’une grande partie du contenu des sites et outils des éditeurs scientifiques se retrouvent sur Google Scholar, cela paraît moins évident pour le contenu des bases de données disponibles sur les grands serveurs.
Pourtant, on apprenait il y a peu que Google étendait sa collaboration avec Proquest en indexant près d’un demi million de thèses disponibles dans la base de données ProQuest Dissertations & Theses Global™ database (PQDT).
Suite du feuilleton entre les éditeurs scientifiques et le réseau social scientifique ResearchGate.
Rappelons qu’au dernier épisode, les éditeurs avaient proposé un accord à ResearchGate pour limiter le nombre d’articles enfreignant les règles du copyright. Le réseau social n’a semble t-il jamais répondu à leurs sollicitations.
Cinq acteurs (American Chemical Society, Brill, Elsevier, Wiley et Wolters Kluwer) ont donc décidé de se regrouper pour créer la « Coalition for responsible sharing » et ont alors prévu de prendre des mesures légales envers ResearchGate.
Face à cette levée de boucliers, ResearchGate a décidé de réagir à sa façon en supprimant un certain nombre de publications présentes dans son système. Certaines publications ont ainsi été rendues privé avec un accès restreints à certaines personnes et d’autres ont tout simplement été supprimées sans que l’auteur n’ait été prévenu au préalable.
Nous apprenions il y a quelques jours que Pubmed testait une nouvelle interface. Celle-ci est accessible sur Pubmed Labs (https://www.ncbi.nlm.nih.gov/labs/pubmed) et n’a pas vocation à supplanter l’interface actuelle pour le moment. Le but étant de tester de nouvelles fonctionnalités.
Parmi les nouveautés, on notera :
Nous avons voulu récemment effectuer une recherche dans HighWire Press en complément de recherches dans Proquest Dialog, Scopus et STN sur un sujet qui générait peu de réponses. C’est à cette occasion que nous avons appris qu’HighWire Press avait abandonné son moteur de recherche qui permettait de rechercher dans un grand nombre de publications académiques.
Il n’offre plus maintenant qu’un service aux éditeurs pour constituer leur site Web.
Quant à la recherche, quand nous avons posé la question, notre interlocuteur nous a renvoyé sur … Google Scholar, dommage...
Rappelons qu’HighWire Press a été créé en 1995 au sein de la bibliothèque de l’Université de Stanford en Californie. Nous l’avions présenté dans le n° 290 (Février 2012) de BASES.
Dans le secteur de la recherche, il est en ce moment beaucoup question des « revues prédatrices », en l’occurrence des revues pseudo-scientifiques dont le but principal est l’enrichissement plutôt que l’avancement de la recherche.
Les chercheurs sont généralement sollicités par email par ces revues et invités à soumettre des articles. Elles fonctionnent sur le modèle du libre accès où les auteurs payent pour que leurs articles soient publiés. Mais dans le cas des revues prédatrices, n’importe quel article est accepté et publié, les comités éditoriaux étant souvent composés de membres fictifs ou de chercheurs dont les noms ont été inscrits sans leur accord.
Jeffrey Beall, un bibliothécaire de l’Université du Colorado à Denver avait mis en ligne une liste des revues prédatrices pour aider les chercheurs à ne pas se faire piéger, liste qui a malheureusement été retirée en janvier dernier suite aux nombreuses pressions qu’il a reçues.
L’industrie pharmaceutique est un secteur riche en informations de diverses natures, ce qui implique de disposer de multiples sources pour accéder à l’information la plus pertinente et la plus à jour.
Les différents métiers de l’industrie du médicament font appel à des sources spécialisées abordant les aspects scientifiques, cliniques, médicaux, techniques, réglementaires ou financiers du domaine.
A l’occasion de la dernière réunion annuelle du CFIB (Club francophone d’information brevet), Marie-Pierre Vidonne, directrice du cabinet suisse Innovea, a fait un fort utile tour d’horizon des possibilités de libre accès (open access) à la littérature scientifique.
Ces problématiques sont apparues peu après que les articles scientifiques soient devenus disponibles sous forme électronique. S’est, en effet, alors posé le problème des modalités de leur accessibilité.
Claritive Analytics qui a racheté les activités Propriété Intellectuelle de Thomson vient d’acquérir Publons et sa plateforme à destination des chercheurs pour partager, discuter et mettre en valeur le travail des reviewers. Le CEO de Claritive a ainsi annoncé que l’entreprise souhaitait investir dans des solutions d’analytics et d’optimisation des workflows pour aider ses clients à accélérer leur processus d’innovation.
LexisNexis a récemment lancé une base de données appelée LexisNexis Media Contacts Solution qui recense plus de 800 000 contacts médias dans plus de 200 pays. Cette base permet ainsi d’identifier des journalistes et influenceurs.
Du côté de l’information business et financière, les opérations de rachat et partenariats se font nombreuses.
Nous apprenions récemment le rachat de Bureau Van Dijk (Orbis, Diane, Zehyr, etc.) par l’agence de notation Moody’s pour 3.3 milliards de dollars. Pour Moody’s, l’opération a pour but d’étendre ses activités « en services d’analyse de risques et d’évaluation analytique ».
Claritive Analytics qui a récemment racheté les activités Propriété Intellectuelle de Thomson a annoncé son intention d’investir dans Web of Science en élargissant sa couverture de l’ « Emerging Sources Citation Index ». L’index passera ainsi de 5 000 revues émergentes à 7 500 et ce sont dix années d’archives qui seront également proposées dans le cours de l’année.
Les « fake news » et la désinformation ne cessent de faire la Une des médias en cette période d’élection. Facebook et Google se sont eux-mêmes lancés dans la course au fact checking en proposant un meilleur contrôle du contenu partagé en ligne et en lançant ou en s’associant à des outils et projets de fact checking, en l’occurrence de vérification des informations.
En France, plusieurs initiatives coexistent depuis plusieurs années mais le dernier en date vient d’être lancé par le quotidien Libération. Checknews (http://checknews.fr/), c’est son nom, se définit comme un moteur de recherche humain pour lutter contre la désinformation. Les internautes posent leurs questions sur le moteur : si une réponse à cette question existe déjà, il est renvoyé vers cette réponse. Dans le cas contraire, sa question va être traitée par un journaliste qui va se charger de vérifier les faits et rédiger une réponse.
Le producteur de Chemical Abstracts vante depuis longtemps la qualité de l’indexation manuelle qu’il réalise des composés chimiques présents dans les textes d’articles ou de brevets référencés dans la banque de données. Cette indexation manuelle est réalisée par des chimistes des pays d’origine des documents.
Avec Chemical Explorer et Textmine lancé par Minesoft (voir Bases n° 335, Mars 2016) sont apparus le repérage et l’indexation automatique des composés chimiques et l’analyse automatique du contenu des brevets selon certains critères.
Peu après, STN a lancé PatentPak (voir Bases n° 339, juillet-août 2016) qui, sur un nombre relativement limité de brevets, néanmoins en augmentation rapide, permet la localisation dans le texte du brevet de la citation d’une molécule précise.
Parmi les produits présentés par CAS à l'ICIC 20161 figurait un nouveau venu baptisé «MethodsNow» (www.methodsnow.com). Il est constitué en fait de deux produits, l’un consacré aux méthodes de réalisation de synthèses (MethodsNow-Synthesis) et le second aux méthodes analytiques (MethodsNow-Analytical).
La partie consacrée aux méthodes de synthèse est une extension de SciFinder, auquel il faut déjà avoir souscrit.
Peter Derycz, CEO et président de la société californienne Reprints Desk a présenté sa solution de location d’articles qui fonctionne en particulier avec son widget « Article Galaxy » accessible sur n’importe quel navigateur.
Prenant l’exemple de la veille dans le cadre de la pharmacovigilance, il est parti du fait que dans 50 % des cas, les responsables de la pharmacovigilance n’étaient pas sûrs de la pertinence des documents obtenus par leur veille. En effet les références bibliographiques, même avec le résumé, ne permettent pas toujours de faire un choix sans ambigüité.
A l’occasion de l’ICIC 2016 à Heidelberg, CAS (Chemical Abstracts Services) a présenté deux nouveaux produits ChemZent et MethodsNow.
Nous allons nous intéresser ici à Chemzent.
Chemzent propose la traduction en anglais des notices/résumés de la publication Chemisches Zentralblatt, la plus ancienne publication d’abstracts rédigés originellement en allemand, dans le domaine de la chimie.