Lancée le 18 décembre 2019, le « new PubMed » (voir figure 1.) est devenu le 18 mai dernier la plateforme par défaut de PubMed, la précédente (legacy PubMed) restant en ligne au moins jusqu’au 30 octobre 2020.
Cette période de cinq mois a été mise à profit pour réaliser différents tests et recueillir les réactions des premiers utilisateurs.
L’outil gratuit Pubmed a été lancé en 1996 comme un site Web expérimental et revendique aujourd’hui 3,4 millions d’utilisateurs pour un jour de semaine moyen, effectuant des recherches dans un corpus de plus de 31 millions de références bibliographiques.
Lire aussi :
Les outils documentaires du CHU de Rouen : CISMeF, LiSSa et HeTOP
Après plusieurs mois pendant lesquels le coronavirus occupait la majorité des actualités de la veille et de la recherche d’information avec de nouvelles ressources et de nouveaux outils dédiés, on sent bien que la vie professionnelle reprend progressivement son cours avec le lancement de nouveaux outils et de nouvelles fonctionnalités et l’aboutissement de projets en cours.
Il y a quelques mois, nous avions eu l’occasion de parler d’un nouvel outil 2D Search qui permet de créer ses requêtes sur des moteurs et bases de données en 2 dimensions. L’idée étant que les requêtes peuvent être parfois longues et complexes et sont propices aux erreurs. En créant sa requête sous forme de blocs combinables, la requête est plus lisible et plus facilement modifiable. À l’époque, l’outil intégrait déjà Google, Google Scholar (même si nous ne recommandions pas son utilisation sur la suite Google), Bing, Pubmed et quelques autres.
Lire aussi :
Des outils pour optimiser ses stratégies de recherche
Nous avions, avec Philippe Bodart (Total Research & Technology, Feluy-CFIB) déploré dans un précédent numéro de BASES la baisse régulière depuis plusieurs années du nombre d’articles d’origine asiatique référencés dans les bases de données/agrégateurs/serveurs occidentaux ».
Le producteur de Chemical Abstracts Services nous avait à cette occasion, expliqué que le nombre de brevets déposés dans cette zone croissait fortement et qu’ils avaient, au moins pour un temps, privilégié les brevets par rapport à la littérature. Les références à cette dernière étant supposées, à terme, ré-augmenter suite à l’embauche de nouveaux experts.
Nous avions annoncé alors que nous explorerions les bases de données de certains de ces pays avec l’aide du bureau Asie de l’OEB (Office Européen des Brevets) à Vienne que nous tenons à remercier ici.
Lire aussi :
Forte chute des références d’articles en langue asiatique dans Chemical Abstracts
DBpia (DataBase Periodical Information Academic - https://www.dbpia.co.kr ) a été lancée en octobre 1998 sous forme d’un CD-Rom mais est passée à Internet dès l’année suivante.
De nombreux développements ont été réalisés régulièrement. Le dernier en date (en 2019), a vu une réorganisation complète du site et le remplacement du moteur de recherche.
DBpia se présente comme la première base de données de contenus académiques d’origine coréenne à destination, en priorité, des universités coréennes.
Clarivate, qui n’a rien de coréen, est une autre banque de données payante référençant des articles d’origine coréenne dans le cadre de son produit Web of Science. Elle donne accès aux références de plus de 1,4 million d’articles parus dans plus de 2 500 publications, qui constituent la KCI Korean Journal Database produite par la National Research Foundation of Korea.
Auteur : François Libmann, Directeur de BASES Publications
La « Korean Association of Medical Journal Editors » (KAMJE) offre une série de services gratuits donnant accès au contenu de publications coréennes couvrant la médecine, les soins dentaires, les soins infirmiers, et les soins vétérinaires, ainsi que la nutrition.
On peut considérer que le point central est la base de données d’abstracts KoreaMed qui, en août 2017, référençait plus de 260 000 articles publiés par 256 éditeurs membres de KAMJE (derniers chiffres disponibles).
Pour l’année 2019, on trouve plus de 12 000 références dont environ 9 000 à des publications en anglais et environ 3 000 à des publications en coréen.
Dans KoreaMed, on dispose d’une recherche simple et d’une recherche avancée laquelle permet de combiner plusieurs lignes de recherche avec les opérateurs AND, OR ou NOT. Dans chaque ligne, on a le choix entre la recherche dans tous les champs ou bien de choisir dans une douzaine de champs. On dispose aussi de filtres, en particulier sur la langue de l’article, anglais ou coréen.
RISS International (http://intl.riss.kr/) est une banque de données produite par le KERIS (Korea Education and Research Information Service), un organisme appartenant au ministère coréen de l’Éducation.
Les missions du KERIS sont multiples autour d’un concept mêlant éducation et information numérique.La production et la diffusion de la banque de données RISS font partie de ses missions.
Elle propose plus de 6 millions d’articles dont près de 30% proviennent de KERIS même et les autres de « commercial vendors », principalement de DBpia, Scola, et Kiss, plus de 2 millions de thèses provenant de 227 universités coréennes, plus de 9 millions de livres, pas nécessairement d’origine coréenne, ainsi que quelques rapports de recherche.
Koreascience (Koreascience.or.kr) est produite par The Korea Institute of Science and Technology Information (KISTI). Celui-ci a beaucoup évolué depuis sa création en 1962 sous le nom de KORSTIC (Korea Center for Science and Technology Information).
Cet organisme met à disposition des Coréens la plateforme NDSL, qui propose environ 100 millions de documents de toutes natures et de toutes origines, tant au niveau des brevets non coréens, que de la littérature. Cela a donc peu d’intérêt pour des utilisateurs européens qui disposent de beaucoup d’autres sources plus faciles d’accès.
Il existe une autre base de données coréenne proposant des informations biomédicales gratuites.
Cette banque de données baptisée Korean Medical Article Database (KMbase) (http://en.medric.or.kr/)propose des références de 1 027 publications coréennes et de 4 892 publications non coréennes.
L’objectif des producteurs de cette base de donnée est de référencer le maximum de publications médicales d’origine coréenne. Ils attirent attire l’attention de leurs utilisateurs sur le fait qu’elle n’effectue aucune évaluation des articles dont elle fournit les références, renvoyant cette évaluation à ses utilisateurs.
Dans la recherche avancée, on peut combiner des étapes en les liant avec des opérateurs booléens et on peut aussi limiter les dates.
Auteur : François Libmann, Directeur de BASES Publications
Depuis deux ou trois ans, le nombre de nouveaux outils pour la recherche d’information scientifique et technique est en nette progression, ce qui est une bonne nouvelle. Et cerise sur le gâteau, la majorité de ces outils fonctionne sur un modèle de gratuité.
La principale raison de cette prolifération d’outils est simple : il y a d’une part le développement de l’open science (articles scientifiques en open access, ouvertures des données de la recherche) qui fournit une matière précieuse au développement de nouveaux projets et outils et d’autre part les récentes avancées de l’IA qui permettent de proposer des outils d’un nouveau genre.
En 2020, la trajectoire semble se confirmer et de nouveaux outils de recommandation automatique de contenus appliqués à l’IST ont récemment fait leur apparition.
Nous avons choisi dans cet article de faire le point sur ces nouveaux outils de recommandation de contenus en l’occurrence Meta, Scitrus, Sparrho et CoCites.
Dès 1995, le CHU de Rouen s’est intéressé aux sites web en langue française concernant la santé puis à la littérature médicale en langue française et a acquis une notoriété certaine. Nous avons choisi dans cet article de nous intéresser aux différents outils documentaires qu’il propose.
Cet intérêt du CHU de Rouen a débouché, dans un premier temps, sur le projet de Catalogue et Indexation des Sites Médicaux de langue française (CISMeF) qui a été réalisé par l’équipe qui appartient aujourd’hui au D2IM (Département d’Informatique et d’Information médicale du CHU hôpitaux de Rouen). Ce site s’est développé et se développe toujours de façon continue tant au niveau de son contenu que des possibilités de recherche aujourd’hui très avancées. Il a été distingué par de très nombreux prix, a reçu de nombreux labels et a bénéficié aussi du soutien financier de divers organismes.
Lorsque nous nous étions intéressés à l’évolution de la banque de données RAPRA, devenue Polymer Library, nous avons découvert qu’elle était produite maintenant par WTI-Frankfurter- digital GmbH qui est également un des serveurs qui l’héberge.
Ce serveur fort peu connu a été créé fin 2010 ou début 2011 (les sources divergent) sous le nom de WTI Frankfurter eG par le personnel de FIZ Technik après la faillite de cet organisme.
Début 2019, la société a été refondée sous le nom de WTI-Frankfurt-digital GmbH, à la fois un producteur et un serveur de banque de données et qui met en avant son indépendance vis-à-vis des éditeurs.
CAS FORMULATIONS DATABASE est une nouvelle base exclusivement accessible sur la nouvelle plateforme STNext. Son nom s’abrège en CASFORMULTNS mais CASFORM ou CASFOR sont plus simples et fonctionnent aussi bien.
La matière est sensiblement la même que celle proposée par la banque de données CHEMICAL ABSTRACTS (CA), à savoir des références indexées en détail de brevets et d’articles scientifiques concernant la chimie, la pharmacie, la biochimie, … Mais l’antériorité est bien plus limitée, puisque les brevets en langue anglaise, de même qu’une sélection de brevets chinois, français, allemands, japonais ou coréens ne sont pris en compte que depuis 1996. Les articles ne sont quant à eux pris en compte que depuis 2014.
Plusieurs banques de données qu’on avait l’habitude de pouvoir interroger presque indifféremment sur les serveurs Dialog ou STN ont connu ces derniers temps des restrictions d’accès.
WSCA (World Surface Coatings Abstracts) chargée en 1996 sur STN correspondait à la publication du même nom produite par la Paint Research Association UK. Elle était aussi accessible sur Dialog et même, il y a fort longtemps, sur Questel avant que ce serveur ne se focalise sur les brevets. Sa mise à jour avait cessé en 2013.
L’histoire des banques de données Pascal et Francis produites par l’INIST a été fortement agitée ces dernières années.
Il en a été de même avec le service de fourniture des documents primaires Refdoc, fort utilisé à une époque mais dont le nombre de commandes avait beaucoup baissé avec le temps (900'000 commandes en 1999 contre une estimation de 100'000 pour l'année 2014 selon les prévisions de l’INIST de l’époque).
Cette baisse était la conséquence du fait qu’un très grand nombre d’éditeurs avaient mis à disposition leurs publications en ligne et surtout, avaient finalement permis l’achat à l’article sans rendre obligatoire l’abonnement à la publication.
La disparition de la banque de données payante Dissertations Abstracts du serveur STN est pour nous l’occasion de faire un tour du monde des sites de thèses en accès libre.
Nous avons déjà eu l’occasion d’aborder plusieurs fois cette question dans BASES , mais nous avons souhaité faire aujourd’hui un tour d’horizon le plus large possible, sans pour autant pouvoir garantir l’exhaustivité sur le sujet. De plus, la mise à disposition des thèses et références de thèses sur le Web a évolué rapidement en quelques années, ce qui justifie donc une remise à jour.
STN a déchargé le 29 juin dernier la banque de données Dissertation Abstracts (DISSABS) à la demande de son producteur ProQuest.
Cette banque de données est aujourd’hui l’une des rares banques spécialisées dans les thèses à demeurer payante.
Depuis quelques années, la tendance est en effet au développement de sites de thèses en accès libre, non seulement pour les références, mais souvent aussi pour le texte intégral en PDF.
Lors de la récente journée annuelle du CFIB (Club Francophone de l’Information Brevet), Philippe Bodart (TOTAL Research & Technology, Feluy-CFIB) a fait part de sa découverte de la « dégringolade » du nombre de références d’articles écrits en chinois, donc a priori d’auteurs chinois, dans la Chemical Abstracts.
Nous avons décidé d’approfondir le sujet de cette tendance inquiétante et cet article est le résultat de nos investigations et de nos échanges.
Tout d'abord, nous avons effectué des comptages, non seulement dans Chemical Abstracts, mais aussi dans d’autres banques de données et dans d’autres langues asiatiques pour voir si le problème était limité aux articles écrits en chinois pour Chemical Abstracts ou s'il était beaucoup plus large.
Le développement de l’intelligence artificielle fait évoluer le métier des professionnels de l’information au quotidien et nous nous en faisons régulièrement l’écho dans BASES.
S’il y a bien évidemment beaucoup de tâches qu’on ne peut pas et que l’on ne doit pas déléguer à l’IA, elle apporte sur certains aspects une réelle valeur ajoutée aux pratiques et aux outils professionnels.
Nous avons choisi ici de nous intéresser aux outils de résumé automatique, qui génèrent automatiquement des résumés à partir d’un ou plusieurs documents tels qu’un article scientifique, article de presse, rapport, thèse, page Web, etc.
Qui n’a jamais rêvé d’un outil de recherche ou de veille unique, multi sources et multi contenus qui, à partir d’une seule requête, fournirait l’intégralité des résultats utiles et pertinents sur un sujet donné ?
Si cette question occupe les outils de recherche et éditeurs de veille depuis des décennies, force est de constater que la possibilité de rechercher en un seul et même endroit sur des contenus toujours plus nombreux et disparates reste un idéal vers lequel la plupart cherchent toujours à tendre.
Lire aussi :
Google ajoute deux nouveaux opérateurs de recherche
Quand peut-on clore sa recherche l'esprit tranquille ?
Search Lab : 3 méthodologies clé en main
Comment détecter des innovations de marché ?
La recherche d information appliquée aux personnes
La recherche de citations et de références représente une autre façon de rechercher de l’information, complémentaire aux traditionnelles recherches booléennes.
Cette recherche recouvre deux aspects :
Elle permet tout d’abord de rechercher et visualiser ce qu’un document a référencé et cité dans son contenu. Il peut s’agir aussi bien des références bibliographiques d’un article scientifique que de simples mentions d’un article ou document au sein d’un article de presse ou de blog. On est ici dans une forme de sérendipité où l’on navigue de liens hypertextes en liens hypertextes. Et lorsqu’un document cite ses sources, celles-ci ont toutes les chances d’être reliées au sujet qui nous intéresse.
Mais il s’agit aussi de repérer qui a, depuis cette publication, utilisé et cité cet article initial. On pensera ici surtout à certains outils de recherche académiques et scientifiques qui listent sous chaque article le nombre de fois où il a été cité et un lien vers ces documents. Il pourra s’agir également de repérer les documents et pages pointant vers un article de presse, un billet de blog ou mentionnant une étude, etc.
L’idée de banque de données matériaux réunissant le plus grand nombre possible de propriétés (et elles sont très nombreuses) de tous les matériaux (et ils sont encore beaucoup plus nombreux, même si on se limite à certaines catégories comme les alliages métalliques) est un vieux rêve d’ingénieur.
Bien entendu, la banque de données idéale devait permettre de faire des recherches « dans les deux sens » c’est-à-dire d’obtenir instantanément les propriétés d’un matériau donné et à l’inverse d’identifier des matériaux ayant une certaine combinaison de propriétés et, si possible, des matériaux aux propriétés proches.
La recherche d’information et notamment ses outils et méthodes, ne cesse d’évoluer. C'est le cas avec les outils gratuits dont nous avons fait un panorama dans le dernier BASES (la recherche d'information au mille visages). Il est temps maintenant d’aborder la question des outils de recherche payants comme les serveurs, bases de données ou agrégateurs de presse.
Car si le paysage des acteurs n’a pas tant changé au cours des dernières années, à l’exception des nouveaux outils liés à l’exploration du Web ouvert et des médias sociaux, les technologies et la façon d’utiliser les outils de recherche professionnels payants ont quant à elles beaucoup évolué.
Après le léger passage à vide observé lors de l’abandon du développement de New STN, STN montre un regain de dynamisme et, lors de la dernière journée d’utilisateurs, les nouveautés ne manquaient pas.
Il faut d’abord savoir que tous les nouveaux développements et les ajouts de nouvelles bases se feront sur STNext.
Pour leur part, New STN et STN Express continueront à exister mais ne bénéficieront d’aucune nouvelle fonctionnalité et seront abandonnés à terme
Quand on pense recherche d’information et veille scientifique et technique, on pense essentiellement articles, revues scientifiques mais aussi brevets. Mais jusqu’à encore récemment, les données de la recherche ne faisaient pas vraiment partie du spectre.
La raison en est simple : Ces données, produites par les chercheurs dans le cadre de leurs recherches étaient rarement diffusées et rendues publiques. Et lorsque c’était le cas, très peu d’outils de recherche ou sources d’information capitalisaient dessus.
Et encore aujourd’hui, bon nombre de sources classiques comme les bases de données, serveurs, moteurs académiques, archives ouvertes, etc. ne proposent pas de datasets ou bien fort peu.
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Quelques rappels sur l’open data au service de la recherche d’information
La majorité des plateformes de veille classiques ou de social media monitoring mettent en avant la veille stratégique, concurrentielle ou encore e-réputation.
Si certains mentionnent bien la veille scientifique, technique ou technologique, elle est presque toujours reléguée en arrière-plan. A la limite, dans ce domaine-là, c’est la « veille innovation » qui a le plus de visibilité car il s’agit d’un concept en vogue et très utilisé dans le monde des startups même si ça n’a en soi rien de nouveau...
Les outils de recherche scientifiques et académiques gratuits, qui permettent de rechercher principalement des articles scientifiques mais également des monographies, compte-rendus de conférences ou encore thèses sont en pleine expansion.
Depuis le début de l’année, on a déjà pu voir apparaître deux nouveaux venus assez similaires, Dimensions et 1findr. Et à l’heure où nous écrivons ces lignes, les créateurs d’Unpaywall, l’extension de navigateur qui permet de savoir si un article est disponible ou non en libre accès (voir BASES n 350 – juillet/août 2017) vient d’annoncer le lancement prochain d’un moteur dopé à l’intelligence artificielle permettant de découvrir plus de 20 millions d’articles scientifiques en libre accès appelé Get the Research (http://gettheresearch.org/).
Et c’est sans compter sur Google Scholar qui est un quasi-réflexe pour bon nombre de chercheurs et qui existe quant à lui depuis 2004.
Quand il s’agit d’effectuer des recherches bibliographiques ou de réaliser une revue de littérature, Google Scholar apparaît généralement en tête de liste chez les chercheurs, universitaires, étudiants et même certains professionnels de l’information.
Une réalité qui est particulièrement surprenante, la rigueur de la démarche de recherche scientifique semblant a priori incompatible avec le mode de recherche très pauvre, proposé par Google Scholar dans des amas d’informations non structurées, et dont on ne connaît pas les contours.
Lire aussi dans ce dossier :
La perversité de Google Scholar
Recherche et veille sur la littérature scientifique et académique : nouveaux entrants et ressources-clés
Le volume important de documents contenus dans Google Scholar fait qu’il est extrêmement rare de ne trouver aucune réponse à n’importe quelle question un tant soit peu scientifique. Parmi ces réponses, le chercheur trouvera bien quelques documents intéressants parmi les premiers de la liste car on serait curieux de savoir combien vont examiner les 1 000 résultats visualisables (c’est la limite).
Ces résultats trouvés à partir d’une ou plusieurs recherches permettent le plus souvent de tirer quelques fils et de trouver quelques documents présentant un intérêt.
Et c’est là toute la perversité du système. Car l’accès à Google Scholar est gratuit et son contenu un des plus importants disponibles.
Lire aussi dans ce dossier :
Google Scholar est-il un véritable outil de recherche scientifique ?
Recherche et veille sur la littérature scientifique et académique : nouveaux entrants et ressources-clés
Il convient maintenant de dresser le portrait des principales ressources généralistes et multidisciplinaires pour la veille et la recherche bibliographiques. Et si nombre d’entre elles sont connues depuis longtemps des professionnels de l’information, nous avons également identifié quelques nouveaux acteurs prometteurs apparus au cours des deux dernières années et dont nous n’avons pas encore eu l’occasion de parler dans BASES.
Nous avons choisi ici de nous intéresser aux grandes ressources généralistes et multidisciplinaires proposant des références ou accès aux articles scientifiques et académiques. Sont donc exclues les ressources spécialisées sur une discipline en particulier ou sur certains types de documents qui pourront faire l’objet d’autres articles comme les thèses, mémoires, ouvrages, etc.
Lire aussi dans ce dossier :
Google Scholar est-il un véritable outil de recherche scientifique ?
La perversité de Google Scholar