Dans l’article précédent « The Lens, un outsider au fort potentiel pour la recherche brevet gratuite », Philippe Borne s’est focalisé de façon détaillée sur la partie brevet de The Lens.
Dans cet article nous examinerons la partie consacrée à la littérature scientifique de The Lens que l’on atteint en cliquant sur « Scholary works » dans le menu déroulant « Our apps » sur la page d’accueil.
La recherche dans la littérature scientifique sous forme numérique est disponible depuis très longtemps à de multiples endroits de façon gratuite ou payante. Ici, elle est limitée aux documents dont les références sont en accès libre, ce qui ne préjuge pas de la gratuité ou non de l’accès au document lui-même (41 millions sont en accès libre).
Ces références proviennent de Crossref, Pubmed, Core et Microsoft Academic, sachant que Microsoft vient d’annoncer l’arrêt de son service Microsoft Academic, ce qui risque de poser problème.
Les fusions/acquisitions sont depuis longtemps très fréquentes dans le domaine de l’information.
Près de nous, voici des années que Questel rachète des sociétés, en France comme à l’étranger, offrant divers services liés à la propriété intellectuelle, cœur de son activité. Dans un autre domaine, Cision a acheté il y a quelques années Europresse, l’Argus de la Presse et PR Newswire. Cette situation existe aussi aux Etats-Unis.
Aujourd’hui, il s’agit d’un achat important d’un acteur essentiellement privé, en l’occurrence Proquest par l’acteur public qu’est Clarivate. La transaction s’élève à 5,3 milliards de dollars, dont quatre en liquide et 1,3 en actions.
Le nombre de publications scientifiques ne cesse de croître de façon soutenue. La technologie a permis de les rendre accessibles auprès de nombreuses plateformes soit sous forme de références bibliographiques soit en texte intégral.
On note que certaines de ces plateformes offrent des dizaines voire des centaines de millions de documents.
Cette croissance du nombre de publications est due également à la forte augmentation du nombre de chercheurs et auteurs, elle-même liée à l’amélioration du niveau global d’éducation.
- ne pas le confondre avec un autre auteur ayant nom/prénom(s)/initiale(s) de prénom(s) identiques ou très semblables ;
- être capable de se rendre compte que deux auteurs aux identifications ayant des points communs proches peuvent être en fait un seul et même auteur.
Il est d’abord loin d’être évident d’identifier toutes les publications d’un auteur, sauf si celui-ci a souhaité en donner une liste exhaustive, sur son site web, sur son profil Google Scholar ou dans ORCID.
Voir aussi :
Du Dark Web au Clear Web : Aleph Networks, une nouveauté pour la veille ?
Plateformes de veille : qu’ont-elles à offrir aux PME et TPE ?
La banque de données Inspec spécialisée dans les domaines de l’ingénierie, la physique et l’informatique est un des classiques historiques des grandes banques de données bibliographiques avec abstracts recensant la littérature de leur domaine.
Dans cet article, nous revenons sur la place et l’intérêt d’Inspec dans un contexte de recherche et de veille scientifique et technique. Dans un second temps, nous analysons les différences entre la base Inspec et un de ses concurrents, l’IEEE Xplore digital library.
L’information scientifique et technique a toujours eu une place à part dans le processus de veille et de recherche d’information.
On considère souvent que l’IST ne concerne que les entreprises et organisations en lien avec la recherche et développement ou l’enseignement supérieur et qu’elle est plus difficile à appréhender que d’autres types d’information. Au sein d’une même organisation, il n’était pas rare de trouver par le passé des services d’information dédiés à l’information scientifique d’un côté et d’autres services pour la recherche d’information business et la veille stratégique et concurrentielle de l’autre.
Lire aussi :
Comment bien rechercher l’information scientifique et technique ?
Les brevets et les marques, des outils d'information particuliers et puissants au service de la démarche de recherche et de veille
De la référence bibliographique au texte intégral des articles scientifiques, il n’y a pas toujours qu’un pas
Rechercher l’information scientifique et technique (qui inclut aussi bien les sciences dites « dures » que les sciences humaines et sociales ») ressemble peu à la recherche dans les domaines business, actualités ou encore juridique.
Le processus de publication scientifique a ses propres codes et spécificités. Et contrairement à d’autres domaines où les moteurs web généralistes comme Google sont souvent d’une aide précieuse pour la recherche, ils sont ici peu efficaces pour arriver au résultat escompté.
La recherche d’information scientifique et technique nécessite de savoir utiliser une combinaison de sources, d’outils spécifiques et des méthodes adaptées.
Lire aussi :
Les nouveaux outils de recommandation pour l’IST
Tour du monde des sites de thèses en accès libre - Dossier spécial
La veille au défi de l’information scientifique et technique
Les brevets et les marques, des outils d'information particuliers et puissants au service de la démarche de recherche et de veille
De la référence bibliographique au texte intégral des articles scientifiques, il n’y a pas toujours qu’un pas
Les résumés automatiques nouvelle génération au service de la veille
Identifier des références d’articles scientifiques et académiques est une chose, accéder aux documents en texte intégral en est une autre.
En effet, de nombreux outils de recherche pour l’information scientifique et technique ne donnent accès qu’aux références bibliographiques de documents (titre, métadonnées, abstract, etc.) mais pas nécessairement au texte intégral.
Si dans certains cas, identifier le texte intégral est un véritable jeu d’enfant, dans d’autres, cela relève du parcours du combattant surtout si on cherche à l’obtenir gratuitement.
Lire aussi :
Rechercher des articles scientifiques anciens : entre intuition et méthodologie
La veille au défi de l’information scientifique et technique
Comment bien rechercher l’information scientifique et technique ?
Lancée en 2013, la recherche sur les valeurs numériques est une des valeurs ajoutées, originale, de l’offre du serveur STN qui propose, rappelons-le, un ensemble de banques de données dans le domaine de la littérature scientifique (références bibliographiques) et des brevets (références bibliographiques ou fulltext).
Le nombre de propriétés recherchables jusqu’à présent était de 55 telle que la charge électrique (en Coulomb), la force (en Newton), la fréquence (en Hertz), la masse moléculaire (en g/mol), la pression (en Pascal), etc.
On en trouve la liste en cherchant HELP NPS si l’on est connecté à STNext et plus précisément à une des bases offrant cette possibilité.
Sinon, on trouvera la liste à l’adresse http://www.stn-international.de/en/productsservices/products-services.
Lancée le 18 décembre 2019, le « new PubMed » (voir figure 1.) est devenu le 18 mai dernier la plateforme par défaut de PubMed, la précédente (legacy PubMed) restant en ligne au moins jusqu’au 30 octobre 2020.
Cette période de cinq mois a été mise à profit pour réaliser différents tests et recueillir les réactions des premiers utilisateurs.
L’outil gratuit Pubmed a été lancé en 1996 comme un site Web expérimental et revendique aujourd’hui 3,4 millions d’utilisateurs pour un jour de semaine moyen, effectuant des recherches dans un corpus de plus de 31 millions de références bibliographiques.
Lire aussi :
Les outils documentaires du CHU de Rouen : CISMeF, LiSSa et HeTOP
Après plusieurs mois pendant lesquels le coronavirus occupait la majorité des actualités de la veille et de la recherche d’information avec de nouvelles ressources et de nouveaux outils dédiés, on sent bien que la vie professionnelle reprend progressivement son cours avec le lancement de nouveaux outils et de nouvelles fonctionnalités et l’aboutissement de projets en cours.
Il y a quelques mois, nous avions eu l’occasion de parler d’un nouvel outil 2D Search qui permet de créer ses requêtes sur des moteurs et bases de données en 2 dimensions. L’idée étant que les requêtes peuvent être parfois longues et complexes et sont propices aux erreurs. En créant sa requête sous forme de blocs combinables, la requête est plus lisible et plus facilement modifiable. À l’époque, l’outil intégrait déjà Google, Google Scholar (même si nous ne recommandions pas son utilisation sur la suite Google), Bing, Pubmed et quelques autres.
Lire aussi :
Des outils pour optimiser ses stratégies de recherche
Nous avions, avec Philippe Bodart (Total Research & Technology, Feluy-CFIB) déploré dans un précédent numéro de BASES la baisse régulière depuis plusieurs années du nombre d’articles d’origine asiatique référencés dans les bases de données/agrégateurs/serveurs occidentaux ».
Le producteur de Chemical Abstracts Services nous avait à cette occasion, expliqué que le nombre de brevets déposés dans cette zone croissait fortement et qu’ils avaient, au moins pour un temps, privilégié les brevets par rapport à la littérature. Les références à cette dernière étant supposées, à terme, ré-augmenter suite à l’embauche de nouveaux experts.
Nous avions annoncé alors que nous explorerions les bases de données de certains de ces pays avec l’aide du bureau Asie de l’OEB (Office Européen des Brevets) à Vienne que nous tenons à remercier ici.
Lire aussi :
Forte chute des références d’articles en langue asiatique dans Chemical Abstracts
DBpia (DataBase Periodical Information Academic - https://www.dbpia.co.kr ) a été lancée en octobre 1998 sous forme d’un CD-Rom mais est passée à Internet dès l’année suivante.
De nombreux développements ont été réalisés régulièrement. Le dernier en date (en 2019), a vu une réorganisation complète du site et le remplacement du moteur de recherche.
DBpia se présente comme la première base de données de contenus académiques d’origine coréenne à destination, en priorité, des universités coréennes.
Clarivate, qui n’a rien de coréen, est une autre banque de données payante référençant des articles d’origine coréenne dans le cadre de son produit Web of Science. Elle donne accès aux références de plus de 1,4 million d’articles parus dans plus de 2 500 publications, qui constituent la KCI Korean Journal Database produite par la National Research Foundation of Korea.
Auteur : François Libmann, Directeur de BASES Publications
La « Korean Association of Medical Journal Editors » (KAMJE) offre une série de services gratuits donnant accès au contenu de publications coréennes couvrant la médecine, les soins dentaires, les soins infirmiers, et les soins vétérinaires, ainsi que la nutrition.
On peut considérer que le point central est la base de données d’abstracts KoreaMed qui, en août 2017, référençait plus de 260 000 articles publiés par 256 éditeurs membres de KAMJE (derniers chiffres disponibles).
Pour l’année 2019, on trouve plus de 12 000 références dont environ 9 000 à des publications en anglais et environ 3 000 à des publications en coréen.
Dans KoreaMed, on dispose d’une recherche simple et d’une recherche avancée laquelle permet de combiner plusieurs lignes de recherche avec les opérateurs AND, OR ou NOT. Dans chaque ligne, on a le choix entre la recherche dans tous les champs ou bien de choisir dans une douzaine de champs. On dispose aussi de filtres, en particulier sur la langue de l’article, anglais ou coréen.
RISS International (http://intl.riss.kr/) est une banque de données produite par le KERIS (Korea Education and Research Information Service), un organisme appartenant au ministère coréen de l’Éducation.
Les missions du KERIS sont multiples autour d’un concept mêlant éducation et information numérique.La production et la diffusion de la banque de données RISS font partie de ses missions.
Elle propose plus de 6 millions d’articles dont près de 30% proviennent de KERIS même et les autres de « commercial vendors », principalement de DBpia, Scola, et Kiss, plus de 2 millions de thèses provenant de 227 universités coréennes, plus de 9 millions de livres, pas nécessairement d’origine coréenne, ainsi que quelques rapports de recherche.
Koreascience (Koreascience.or.kr) est produite par The Korea Institute of Science and Technology Information (KISTI). Celui-ci a beaucoup évolué depuis sa création en 1962 sous le nom de KORSTIC (Korea Center for Science and Technology Information).
Cet organisme met à disposition des Coréens la plateforme NDSL, qui propose environ 100 millions de documents de toutes natures et de toutes origines, tant au niveau des brevets non coréens, que de la littérature. Cela a donc peu d’intérêt pour des utilisateurs européens qui disposent de beaucoup d’autres sources plus faciles d’accès.
Il existe une autre base de données coréenne proposant des informations biomédicales gratuites.
Cette banque de données baptisée Korean Medical Article Database (KMbase) (http://en.medric.or.kr/)propose des références de 1 027 publications coréennes et de 4 892 publications non coréennes.
L’objectif des producteurs de cette base de donnée est de référencer le maximum de publications médicales d’origine coréenne. Ils attirent attire l’attention de leurs utilisateurs sur le fait qu’elle n’effectue aucune évaluation des articles dont elle fournit les références, renvoyant cette évaluation à ses utilisateurs.
Dans la recherche avancée, on peut combiner des étapes en les liant avec des opérateurs booléens et on peut aussi limiter les dates.
Auteur : François Libmann, Directeur de BASES Publications
Depuis deux ou trois ans, le nombre de nouveaux outils pour la recherche d’information scientifique et technique est en nette progression, ce qui est une bonne nouvelle. Et cerise sur le gâteau, la majorité de ces outils fonctionne sur un modèle de gratuité.
La principale raison de cette prolifération d’outils est simple : il y a d’une part le développement de l’open science (articles scientifiques en open access, ouvertures des données de la recherche) qui fournit une matière précieuse au développement de nouveaux projets et outils et d’autre part les récentes avancées de l’IA qui permettent de proposer des outils d’un nouveau genre.
En 2020, la trajectoire semble se confirmer et de nouveaux outils de recommandation automatique de contenus appliqués à l’IST ont récemment fait leur apparition.
Nous avons choisi dans cet article de faire le point sur ces nouveaux outils de recommandation de contenus en l’occurrence Meta, Scitrus, Sparrho et CoCites.
Dès 1995, le CHU de Rouen s’est intéressé aux sites web en langue française concernant la santé puis à la littérature médicale en langue française et a acquis une notoriété certaine. Nous avons choisi dans cet article de nous intéresser aux différents outils documentaires qu’il propose.
Cet intérêt du CHU de Rouen a débouché, dans un premier temps, sur le projet de Catalogue et Indexation des Sites Médicaux de langue française (CISMeF) qui a été réalisé par l’équipe qui appartient aujourd’hui au D2IM (Département d’Informatique et d’Information médicale du CHU hôpitaux de Rouen). Ce site s’est développé et se développe toujours de façon continue tant au niveau de son contenu que des possibilités de recherche aujourd’hui très avancées. Il a été distingué par de très nombreux prix, a reçu de nombreux labels et a bénéficié aussi du soutien financier de divers organismes.
Lorsque nous nous étions intéressés à l’évolution de la banque de données RAPRA, devenue Polymer Library, nous avons découvert qu’elle était produite maintenant par WTI-Frankfurter- digital GmbH qui est également un des serveurs qui l’héberge.
Ce serveur fort peu connu a été créé fin 2010 ou début 2011 (les sources divergent) sous le nom de WTI Frankfurter eG par le personnel de FIZ Technik après la faillite de cet organisme.
Début 2019, la société a été refondée sous le nom de WTI-Frankfurt-digital GmbH, à la fois un producteur et un serveur de banque de données et qui met en avant son indépendance vis-à-vis des éditeurs.
CAS FORMULATIONS DATABASE est une nouvelle base exclusivement accessible sur la nouvelle plateforme STNext. Son nom s’abrège en CASFORMULTNS mais CASFORM ou CASFOR sont plus simples et fonctionnent aussi bien.
La matière est sensiblement la même que celle proposée par la banque de données CHEMICAL ABSTRACTS (CA), à savoir des références indexées en détail de brevets et d’articles scientifiques concernant la chimie, la pharmacie, la biochimie, … Mais l’antériorité est bien plus limitée, puisque les brevets en langue anglaise, de même qu’une sélection de brevets chinois, français, allemands, japonais ou coréens ne sont pris en compte que depuis 1996. Les articles ne sont quant à eux pris en compte que depuis 2014.
Plusieurs banques de données qu’on avait l’habitude de pouvoir interroger presque indifféremment sur les serveurs Dialog ou STN ont connu ces derniers temps des restrictions d’accès.
WSCA (World Surface Coatings Abstracts) chargée en 1996 sur STN correspondait à la publication du même nom produite par la Paint Research Association UK. Elle était aussi accessible sur Dialog et même, il y a fort longtemps, sur Questel avant que ce serveur ne se focalise sur les brevets. Sa mise à jour avait cessé en 2013.
L’histoire des banques de données Pascal et Francis produites par l’INIST a été fortement agitée ces dernières années.
Il en a été de même avec le service de fourniture des documents primaires Refdoc, fort utilisé à une époque mais dont le nombre de commandes avait beaucoup baissé avec le temps (900'000 commandes en 1999 contre une estimation de 100'000 pour l'année 2014 selon les prévisions de l’INIST de l’époque).
Cette baisse était la conséquence du fait qu’un très grand nombre d’éditeurs avaient mis à disposition leurs publications en ligne et surtout, avaient finalement permis l’achat à l’article sans rendre obligatoire l’abonnement à la publication.
La disparition de la banque de données payante Dissertations Abstracts du serveur STN est pour nous l’occasion de faire un tour du monde des sites de thèses en accès libre.
Nous avons déjà eu l’occasion d’aborder plusieurs fois cette question dans BASES , mais nous avons souhaité faire aujourd’hui un tour d’horizon le plus large possible, sans pour autant pouvoir garantir l’exhaustivité sur le sujet. De plus, la mise à disposition des thèses et références de thèses sur le Web a évolué rapidement en quelques années, ce qui justifie donc une remise à jour.
STN a déchargé le 29 juin dernier la banque de données Dissertation Abstracts (DISSABS) à la demande de son producteur ProQuest.
Cette banque de données est aujourd’hui l’une des rares banques spécialisées dans les thèses à demeurer payante.
Depuis quelques années, la tendance est en effet au développement de sites de thèses en accès libre, non seulement pour les références, mais souvent aussi pour le texte intégral en PDF.
Lors de la récente journée annuelle du CFIB (Club Francophone de l’Information Brevet), Philippe Bodart (TOTAL Research & Technology, Feluy-CFIB) a fait part de sa découverte de la « dégringolade » du nombre de références d’articles écrits en chinois, donc a priori d’auteurs chinois, dans la Chemical Abstracts.
Nous avons décidé d’approfondir le sujet de cette tendance inquiétante et cet article est le résultat de nos investigations et de nos échanges.
Tout d'abord, nous avons effectué des comptages, non seulement dans Chemical Abstracts, mais aussi dans d’autres banques de données et dans d’autres langues asiatiques pour voir si le problème était limité aux articles écrits en chinois pour Chemical Abstracts ou s'il était beaucoup plus large.
Le développement de l’intelligence artificielle fait évoluer le métier des professionnels de l’information au quotidien et nous nous en faisons régulièrement l’écho dans BASES.
S’il y a bien évidemment beaucoup de tâches qu’on ne peut pas et que l’on ne doit pas déléguer à l’IA, elle apporte sur certains aspects une réelle valeur ajoutée aux pratiques et aux outils professionnels.
Nous avons choisi ici de nous intéresser aux outils de résumé automatique, qui génèrent automatiquement des résumés à partir d’un ou plusieurs documents tels qu’un article scientifique, article de presse, rapport, thèse, page Web, etc.
Qui n’a jamais rêvé d’un outil de recherche ou de veille unique, multi sources et multi contenus qui, à partir d’une seule requête, fournirait l’intégralité des résultats utiles et pertinents sur un sujet donné ?
Si cette question occupe les outils de recherche et éditeurs de veille depuis des décennies, force est de constater que la possibilité de rechercher en un seul et même endroit sur des contenus toujours plus nombreux et disparates reste un idéal vers lequel la plupart cherchent toujours à tendre.
Lire aussi :
Google ajoute deux nouveaux opérateurs de recherche
Quand peut-on clore sa recherche l'esprit tranquille ?
Search Lab : 3 méthodologies clé en main
Comment détecter des innovations de marché ?
La recherche d information appliquée aux personnes
La recherche de citations et de références représente une autre façon de rechercher de l’information, complémentaire aux traditionnelles recherches booléennes.
Cette recherche recouvre deux aspects :
Elle permet tout d’abord de rechercher et visualiser ce qu’un document a référencé et cité dans son contenu. Il peut s’agir aussi bien des références bibliographiques d’un article scientifique que de simples mentions d’un article ou document au sein d’un article de presse ou de blog. On est ici dans une forme de sérendipité où l’on navigue de liens hypertextes en liens hypertextes. Et lorsqu’un document cite ses sources, celles-ci ont toutes les chances d’être reliées au sujet qui nous intéresse.
Mais il s’agit aussi de repérer qui a, depuis cette publication, utilisé et cité cet article initial. On pensera ici surtout à certains outils de recherche académiques et scientifiques qui listent sous chaque article le nombre de fois où il a été cité et un lien vers ces documents. Il pourra s’agir également de repérer les documents et pages pointant vers un article de presse, un billet de blog ou mentionnant une étude, etc.
L’idée de banque de données matériaux réunissant le plus grand nombre possible de propriétés (et elles sont très nombreuses) de tous les matériaux (et ils sont encore beaucoup plus nombreux, même si on se limite à certaines catégories comme les alliages métalliques) est un vieux rêve d’ingénieur.
Bien entendu, la banque de données idéale devait permettre de faire des recherches « dans les deux sens » c’est-à-dire d’obtenir instantanément les propriétés d’un matériau donné et à l’inverse d’identifier des matériaux ayant une certaine combinaison de propriétés et, si possible, des matériaux aux propriétés proches.