Sélectionner le numéro de "Bases" à afficher

L’édition scientifique va-t-elle dans le mur ?

FRANÇOIS LIBMANN
Bases no
442
publié en
2025.12
279
Acheter ce no
Tags
veille technologique | littérature scientifique | science ouverte | Intelligence artificielle
L’édition scientifique va-t-elle dans le mur ? Image 1
L’édition scientifique va-t-elle dans le mur ? Image 1

Depuis plusieurs siècles les publications scientifiques sont un des fondements de l’évolution de la science. En effet, le plus ancien périodique scientifique le Journal des sçavans  est paru à Paris le 5 janvier 1665.

Aujourd’hui plusieurs signes inquiétants viennent mettre en doute la possibilité pour ce système de poursuivre son évolution de façon harmonieuse et de continuer à accompagner l’avancement de la science comme il l’a fait jusqu’à présent.

Une illustration en est la journée 2025 Science ouverte du CNRS sur le thème « La mort annoncée des publications scientifiques ? .

Une croissance incontrôlée

Le nombre de publications scientifiques croît nettement plus rapidement que le nombre de chercheurs. Par exemple, entre 2016 et 2020 les principales bases de données bibliographiques ont grossi de 50 % alors que le nombre de scientifiques n’augmentait que de 16 %. C’est ce qu’on lit dans le BlogCNRS du 16 décembre 2025 intitulé « Publications scientifiques : une surproduction fatale ? ».

Cette croissance n’est pas uniformément répartie, car certains éditeurs ont, en particulier grâce à la multiplication des numéros spéciaux, des croissances bien supérieures. Elle est de 1 080 % pour MDPI, de 675 % pour Frontiers et de 139 % pour Hindawi. À eux trois, ils ont contribué à plus de 54 % de l’augmentation totale des articles publiés durant cette période.

Le cas d’Indawi est caricatural.

En effet, créé en 1997, il est passé dans les années 2000 progressivement au modèle gold open access (où l’auteur paye des APC - article processing charges) publiant jusqu’à 400 revues. Il est racheté en 2021 par Wiley pour 298 M$. Une crise éclate finalement en 2023 : 8 000 articles, principalement issus de numéros spéciaux, sont rétractés, un record pour un éditeur en une seule année, et Wiley finit par abandonner la marque Indawi en intégrant un nombre limité de ses publications.

Les moteurs de l’inflation éditoriale

Ce développement accéléré du nombre de publications et d’articles est d’abord dû au développement « naturel » de la science qui a pour conséquence une augmentation du nombre des publications selon le schéma traditionnel : création de revues dans des spécialités nouvelles, nouveaux sujets d’étude, etc.

On observe aussi un accroissement de la présence de publications en provenance du monde non occidental qu’on appelle aussi « Sud Global ».

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte

La recherche sur les valeurs des propriétés physiques

François LIBMANN
Bases no
442
publié en
2025.12
230
Acheter ce no
Tags
littérature scientifique | brevets | veille technologique | derwent
La recherche sur les valeurs des propriétés physiques Image 1
La recherche sur les valeurs des propriétés physiques Image 1

La recherche sur les valeurs d’une grandeur physique à l’intérieur d’un texte, qu’il s’agisse d’un article ou d’un brevet, ne s’utilise a priori pas tous les jours.

En revanche, quand il est utile de l’employer cela apporte une plus-value certaine, car cela rajoute une possibilité de recherche de nature différente permettant de répondre à une autre série de questions.

Plusieurs systèmes proposent aujourd’hui ce type de recherche d’une façon développée. Nous en avons identifié chez trois des grands serveurs et une banque de données qui fait partie des classiques.

Le serveur STN : une offre depuis 2013 avec sa « Numerical property search » (NPS)

Elle est disponible dans 15 banques de données offrant le texte intégral des brevets (EP et PCT plus12 pays) ainsi que dans Derwent World Patent Index et RDisclosure, la base des publications défensives (voir l’article sur les publications défensives dans BASES N° 325, avril 2015).

Elle est aussi disponible dans sept banques de données bibliographiques, mais Chemical Abstracts n’y figure pas, pas plus que les bases de données biomédicales ou Inspec qui a son système propre comme on le verra plus loin.

Les valeurs numériques de 55 propriétés physiques (si on enlève les pourcentages et le symbole du système international, et les parts par million [ppm]) sont ainsi recherchables dans cinq systèmes d’unités dont les plus connus sont le SI (Sytème International basé sur mètre-kilo-seconde) et le CGS (centimètre-gramme-seconde) auquel il faut rajouter le propre système de STN basé sur le SI.

Le système convertit automatiquement les données trouvées dans les brevets ou les articles.

Dans la recherche, on utilise deux catégories d’opérateurs : d’une part des opérateurs numériques : >, <, >=, <, et « dans un intervalle » et des opérateurs de proximité (nW) pour deux termes à n mots maximum dans cet ordre et (nA) dans n’importe quel ordre.

On écrira par exemple S particle (3A) SIZE (3A) 1-100 nm/LEN pour rechercher des nanoparticules d’une dimension comprise entre 1 et 100 nanomètres (un nanomètre est un milliardième de mètre).

Orbit Intelligence a lancé récemment son propre outil

Pendant une période prolongée, STN était le seul serveur à proposer ce type de recherche. Récemment, il a été rejoint par Orbit Intelligence de Questel ainsi que par Minenesoft Origin.

La requête dans Orbit est de nature très semblable. Pour accéder à l’écran de recherche, il faut cliquer sur « gérer les champs & modèles » en haut de l’écran de recherche et cliquer sur « Mesure » dans la rubrique « CHAMPS SPÉCIAUX ».

On entre ensuite la stratégie par une série de menus déroulants. Il n’y a pas d’opérateur de proximité à ajouter, car la proximité maximale automatiquement appliquée est de 100 caractères avant et 40 caractères après le(s) terme(s) de recherche.

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte

Quand l’IA apprend à vous manipuler : les nouveaux dark patterns dont vous ne vous rendez même pas compte

Élodie CHARRIÈRE
Bases no
442
publié en
2025.12
264
Acheter ce no
Tags
Intelligence artificielle | dark social | e-réputation
Quand l’IA apprend à vous manipuler : les nouveaux dark ... Image 1
Quand l’IA apprend à vous manipuler : les nouveaux dark ... Image 1

Vous pensez encore cliquer librement sur Internet ? Que vos choix sont rationnels, réfléchis, volontaires ? Désolée de vous décevoir, mais derrière votre écran, une intelligence artificielle a peut-être déjà décidé à votre place. Pas en vous forçant. Juste en vous influençant, doucement, sans que vous vous en rendiez vraiment compte. Bienvenue dans l’ère des dark patterns 2.0, version intelligence artificielle.

D’abord, c’est quoi un dark pattern ?

Les dark patterns, ce sont des techniques de design utilisées pour vous pousser à faire quelque chose contre votre réel intérêt. Cela peut être un abonnement “gratuit” qui se renouvelle automatiquement, un bouton “Accepter tout” bien visible, et un “Refuser” caché au fond de la page ou encore une notification qui vous fait paniquer : “Plus que 2 places disponibles !”. Jusqu’ici, c’était déjà limite. Mais maintenant, avec l’IA, ces techniques sont devenues personnalisées, plus subtiles, et surtout… invisibles.

Là où le dark pattern classique s’adresse à tout le monde de la même façon, l’IA, elle, s’adapte à vous. Elle analyse : vos heures de connexion, votre temps d’hésitation avant un clic, les contenus que vous regardez quand vous procrastinez, ce qui vous rassure, vous angoisse ou vous fait culpabiliser. Résultat ? Deux personnes sur le même site ne verront jamais la même interface.

Le plus troublant, c’est que ces nouveaux dark patterns ne ressemblent plus du tout à de la manipulation. Ils prennent la forme d’une suggestion bien placée, d’un rappel ou d’un message qui tombe “au bon moment”.

Les nouveaux dark patterns dont il faut se méfier

L’un des plus répandus aujourd’hui est ce qu’on appelle « l’urgence artificielle personnalisée ». Vous êtes sur un site, vous hésitez, vous comparez. Au bout de quelques secondes, un message apparaît : « D’autres personnes regardent ce produit en ce moment » ou « Cette offre est très demandée ». Rien de choquant en apparence. Pourtant, ce message ne s’affiche pas au hasard. L’IA a détecté que vous ralentissiez, que vous doutiez, et déclenche une légère pression pour vous empêcher de fermer l’onglet. Le but ? Inciter votre cerveau à prendre une décision rapide.

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte

Google (News, Discover) vs Perplexity (Discover) : l’IA est-elle devenue le nouveau rédacteur en chef ?

Anne-Marie LIBMANN
Bases no
442
publié en
2025.12
262
Acheter ce no
Tags
Intelligence artificielle | veille medias | droit d'auteur | copyright
Google (News, Discover) vs Perplexity (Discover) : l’IA ... Image 1
Google (News, Discover) vs Perplexity (Discover) : l’IA ... Image 1

La guerre de l’info franchit un seuil critique. Avec l’irruption de Perplexity Discover et l’intégration des AI Overviews dans la sphère Google, nous ne parlons plus seulement d’indexation ou de diffusion : ici, l’IA franchit le Rubicon et endosse le rôle d’éditorialiste.

Ce passage d’un Web « clic-centrique » à un Web « IA-centrique » offre un gain de temps immense, mais pose une question vitale : quel sera le prix de cette commodité si, à force d’être résumée par des algorithmes, l’information indépendante finit par ne plus être produite ? Pour les éditeurs, c’est un combat pour la survie.

L’arrivée de Perplexity AI est l’une des bonnes surprises de l’IA dans notre sphère informationnelle. Grâce à son positionnement « Search + IA », elle apporte une diversité bienvenue face au moteur de recherche Google.

La domination de Google est également, pour la première fois, sérieusement contestée sur un nouveau terrain, celui de l’actualité, par l’approche disruptive de Perplexity qui vient challenger le puissant écosystème structuré par Google depuis les années 1990 autour de Google News.

Ce duel ne repose pas sur de la « performante brute », mais sur deux philosophies de l’informa­tion. Google conserve une avance décisive sur l’exhaustivité et le local : c’est l’outil de la couverture universelle, s’appuyant sur des données géolocalisées et un index infini. À l’inverse, Perplexity s’impose par sa «profondeur» : il ne se contente pas de lister, il analyse, fusionne et synthétise.

Le «bibliothécaire du web» doit désormais faire face à un «rédacteur algorithmique» qui ne se contente plus de pointer vers l’info, mais qui la raconte.

Trois plateformes, trois philosophies de la découverte

Pour comprendre ce qui se joue, il faut disséquer le fonctionnement de ces trois systèmes qui marquent chacun une étape de notre rapport à l’information :

1. Google News (lancé en 2002) : le bastion de la presse structurée. Après plus de deux décennies d’existence, il reste le pilier de l’actualité hiérarchisée. Son algorithme compile des milliers de sources classées par catégories (Monde, Tech, Sport, etc.). La personnalisation y est «douce» : elle repose sur vos intérêts et votre historique, mais conserve l’illusion d’un kiosque traditionnel. L’expérience varie selon les pays et les accords légaux locaux. C’est encore «l’ère du lien» : l’utilisateur choisit un titre et clique pour lire le contenu directement chez l’éditeur.

2. Google Discover (déployé depuis 2018) : la curation passive et prédictive. Contrairement à Google News, où l’utilisateur consulte activement les actualités par rubrique, Discover propose une approche différente :

  • Le passage au flux « Push » : l’information est envoyée à l’utilisateur, qui la reçoit sans devoir ouvrir une application de presse ou saisir une recherche.
  • Le magazine prédictif exploite les données des utilisateurs telles que l’historique de navigation, la localisation et les centres d’intérêt afin de générer un flux d’actualités personnalisé. Ce système privilégie la découverte spontanée de contenus, reléguant ainsi la recherche ciblée au second plan.
  • Depuis 2024, Google Discover a évolué en adoptant des formats inspirés des réseaux sociaux et, dans certains pays comme les États-Unis, les premiers éléments des AI Overviews. Ces résumés génératifs font de Discover un lieu de consommation directe de l’information, sans quitter la plateforme.

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte

IA générative : les sources sous tensions

ANNE-MARIE LIBMANN
Bases no
441
publié en
2025.11
656
Acheter ce no
Tags
IA | droit d'auteur
IA générative : les sources sous tensions Image 1
IA générative : les sources sous tensions Image 1

Un écosystème en transition : entre pillage massif, rééquilibrages juridiques et premiers modèles sous droits


L'IA générative ne se contente pas de « produire du texte ». Elle recompose le cadre même dans lequel l'information circule, est transformée et prend de la valeur.

Après quelques décennies d'un écosystème hybride, mêlant presse sous droits, bases professionnelles, web ouvert et intermédiation dominante de Google - un nouveau paysage se dessine, où des agents IA, encore largement alimentés par du scraping massif des contenus, souvent dénoncé comme une forme de captation non autorisée par les éditeurs, pourraient à terme fonctionner sur des corpus contractuels négociés.

Mais cette transition est loin d'être accomplie. Nous sommes dans un « entre-deux » instable où se côtoient pillage, litiges, opacité technique et premières tentatives de régulation. Les enjeux sont cruciaux pour les éditeurs, les professionnels de l'info-doc, les journalistes et, plus largement, l'ensemble des usagers.

 D'un écosystème hybride à un accès algorithmique aux contenus

Contrairement à l'idée parfois avancée d'un « avant » dominé par un web ouvert, l'écosystème informationnel qui a précédé l'IA générative était déjà profondément hybride. Une large part des contenus reposait sur des dispositifs sous droits : presse payante, agences, agrégateurs, bases professionnelles.

Cet univers, structuré par des licences et des usages encadrés, était gouverné par des éditeurs, des institutions réglementaires et des professionnels de l'information qui en assuraient la cohérence juridique et documentaire.

À côté de cet espace contractuel existait le web ouvert, un territoire libre d'accès et riche en signaux documentaires, où la traçabilité des pages, l'identification des auteurs, la présence des liens et la possibilité de suivre la circulation des contenus constituaient autant de repères essentiels.

Entre ces deux pôles se tenait Google, une interface quasi incontournable. Son modèle économique basé sur la publicité créait de tensions fortes avec les éditeurs, imposait de nouvelles dépendances économiques et influençait parfois très négativement les stratégies éditoriales. Pourtant, malgré ses effets ambivalents, Google garantissait au moins une certaine forme d'échange : il permettait la visibilité des contenus, générait du trafic vers les sites et participait, même de façon imparfaite, à leur découvrabilité.

Cet ensemble composite, déjà traversé de conflits et d'interdépendances, forme aujourd'hui le socle sur lequel viennent se greffer les recompositions provoquées par l'IA générative.

Un changement de paradigme juridique : l'IA ne copie pas les contenus, elle les ingère

Et c'est là que se situe la rupture. Le débat public se concentre encore sur la notion de « reproduction » des contenus par les modèles d'IA. Or ce cadre ne correspond plus à la réalité technologique. Les systèmes génératifs ne stockent pas des copies d'articles ; ils ingèrent des textes sous forme de représentations vectorielles.

Cette ingestion est un processus informationnel au sens strict : extraction de caractéristiques, intégration dans des modèles distribués, recombinaisons ultérieures.

C'est lors de l'ingestion que le modèle s'approprie, sur le plan computationnel, les caractéristiques linguistiques, sémantiques et structurelles du corpus, qu'il réutilisera ensuite pour générer des réponses – même si aucune reproduction textuelle n'apparaît dans les sorties. Cela met à mal la logique traditionnelle du droit d'auteur, historiquement centré sur la copie visible.

L'entraînement : un processus continu alimenté par des flux de données hétérogènes

Contrairement à l'idée souvent avancée d'un « entraînement initial » stabilisé, les modèles d'IA suivent des cycles continus : mises à jour, fine-tuning spécifiques, etc.

Les pipelines d'ingestion restent actifs. De nouveaux corpus peuvent être intégrés, volontairement ou via les usages des utilisateurs, comme nous allons le voir.

Ce fonctionnement continu ne pose pas tant un problème de gouvernance qu'une question juridique centrale : à quel moment l'utilisation d'un contenu devient-elle rémunérable ? Plusieurs acteurs considèrent logiquement que c'est au moment de l'ingestion que se jouent la captation de valeur et son intégration durable dans ses représentations, mais ce point reste juridiquement ouvert.

Les utilisateurs comme contributeurs involontaires : un angle mort critique

Un flux d'alimentation bien moins visible que le scraping massif provient aujourd'hui des utilisateurs eux-mêmes. À travers leurs essais, leurs copier-coller ou le téléversement de documents dans des outils d'IA, ils introduisent dans les modèles des contenus qui, pour beaucoup, relèvent du droit d'auteur : articles sous paywall, extraits de bases sous licence, analyses internes, rapports de veille, documents d'archives.

Or le statut de ces apports est rarement clair. Selon les outils, on ignore si les documents sont stockés, s'ils servent à ajuster les modèles, s'ils sont susceptibles d'être réutilisés dans d'autres interactions, ou même s'ils sont correctement effacés.

Pour les organisations, le risque est double. Elles s'exposent, d'une part, à une perte de contrôle sur leurs corpus propriétaires ou sous licence, et, d'autre part, à des enjeux de conformité qui dépassent la seule dimension documentaire : respect du droit d'auteur, responsabilité en cas de réutilisation non autorisée, exposition potentielle à des violations du RGPD lorsqu'un document contient des données personnelles.
Autrement dit, un acte apparemment anodin – déposer un PDF pour obtenir un résumé – peut transformer l'utilisateur en contributeur involontaire d'un système tiers, au détriment de l'éditeur du contenu et, finalement, de son entreprise elle-même.

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte

Panorama des ressources africaines : littérature scientifique, actualités, repositories et archives

FRANCOIS LIBMANN
Bases no
441
publié en
2025.11
531
Acheter ce no
Tags
sourcing pays | Afrique
Panorama des ressources africaines : littérature ... Image 1
Panorama des ressources africaines : littérature ... Image 1

La sous-représentation des sources africaines dans les grandes bases internationales

Il est fréquent de lire des articles qui regrettent la très faible représentation des chercheurs africains parmi les auteurs publiés dans des bases de données telles que Scopus et Web of Sciences (WOS) , désormais considérées comme des références incontournables pour accéder à la littérature scientifique et technique payante (articles, actes de conférences, etc.).

Étrangement, les serveurs Dialog (créé en 1972) et STN (2004), toujours actifs et offrant des bases de données de littérature scientifique très larges, ne sont jamais cités en référence.

Toutes les études mentionnées dans cet article concernent spécifiquement l’Afrique subsaharienne, hormis donc les pays d’Afrique du Nord.

Les statistiques relatives à la présence des revues africaines dans les bases de données Scopus et Web of Science sont explicites.

Selon l’article « A comparative study of the coverage of African journals in the Web of Science, Scopus and CrossRef », publié en mars 2023, sur 2 229 périodiques africains recensés par le répertoire Ulrich et le site d’African Journals Online (AJOL), seuls 166 titres, soit 7,4 %, figurent dans Web of Science et 174, soit 7,8 %, dans Scopus.

● Cet article souligne par ailleurs que l’Afrique du Sud est particulièrement bien représentée, puisque 70 % des publications en sont originaires, tandis que le Nigéria est sous-représenté bien que 44,5 % des publications africaines en soient issues.

Un autre article, publié en janvier 2024 et consacré aux bases de données biomédicales « A scientometric analysis of Africa’s health science journals indexed in international and regional databases: a comparative analysis » s’appuie sur l’analyse de 622 publications et révèle également que moins d’un quart des travaux africains dans ce domaine sont couverts par Scopus et Web of Science ; plus précisément, 99 publications (soit 15,9 %) sont indexées dans Scopus et 75 (soit 12,1 %) dans Web of Science, sachant que 41 figurent dans les deux bases.

● Selon ce même article, on note aussi que toutes sont loin d’être indexées dans les serveurs africains que nous présentons ci-après, tels que African Journals Online (AJOL) et l’Index Medicus Africain (IMA), où l’on n’atteint qu’environ 25 %.

Pourquoi si peu de revues africaines dans Scopus et Web of Science ?

On peut s’interroger tout d’abord sur l’importance d’être référencé dans Scopus et Web of Science.

Ces deux plateformes jouent en réalité un rôle essentiel dans l’évaluation de la recherche à l’échelle mondiale. Elles figurent parmi les principales bases utilisées pour établir les classements universitaires, ce qui influence fortement la réputation, l’attractivité ainsi que les financements des établissements.

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte

OSINT et géolocalisation : 3 outils pour localiser (presque) n’importe quoi sur Internet

ELODIE CHARRIERE
Bases no
441
publié en
2025.11
616
Acheter ce no
Tags
OSINT | géolocalisation
OSINT et géolocalisation : 3 outils pour localiser ... Image 1
OSINT et géolocalisation : 3 outils pour localiser ... Image 1

À l’ère des réseaux sociaux, les images circulent à une vitesse folle, souvent sans contexte ni source fiable. Mais grâce à l’OSINT et ses outils accessibles à tous, il devient possible de localiser avec une précision étonnante presque n’importe quelle image diffusée sur Internet.

D’une simple photo de coucher de soleil à une vidéo TikTok, en passant par le décor furtif d’un vlog YouTube, il est aujourd’hui possible de remonter jusqu’à l’endroit exact où l’image a été prise. Cela peut sembler surprenant, voire irréalisable, et pourtant, c’est précisément le rôle et l’objectif des techniques d’OSINT. Pour ceux ou celles qui ne connaissent pas, l’OSINT (Open Source Intelligence) désigne l’ensemble des techniques qui exploitent des données accessibles publiquement : photos, vidéos, bases cartographiques, archives, réseaux sociaux… Parmi ses branches, on retrouve tout simplement la géolocalisation visuelle.

Chaque détail, que ce soit une ombre, un panneau routier ou une façade reconnaissable, peut devenir un indice précieux pour retrouver la localisation exacte. Ainsi, il est possible de déterminer précisément où et quand une image a été prise. Cette discipline, très utilisée par les journalistes d’investigation (comme Bellingcat, un collectif spécialisé dans l’analyse d’images et de vidéos pour enquêter sur des conflits ou crimes de guerre, ou le New York Times Visual Investigations, qui vérifie des faits grâce à l’analyse d’images, de vidéos et de données ouvertes) et par les chercheurs en sécurité, repose sur une combinaison d’outils numériques et de raisonnement logique. Voici trois outils gratuits et puissants qui permettent de localiser tout ce que vous souhaitez sur internet. À vous de tester !

1. Google Earth et Street View : voyager sans bouger

C’est sans doute l’outil le plus connu, il reste une mine d’or pour les enquêtes. Google Earth et sa fonction Street View permettent de comparer un lieu suspecté avec une image ou une vidéo. Un lampadaire, un type de carrelage, une enseigne… il suffit de croiser les détails pour réduire progressivement la zone de recherche. Les journalistes d’investigation l’utilisent régulièrement pour confirmer l’emplacement d’événements de guerre ou de manifestations. Pour le grand public, c’est un formidable moyen de vérifier où a été prise une photo « trop belle pour être vraie ».

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte

PubMed.ai n’est pas celui que l’on croit

FRANCOIS LIBMANN
Bases no
441
publié en
2025.11
674
Acheter ce no
Tags
IA | ist | information scientifique et technique
PubMed.ai n’est pas celui que l’on croit Image 1
PubMed.ai n’est pas celui que l’on croit Image 1
Nous avons présenté dans le numéro 440 de BASES (octobre 2025) PubMed.ai et une série d’autres outils situés ou non dans l’écosystème de PubMed, proposant des recherches améliorées à base d’IA, de recherche sémantique ou d’autres outils.
Notre présentation de PubMed.ai reposait sur une analyse précise de son utilisation et de ses fonctionnalités, tout en considérant l’appartenance manifeste de ce produit à l’écosystème PubMed, conformément aux informations obtenues via les informations collectées lors de la préparation de l’article. Cette évidence nous a conduits à ne pas approfondir davantage cet aspect.

À notre décharge, PubMed.ai utilisait la marque PubMed, s’appuyait sur les documents de PubMed et leur indexation (MeSH) pour élaborer les résultats.

Un lecteur de BASES particulièrement attentif nous a alertés, et nous l’en remercions vivement, sur le fait que PubMed.ai n’était pas lié à la NLM et que sa structure était très mystérieuse.

Cela nous a conduits à effectuer une série de recherches complémentaires et également à interroger plusieurs IA.

Les résultats de ces recherches convergent de manière étonnante sur le fait qu’aucune information n’est disponible sur l’entité productrice de PubMed.ai.

En s’intéressant au nom du produit, on note que la marque PUBMED a bien été enregistrée auprès de l’Office américain des brevets et des marques (USPTO) par le ‘U.S. Department Of Health And Human Serv’ (une agence fédérale des États-Unis) et qu’elle reste en vigueur à ce jour.

L’abondante communication de PubMed.ai pouvait laisser penser que ce service avait un accord de licence pour exploiter la marque PubMed. Mais il semblerait que cela ne soit pas le cas puisqu’aucune trace d’un tel accord de licence n’a été trouvée et que la NLM que nous avons interrogée avec insistance a fini par nous répondre brièvement ceci : « No, Pubmed.ai is not a product of NLM. Please check for the .gov domain in a product’s URL to confirm that it is a product of the National Library of Medicine.”

On peut se demander pourquoi aucune action en contrefaçon n’a été engagée, en supposant d’une part que, compte tenu de la position du gouvernement américain à l’égard des institutions scientifiques, cela ne constitue peut-être pas une priorité, et d’autre part que PubMed.ai contribue d’une certaine façon à la « valorisation » de PubMed.

Mais, ce qui est vraiment étrange est qu’il est impossible de trouver la moindre information sur les créateurs/opérateurs de ce site, sur la structure de leur organisation, et sur leur modèle économique.

Nous avons pourtant cherché dans de très nombreuses sources, interrogé plusieurs moteurs d’IA qui tous arrivent à même conclusion : on ne sait rien de cette structure et des sept personnes qui sont supposées l’opérer et qui apparaissent… avec un masque de carnaval sur leur visage.

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte

De l’OCR à ChatGPT : la révolution de la veille documentaire - Entretien avec Mathieu Andro

Christel RONSIN
Bases no
440
publié en
2025.10
1674
Acheter ce no
Tags
formation Veille Infodoc | veille informationnelle | Intelligence artificielle | ChatGPT
De l’OCR à ChatGPT : la révolution de la veille ... Image 1
De l’OCR à ChatGPT : la révolution de la veille ... Image 1

Quand les professionnels de l’information doivent réinventer leur métier à l’aune de l’intelligence artificielle

Nous avons convié Mathieu Andro à nous partager son parcours et ses perspectives sur l’intégration de l’intelligence artificielle générative dans les pratiques professionnelles, en particulier dans le domaine de la veille informationnelle.

Mathieu Andro est titulaire d’un doctorat en sciences de l’information et de la communication, obtenu à Paris 8 en 2016 avec une thèse portant sur le crowdsourcing. Il a assuré pendant cinq années l’animation du réseau de veille auprès des services du Premier ministre. Depuis septembre 2025, il exerce la fonction de chef du bureau de la politique documentaire au sein des ministères sociaux, regroupant le ministère du Travail, le ministère de la Santé et le ministère des Solidarités.

Auparavant, il a travaillé pour les bibliothèques du Muséum national d’Histoire naturelle, dirigé celle de l’École Nationale Vétérinaire de Toulouse, conduit les projets de numérisation de la Bibliothèque Sainte-Geneviève, puis développé des services de text mining à l’Institut National de la Recherche Agronomique avant de devenir chef d’une division spécialisée dans la veille à la Cour des comptes.

Il est l’auteur de plus de 50 publications sur les bibliothèques numériques, le crowdsourcing, le text mining, la veille et l’open access.

CHRISTEL RONSIN : Mathieu, depuis quand utilisez-vous l’intelligence artificielle générative dans votre métier ?

MATHIEU ANDRO : Avant de parler de l’« IA générative », si l’on inclut des technologies comme l’OCR (Reconnaissance Optique de Caractères) ou la structuration de corpus à partir de langage naturel, alors j’en utilise depuis mes premières expériences de numérisation à la Bibliothèque Sainte-Geneviève. Pour moi, la constitution de corpus numériques a constitué une première étape vers l’IA générative, en préparant le terrain à des traitements automatisés du langage.

La deuxième étape de mon parcours, c’est mon travail à l’INRA, dans le domaine du text mining. J’y structurais de vastes corpus textuels pour produire des cartographies sémantiques, ce qui revient à extraire des modèles de sens à partir du langage naturel. Aujourd’hui, avec les grands modèles de langage, on fait l’inverse : on part du modèle pour produire du texte. Il y a donc une continuité conceptuelle entre ces deux démarches.

Autrement dit, j’ai vu venir cette évolution. À l’époque, nous imaginions déjà la possibilité qu’un jour, des modèles de langage puissent simuler non seulement un style, mais aussi une pensée, voire une manière de philosopher ! C’est pour cela que je me suis lancé sans hésiter dès l’arrivée de ChatGPT : j’y ai vu une concrétisation de ce que j’avais entrevu depuis longtemps.

CR : Par la suite, au sein du réseau de veilleurs des services du Premier Ministre, comment avez-vous utilisé l’intelligence artificielle générative ?

MA : Dès que les outils ont été accessibles, nous les avons expérimentés dans le cadre du réseau. Le premier usage fut la production de résumés et de synthèses automatiques, à partir des corpus de veille. Cela prolongeait nos pratiques antérieures en text mining : extraction d’entités nommées, analyses d’occurrences et de co-occurrences.

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte

Stratégie et innovation : LexisNexis® transforme-t-il l’analyse brevet ? (2e partie)

Philippe BORNE
Bases no
440
publié en
2025.10
894
Acheter ce no
Tags
LexisNexis | brevets | veille concurrentielle | veille technologique
Stratégie et innovation : LexisNexis® transforme-t-il ... Image 1
Stratégie et innovation : LexisNexis® transforme-t-il ... Image 1

Dans notre dernier numéro, nous avons introduit l’offre LexisNexis® en matière d’information brevet, dont l’un des éléments clé est PatentSight® qui propose une méthode d’évaluation de la qualité d’une famille de brevets, basée sur plusieurs indicateurs.

Ces indicateurs sont : la Technology Relevance, basée sur les citations, le Market Coverage, basé sur la couverture pays de la famille de brevets, la combinaison des deux donnant le Competitive Impact, pour une famille de brevets, et la somme des Competitive Impact d’un lot de familles de brevets donnant pour ce lot le Patent Asset Index.

Dans ce numéro de BASES, nous traiterons de la mise en œuvre de ces indicateurs dans une démarche d’évaluation du potentiel d’une famille ou d’un groupe de familles de brevets.

Comme indiqué précédemment, PatentSight® génère divers graphes à partir d’indicateurs, regroupés par défaut dans le « Playbook » selon leur objectif (recherche de licenciés, rachat d’entreprises, gestion de portefeuilles, analyse concurrentielle, etc.). L’interface permet aussi à l’utilisateur de créer des graphes adaptés à ses besoins.

Examinons donc quelques exemples de graphes produits par PatentSight®, et les enseignements que l’on peut en déduire. Nous allons le faire en prenant des questions très basiques que peut se poser une entreprise.

Que vaut exactement mon portefeuille ?

C’est une question clé, sur laquelle il n’est pas toujours aisé d’avoir une bonne vision.

PatentSight® propose plusieurs modes d’affichage qui s’appliquent aussi bien aux portefeuilles complets - dans le cas où l’on veut comparer son portefeuille à celui de ses concurrents - ou aux familles de brevets individuelles de son propre portefeuille, dans le cas où l’on veut comparer les valeurs relatives de chacune de ses familles de brevets les unes par rapport aux autres.

Dans l’exemple ci-dessous, on analyse les familles d’un portefeuille en fonction du Competitive Impact, du Market Coverage et de la durée de vie restante à la famille.

Une famille se distingue, celle correspondant à EP1234567 (Competitive Impact) et Market Coverage élevés, encore 13,6 ans de durée de vie restante (le graphe est réel, mais nous avons anonymisé les numéros).

tags

Déjà abonné ? Connectez-vous...

Connexion

Connexion

Votre identifiant

ENTER YOUR PASSWORD

Forgot Password or Username
Créer un compte
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • ›
  • Fin