On pressent que la « révolution IA générative » va à terme jouer un rôle central dans la redéfinition des pratiques de veille stratégique et technologique. Dans ce nouveau Netsources, nous vous emmenons au cœur de cette métamorphose naissante.
Deux des experts reconnus de la veille en France, Mathieu Andro et Corinne Dupin, ont mené une nouvelle étude du marché des plateformes de veille. Nous sommes heureux d’ouvrir ce numéro avec leur analyse approfondie de l’enquête 2024. Leur étude révèle l’intégration croissante de l’IA dans ces systèmes, qui laisse présager une refonte en profondeur du modèle traditionnel du cycle de la veille.
La révolution de l’IA s’étend également au champ cognitif, démocratisant l’accès à la connaissance. Par exemple, dans le domaine scientifique, Aurélie Vathonne démontre comment de nouveaux outils dopés à l’IA permettent désormais à des veilleurs généralistes de s’immerger dans des domaines complexes, brisant ainsi les barrières d’entrée au savoir scientifique (« Comment se saisir avec pertinence de l’information scientifique lorsqu’on n’est pas scientifique ? »).
Par ailleurs, l’article « Perplexity, le couteau suisse de la découverte d’informations et de la curiosité » analyse l’évolution de ce moteur de réponses hybride, combinant les forces d’un moteur de recherche traditionnel et d’un agent conversationnel. Perplexity incarne cette nouvelle génération d’outils visant à réduire l’incertitude et à fournir des réponses claires, tout en suscitant des débats éthiques sur l’utilisation des sources et la propriété intellectuelle.
Enfin, nous aborderons une question rarement traitée, mais présente dans tous les esprits : «Faut-il optimiser ses prompts en fonction de chaque modèle d’IA ?». Cette interrogation souligne notre prise de conscience des enjeux liés à la personnalisation de nos interactions avec les modèles d’IA, afin d’en tirer le meilleur parti. Nous verrons également comment l’IA offre au veilleur/analyste généraliste de nouvelles perspectives en termes d’immersion dans des champs de connaissance qui lui étaient jusque-là inaccessibles.
Rappelons quand même que l’IA générative, même nourrie des meilleurs prompts et d’investissement personnel, reste un outil qui amplifie l’expertise humaine plutôt qu’un substitut à la réflexion critique et à l’expertise métier.
En 2022, nous avions déjà mené une première grande enquête sur les plateformes de veille. Elle avait fait l’objet d’un numéro spécial de la revue I2D.
Depuis cette date, le marché s’est transformé avec l’intégration de Digimind dans Onclusive (juillet 2022), les rachats successifs par Chapsvision, après celui de Bertin (AMI EI) en juin 2021, de QWAM (mars 2023) et Geotrend (juin 2023) et de plusieurs autres acteurs de l’OSINT, de la traduction ou de l’analyse de données, ou encore l’acquisition d’Iscope par KB Crawl en février 2024.
En parallèle, et depuis 2020, d’autres acteurs, plus petits et aux publics plus confidentiels, sont apparus sur le marché des éditeurs de veille, avec des solutions souvent boostées par l’intelligence artificielle. Le recours croissant aux technologies d’IA a considérablement accéléré la transformation des technologies de veille.
Il était donc devenu nécessaire d’actualiser notre enquête.
Mathieu Andro est Animateur du réseau de veille des Services du Premier ministre
Corinne Dupin est Consultante et formatrice au sein du cabinet Ourouk
En complément des analyses qui vont suivre, l’ensemble de nos données sont de nouveau accessibles sur notre site d’enquête.
Nous avons contacté pas moins de 70 éditeurs parmi ceux qui avaient déjà répondu à notre précédente enquête, mais aussi parmi ceux que nous avons identifiés entre-temps. Tous n’ont malheureusement pas fait le choix de répondre à nos sollicitations. Nous avons également obtenu des réponses d’éditeurs que nous n’avions pas sollicités et qui ont répondu spontanément et directement à une enquête complètement ouverte.
Le partage des informations recueillies par nos soins vise à faciliter le travail de consultation des organisations qui cherchent à se doter de technologies, mais aussi à dépasser les démarches en silos. Cette initiative a également été pensée pour le bénéfice des éditeurs qui seront peut-être moins surchargés de questions et pourront aussi s’inspirer parfois positivement de leurs concurrents. La sincérité de leurs réponses nous semble être renforcée par la transparence auprès de leurs clients comme de leurs concurrents.
Pour notre nouvelle enquête, nous avons d’ailleurs ajouté des vidéos d’entretiens avec les éditeurs. Elles permettent de mieux connaître leurs cultures d’entreprise, de mettre des visages sur des entrepreneurs, mais aussi de « lever le capot » de leurs outils et de se faire une idée plus concrète de l’ergonomie et du fonctionnement de leurs solutions au-delà de leur seules déclarations. Les éditeurs Cikisi, Esprits Collaboratifs (Curebot), IXXO, KB Crawl, maïplug, niiwaa, Sindup et Wabtch ont ainsi accepté de se prêter au jeu des échanges et démonstrations vidéo.
Les éditeurs de plateformes sont généralement francophones et s’adressent essentiellement au marché francophone. Au-delà d’un biais évident lié à l’origine géographique des auteurs de l’enquête, il est possible que le métier de veilleur et ses outils soient une spécificité francophone et que dans les pays anglo-saxons, la veille soit davantage une compétence métier partagée.
La plus grande société représentée (en termes d’effectif) est Chapsvision avec 1000 personnes. Elle est suivie par Talkwalker qui a déclaré 400 collaborateurs, Valona (anciennement M-Brain) avec plus de 200, Digimind avec 160 et Akio avec 60 personnes. L’autre côté de l’échiquier est investi par des développeurs informatiques, détenteurs de petites structures, qu’ils soient enseignants-chercheurs (niiwaa, maïplug) ou ex-chargé de veille et de l’innovation (Wabtch).
Tous ces acteurs ne jouent évidemment pas dans la même cour. Si l’ambition générale est celle d’automatiser le recueil d’information, les plateformes de veille intégrées s’adressent de façon préférentielle à de grands comptes, des industriels et des sociétés de service auxquels ils proposent une panoplie de fonctionnalités collaboratives et de modalités de diffusion (portail de lecture, alertes, newsletters…), tandis que les solutions plus modestes d’entrepreneurs (qu’ils désignent eux-mêmes comme de simples « outils de surveillance du web » ou « moteur de recherche de renseignement ») ciblent davantage des PME, des start-up, voire des veilleurs « isolés » moins fortunés et/ou pragmatiques, surtout désireux de perdre le moins de temps possible dans la capture et le traitement des informations.
Si le modèle de la plateforme « monolithique » proposant des fonctionnalités intégrées pour chaque étape du cycle de la veille est dominant, on observe toutefois que ChapsVision, Coexel, IXXO, KB Suite, Valona et Wabtch offrent la possibilité d’acquérir des modules séparés. Cela permet, par exemple, d’acquérir un module pour la collecte chez un éditeur, un autre module pour la curation chez un autre, possiblement encore un autre module pour la diffusion ou pour l’analyse. La modularité est appréciable lorsque l’entreprise - ou le veilleur - dispose déjà de son propre espace de diffusion (intranet, SharePoint ou CMS quelconque) - auquel cas elle ou il pourra ne se doter que de la seule « brique » de la surveillance.
À l’instar de notre dernière enquête, les sources juridiques restent celles qui sont les plus difficiles à surveiller automatiquement. Seuls Aleph Search, Curebot et KB Crawl ont déclaré une certaine expertise en la matière. Cette difficulté récurrente est probablement liée au modèle économique des éditeurs de sources juridiques, qui se fonde sur la rareté de l’information et les amène à se protéger des robots.
Le modèle économique des éditeurs scientifiques est diamétralement opposé. Fondé sur la recherche de la visibilité et de la citation (facteurs d’impact), il incite les éditeurs à faciliter le crawling ou la surveillance
automatique des publications par des flux RSS complets.
On observe également une spécialisation des types d’outils et une séparation des technologies de social listening et d’e-réputation, lesquelles s’adressent surtout aux acteurs de la communication. C’est le cas d’Akio Insights, Aleph Search, Digimind Social et Talkwalker.
La dichotomie entre veilles sur sources spécifiques et veilles radars par combinaison de mots clés sur de gros bouquets de sources est également en train de s’estomper, la plupart des éditeurs proposant désormais des bouquets de sources.
Les clubs utilisateurs existent chez 56,3 % des éditeurs et sont un moyen privilégié pour capter les besoins d’évolution de leurs solutions.
Les coûts d’acquisition oscillent entre 2 000 € et 200 000 € pour une moyenne de 16 000 € par an. Cela dit, comme il s’agit d’une moyenne sur seulement 6 éditeurs ayant répondu à cette question, elle ne nous semble pas très significative, d’autant que lors de notre dernière enquête, cette moyenne excédait les 40 000 € par an.
Figure 1 : Page d’accueil de notre site-panorama des solutions de veille
La surveillance de contenus audiovisuels, grâce aux technologies de speech to text, reste minoritaire. 4 répondants la proposent (Curebot, Digimind Social, KB Suite et Sindup).
L’écriture collaborative - à savoir la possibilité pour plusieurs personnes d’intervenir simultanément sur un même contenu - est encore plus rare puisque seuls 3 éditeurs l’ont implémentée (Curebot, Digimind Social et Valona). La collaboration entre veilleurs pour dépasser les silos institutionnels, les pratiques de veille collaborative pour effacer la division traditionnelle entre la cellule de veille productrice d’information et les consommateurs de ses contenus semblent encore loin d’être la règle dans les organisations.
La possibilité de veiller à partir d’une image de logo ou de visage n’est proposée que par Aleph Search et Talkwalker.
Pour la diffusion des veilles, 40 % des éditeurs déclarent avoir recours à un CMS comme :
Concernant l’intelligence artificielle, 43,8 % des éditeurs déclarent la proposer pour détecter de nouvelles sources par apprentissage sur les sources déjà surveillées. C’est le cas d’Akio Insights, Aleph Search, Cikisi, Mytwip (Coexel), Curebot, Digimind Social et niiwaa.
Les fonctionnalités de curation automatisée ou semi-automatisée par apprentissage qu’on appelle aussi machine learning- des contenus validés ou rejetés par les veilleurs sont proposées majoritairement par 56,3 % des éditeurs.
La production de résumés automatiques est déjà majoritaire à 68,8 %. La production de synthèses de plusieurs articles est proposée par la moitié des répondants.
En revanche, la capacité à détecter des contenus produits par de l’intelligence artificielle générative est très minoritaire puisque seule la plateforme Valona la propose. La détection des infox et fake news, de même que l’évaluation du niveau de fiabilité de l’information sont également peu répandues. Seuls Curebot, Digimind Social et la plateforme Valona proposent ce type de service.
L’analyse du sentiment est une technologie déjà largement éprouvée. Elle est proposée par Akio Insights, Curebot, Digimind Social, Market Intelligence ChapsVision, Valona et Talkwalker. Il en est de même pour les analyses sémantiques par data visualisation de corpus de veille ou text mining, qui sont proposées par 43,8 % des répondants. Les cartes géographiques sur les entités nommées sont proposées quant à elles par 68,8 % des répondants.
Outre les fonctionnalités attendues d’une solution de veille selon les contextes d’usage et les coûts d’acquisition et de fonctionnement, les éléments de différenciation entre les différentes propositions du marché relèvent principalement de l’expérience utilisateur : confort perçu d’utilisation, réduction maximale du bruit, accès rapide à l’information pertinente…
Les filtres proposés pour affiner les requêtes ou faciliter l’exploitation des résultats de la veille contribuent à une expérience qualitative et dynamique, promue notamment par les éditeurs Cikisi ou IXXO :
La datavisualisation concourt elle aussi à faciliter l’exploitation des contenus : outre l’extraction d’entités nommées et les nuages de mots, assez souvent proposés, la clusterisation ou regroupement de contenus par grandes catégories (Curebot, IXXO…) peut être un plus, tout comme une gamme d’histogrammes, graphiques en mosaïque, cartes comptant une ou plusieurs variables ; par exemple : pays mentionnés dans les contenus, montants de contrats… (Cikisi). La cartographie des co-occurrences peut aussi s’avérer précieuse (IXXO, Geotrend…).
Pour un outil comme niwaa, la datavisualisation n’intervient pas dans l’analyse, mais au moment de la détermination du contexte de recherche, réorienté de façon itérative au fil des propositions algorithmiques.
La personnalisation de la navigation dans la plateforme peut également constituer un motif de choix d’une solution : codes couleurs différents à des fins de repérage (Cikisi, Wabtch..), expérience de lecture dynamisée par les recommandations de son IA Mila vers d’autres « itinéraires de lecture » chez Cikisi…
Un autre facteur de différenciation est la possibilité offerte par certaines solutions de lancer une investigation à partir d’une feuille blanche, sans corpus de sources constitué au départ faute de maîtrise du sujet. IXXO propose ainsi d’explorer ce qui se dit sur le web sur le sujet en question via une douzaine de moteurs de recherche, d’identifier des sous-concepts par traitement statistique, puis d’initier une stratégie de recherche et la création d’agents intelligents venant alimenter un « data lake » c’est-à-dire un corpus de données non structurées, puisqu’il s’agit ici de favoriser la rapidité de constitution d’un corpus et d’imprégnation du sujet.
D’autres comme Curebot proposent, sur des sujets non maîtrisés, de lancer une recherche web en mode exploratoire dans différents moteurs (Google, Bing…), ou encore de lancer sur 1 à 3 mois une campagne de surveillance de milliers de sources via un data broker.
Certains outils font plus radicalement l’économie de l’étape du sourcing : c’est le cas notamment du moteur de veille multilingue niiwaa qui interroge des millions d’enregistrements (data lakes) et des bases de données externes, ouvertes ou fermées,, au moyen de termes de recherche, puis apprend des votes effectués en fonction de la pertinence des items remontés. niwaa et maïplug se passent ainsi également de l’élaboration d’une requête : car comment formuler ce que l’on ne sait pas encore nommer ?.... Le mode interactif d’orientation de la collecte au moyen de votes se veut alors à l’image du mode de fonctionnement du cerveau.
Figure 2 : Aperçu de quelques options de filtrage disponibles sur la plateforme
L’intelligence artificielle, déjà mobilisée par les éditeurs depuis quelques années, notamment pour la recommandation de contenus similaires, la traduction automatique des articles en langue étrangère au fil de la lecture et la génération automatique de résumés, est envisagée à présent sous sa forme générative. Le chatbot est le moyen d’interaction pour faciliter l’exploitation des corpus de veille, en permettant de requêter en langage naturel ou « converser » à partir des contenus validés. C’est l’orientation prise par des acteurs comme Curebot, Cikisi, KB Crawl, ou Sindup sur son portail de veille… Cette fonctionnalité nouvelle ouvre le champ de la veille à des consommateurs ponctuels qui viendront l’interroger pour des besoins informationnels précis plus circonscrits dans le temps, davantage que sur des sujets récurrents.
L’IA, de façon plus anecdotique, vient aussi en renfort du scraping chez KB Crawl en détectant les zones pertinentes à surveiller en fonction des habitudes de scraping du veilleur.
Le développement de l’apprentissage automatique dans les solutions de veille sonnera peut-être à terme le glas du requêtage et de la sélection de mots-clés, considérés par bon nombre de veilleurs - comme le concepteur de maïplug - comme lourds, imparfaits, restrictifs, limitants quand l’IA est, elle, en mesure d’embrasser un volume de mots-clés largement plus important et croissant.
Autant dire que dans la perspective de la disparition (programmée ?) du sourcing et du requêtage et du développement des capacités de détection, filtrage, reconnaissance, classification et recommandation des systèmes d’IA, le paysage des solutions de veille risque à plus ou moins long terme d’être drastiquement bouleversé, et avec lui les compétences attendues des veilleurs.
Pendant assez longtemps, la veille business et la veille scientifique et technique ont constitué des champs tout à fait distincts avec des compétences et ressources spécialisées bien définies pour les piloter, ainsi que des objectifs, des méthodes, des outils et des sources propres.
Puis la mise en place de plus en plus courante de veilles dites « innovation » a commencé à brouiller les frontières, mêlant informations concurrentielles et technologiques, et l’on constate que les spécialistes de la veille au sein des départements marketing et R&D de grands groupes travaillent étroitement ensemble pour fournir leurs analyses stratégiques au top management.
La veille IST a longtemps nécessité un véritable background scientifique et technique dans un domaine spécifique, quel qu’il soit (matériaux, énergie, agro-alimentaire, etc.), pour pouvoir exercer ce rôle efficacement. Pourtant, comprendre non seulement la pertinence, mais aussi l’apport de certains travaux scientifiques ou d’articles techniques n’est plus mission impossible pour celui qui n’est pas du sérail, et ce grâce au développement récent des outils d’intelligence artificielle qui changent la donne.
Bien sûr, un veilleur « généraliste » ne pourra jamais se hisser au niveau d'expertise d’un ingénieur spécialiste, mais l’IA va lui permettre en revanche d’élever sa compréhension des documents sans avoir de bagage spécifique et sans connaître tout le vocabulaire scientifique et technique spécialisé.
Pourquoi ? Parce que l’IA joue le rôle d’un véritable interlocuteur capable de s’adapter à n’importe quel niveau de connaissance et que la grande valeur des systèmes d’IA pour cet exercice est la capacité du chatbot à dialoguer et à reformuler inlassablement ses explications, comme le ferait finalement un excellent professeur !
L’outil d’IA va savoir en effet : répondre aux questions, aux demandes de précisions, de définitions, donner des explications simplifiées et compréhensibles par tous, supprimer les termes trop techniques, utiliser des analogies…
De plus, on sait bien que l’abstract disponible en anglais pour les articles scientifiques est souvent imprécis, trop généraliste ; il reste bien souvent une méta-description et ne permet pas réellement d’appréhender le contenu à valeur ajoutée de l’article.
Il est donc plus efficace de faire effectuer un nouveau résumé à partir du texte intégral lorsqu’on y a accès. Mais plutôt que de demander un simple résumé de l’article, le prompt devra spécifier un maximum de ces éléments :
Une fois ce premier résumé fourni par l’outil d’IA, on peut appliquer un deuxième traitement en poursuivant la conversation :
Déjà abonné ? Connectez-vous...
À l’arrivée de ChatGPT, nous avons vu fleurir sur le web et les réseaux sociaux une quantité de conseils sur l’art subtil de la formulation des prompts. On a vu également émerger une multitude d’outils et de bibliothèques de prompts prêts à l’emploi, souvent payants, adaptés à divers secteurs et types de questions (cf. FOCUS IA : maîtriser et gérer ses prompts - BASES no421- Janvier 2024). Cette révolution IA a même donné naissance à un nouveau métier : le prompt engineering, qui semble se professionnaliser de plus en plus.
Rappelons au passage qu’un prompt (ensemble d’instructions ou encore d’invites) est adressé à un modèle de langage (LLM) via une interface utilisateur, qui peut prendre la forme d’un chatbot (interface conversationnelle) pour générer des réponses ou des contenus spécifiques. Par exemple, Open AI a développé le modèle GPT (avec ses déjà nombreuses versions) et a mis à disposition des utilisateurs le chatbot ChatGPT.
Ces conseils et outils se concentrent principalement autour de ChatGPT, ce qui ne surprend pas au regard de la large et rapide démocratisation de l’IA générative qu’OpenAI a su orchestrer : il était urgent de fournir un « mode d’emploi » pour utiliser efficacement ce chatbot.
Cependant, une question fondamentale demeure : peut-on utiliser les mêmes prompts pour tous les modèles d’IA établis sur le marché (outre GPT : Gemini, Claude, Mistral, Llama principalement) ? Par exemple, Claude répond-il de manière aussi satisfaisante à un prompt conçu pour ChatGPT ?
Cette interrogation est d’autant plus naturelle que chaque modèle d’IA possède ses propres spécificités et capacités d’« intelligence générative » distinctes, fruit d’investissements colossaux et d’approches de développement différents. Cette diversité suggère qu’une stratégie de prompts sur mesure pour chaque modèle pourrait s’avérer efficace pour exploiter pleinement les forces de chaque modèle et de contourner éventuellement ses biais ou limitations.
Lorsqu’on utilise fréquemment l’IA générative, on comprend intuitivement que la qualité des réponses est liée à l’optimisation des prompts et que « défricher le raisonnement » du modèle peut aider. En effet, le raisonnement du modèle n’est pas uniquement statistique, et une compréhension approfondie de ses capacités peut améliorer l’efficacité des interactions.
Ils sont nombreux. Comment dialoguer et développer son interaction avec le modèle d’IA choisi alors que l’on ne sait pas vraiment quel est son profil et son « bagage culturel » initial ? Avec quelles données et langues a-t-il été « nourri » ? Les entreprises sont notoirement réticentes à divulguer les détails de leurs corpus d’entraînement pour des raisons de propriété intellectuelle et de concurrence.
Il faut admettre qu’il est difficile, même à partir de recherches dans la littérature spécialisée, de progresser au-delà d’un certain niveau de généralité dans l’optimisation des prompts. On reste souvent à un niveau expérimental.
Ainsi, notre approche issue de notre expérience personnelle sera pragmatique.
Distinguons tout d’abord deux types de cas d’usage, autour desquels nous axerons ces recommandations.
Pour des questions portant sur une « simple » demande de connaissance, il est possible de rester sur un niveau de requêtage simple, en s’exprimant clairement, mais sans besoin de structurer le prompt. On sera plutôt dans une interaction dynamique avec l’IA, qui propose souvent des reformulations et questions complémentaires.
En revanche, pour des tâches impliquant des opérations intellectuelles complexes, une préparation soignée du prompt sera indispensable, et c’est ici que notre question sur l’utilisation de prompts différenciés prend son sens.
Comment évaluer l’importance d’adapter et d’optimiser le prompt pour chaque modèle d’IA spécifique ?
Déjà abonné ? Connectez-vous...
Perplexity se définit comme un «moteur de réponses» innovant, combinant les fonctionnalités d’un moteur de recherche traditionnel avec celles d’un agent conversationnel alimenté par l’IA : une sorte d’hybride entre ChatGPT et Google Search.
Son ambition affichée est de concurrencer Google sur le marché de la recherche en ligne, en proposant une approche radicalement différente : plutôt que de fournir une simple liste de liens, Perplexity génère des réponses textuelles rédigées en s’appuyant sur des sources d’information récentes, variées et toujours indiquées en référence par l’outil.
La start-up californienne fondée en 2022 par un ancien d’Open AI, a rapidement attiré l’attention des investisseurs, atteignant une valorisation d’un milliard de dollars en 2024.
Le nom «Perplexity AI» fait référence à la notion de perplexité en théorie de l’information, qui mesure l’incertitude, mais il est utilisé ici de manière inverse. L’objectif de Perplexity AI est de réduire l’incertitude (ou la perplexité) des utilisateurs en fournissant des réponses claires et précises, transformant ainsi la haute perplexité en basse perplexité dans le domaine de la recherche d’information.
Pour fonctionner, Perplexity extrait les données d’internet au moment où la question lui est posée, de sorte que les réponses sont réputées être toujours à jour. Il s’appuie ensuite sur plusieurs modèles de langage, le sien propre mais aussi celui d’OpenAI, le modèle open source Llama de Meta ou encore Claude 3, pour produire ses réponses. De plus, il propose des questions connexes à la requête initiale (rappelant un peu les requêtes suggérées de Google), permettant ainsi d’affiner progressivement la recherche.
L’accès peut se faire sans obligation de créer un compte, via le site web de l’application ou une application mobile, avec fonction de recherche vocale disponible sur iPhone. Il existe enfin une extension Chrome qui permet d’y accéder à partir de n’importe quelle page web, de lui faire résumer la page ou répondre à des questions sur ce qu’elle contient.
Perplexity propose deux formules : une version gratuite qui ne contient pas de publicité et un abonnement Pro Search à 20$/mois. La version gratuite offre des recherches rapides illimitées en utilisant un modèle d’IA standard et cinq recherches Pro par jour, traitées avec une plus grande puissance de calcul. L’abonnement Pro débloque des fonctionnalités avancées telles que 600 recherches Pro quotidiennes, le choix entre différents modèles d’IA (GPT-4o, Claude-3, Sonar Large), l’analyse illimitée de fichiers PDF, et la génération d’images.
Les paramètres du profil utilisateur permettent de personnaliser l’expérience utilisateur, en choisissant la langue de l’interface, l’apparence, et même un avatar. De plus, les custom instructions ou instructions personnalisées, permettent d’améliorer et de personnaliser les réponses en fonction des besoins spécifiques de l’utilisateur, de sa langue et de sa localisation. Cette personnalisation améliore la pertinence des résultats et l’adaptent à un contexte professionnel spécifique.
Pour les recherches sensibles ou confidentielles, le mode Incognito s’avère particulièrement utile. Dans ce mode, le fil de discussion n’est pas utilisé pour entraîner les modèles de langage et n’est conservé que pendant 24 heures, sans apparaître dans l’historique des conversations. Il existe également un réglage d’effacement des données entrées dans le paramétrage du compte.
L’analyse de documents PDF et d’images, notamment d’infographies, est une fonctionnalité particulièrement appréciable pour les documentalistes et les veilleurs. Elle permet d’extraire rapidement des informations clés de documents complexes, facilitant ainsi le travail d’analyse et de synthèse.
Déjà abonné ? Connectez-vous...
Dans ce numéro, nous continuons à explorer les défis que représentent pour les professionnels de l’information l’entrée dans l’ère de l’intelligence artificielle, tout en examinant les nouvelles méthodologies, les retours d’expérience et les tendances actuelles qui façonnent nos métiers.
L’émergence des IA génératives, illustrée par le succès fulgurant de ChatGPT, marque un tournant dans nos pratiques. Véronique Mesguich, dans la nouvelle édition de son ouvrage «Rechercher l’information stratégique sur le web», introduit l’impact des IA génératives sur la veille stratégique et la recherche d’information. Si ces outils offrent de nouvelles perspectives d’analyse et de traitement des données, ils nécessitent une approche critique pour éviter les écueils d’informations inexactes ou biaisées.
Le passage d’une «culture de stock» à une «culture de flux» reste un défi majeur, comme le souligne notre article « Adopter une logique de flux... plus facile à dire qu’à faire ». Cette transition n’est pas simplement une tendance, mais une nécessité pour rester pertinents et efficaces. Il s’agit de transformer notre rapport à l’information, en favorisant la capture et l’exploitation en temps réel des données plutôt que leur simple accumulation.
Dans «Bonnes pratiques pour systématiser la surveillance de vos concurrents», nous découvrons des méthodes structurées pour maintenir une veille efficace sans être submergés par l’information. La clé réside dans la sélection rigoureuse des sources et l’automatisation des processus, permettant de se concentrer sur l’analyse et la prise de décision.
L’article «Le jour où j’ai voulu mettre en place une veille collaborative» offre un retour d’expérience précieux sur les défis et les succès de la veille mutualisée. Cette aventure, menée au sein d’une PME, démontre que la mutualisation des efforts peut transformer les pratiques individuelles en intelligence collective, malgré des obstacles organisationnels et humains à ne pas sous-estimer.
Rester agile et professionnel, ce sont deux des nombreux mots clefs qui résument les défis actuels de nos métiers. Face aux transformations, nous sommes invités à nous adapter constamment, à nous former sans relâche et à réinventer sans cesse nos rôles et pratiques au sein des organisations.
À l’aube d’une nouvelle ère de l’information bouleversée par l’intelligence artificielle, Véronique Mesguich nous offre une troisième édition actualisée et enrichie de son ouvrage « Rechercher l’information stratégique sur le web - Sourcing, veille et analyse à l’heure de l’IA », publié chez De Boeck Supérieur.
Cette troisième édition à jour explore l’univers des IA génératives et leur impact sur la recherche d’informations et la veille. On y découvre (après une préface d’Anne Marie Libmann), comment les IA transforment les pratiques de la recherche web, ainsi que des exemples concrets d’utilisation de l’IA pour l’extraction et l’analyse d’informations stratégiques.
L’ouvrage aborde également d’autres méthodes de recherche et de veille, basées sur la maitrise des sources et l’OSINT.
Anne-Marie Libmann : Est-ce que l’introduction des IA génératives dans cette nouvelle édition marque une véritable évolution par rapport à vos précédents ouvrages sur la veille stratégique ? Comment la décrivez-vous ?
Véronique Mesguich : Les grandes mutations arrivent souvent de façon inattendue… C’est le cas des IA génératives illustrées par le succès fulgurant de ChatGPT. Certes, les technologies mises en œuvre ne sont pas si récentes. Les premières IA basées sur les Transformers (cette technologie représentée par le T de GPT et du modèle de langage BERT de Google) sont ainsi apparues il y a plus de cinq ans. Mais le coup de génie d’OpenAI, c’est d’avoir rendu ces modèles de langage très largement accessibles via le principe des robots conversationnels.
Les IA génératives sont ainsi en train de bouleverser nos usages numériques, dans la sphère professionnelle comme dans notre vie quotidienne. Ces IA apportent une véritable disruption que j’explicite dans plusieurs chapitres du livre ; car on peut les appliquer aux différentes phases du processus de veille ou de recherche approfondie.
Les IAG peuvent interpréter (à défaut de comprendre réellement) des requêtes en langage naturel, en toutes langues, générer des réponses plausibles sous forme de texte rédigé et synthétiser en temps réel des réponses provenant de diverses sources. ChatGPT et ses concurrents n’ont pas été conçus comme des outils de recherche d’information, mais peuvent être mis en relation avec des moteurs de recherche ou des bases de connaissance, et jouer le rôle d’assistants personnalisés.
Là encore, l’idée n’est pas si nouvelle : cela fait plusieurs années que les moteurs de recherche (à commencer par Google) ont l’ambition de fournir aux utilisateurs « la » réponse à leurs questions (et non plus seulement des liens vers des réponses censées être pertinentes). Cela est rendu possible par plusieurs évolutions technologiques de ces dernières années : l’essor de l’apprentissage profond (deep learning), l’explosion du volume des données numériques, qui ont pu constituer une matière première pour l’apprentissage, et l’augmentation fulgurante de la puissance de calcul grâce aux processeurs graphiques. Sans oublier, bien sûr, le développement de modèles de langage et d’algorithmes très puissants.
Mais comme souvent, une nouvelle vague ne remplace pas ce qui existait avant : dans cette nouvelle édition, j’évoque largement l’impact des IA génératives sur la recherche et l’analyse de l’information stratégique, mais je détaille également des méthodes, des outils et des sources « classiques » qui demeurent incontournables ! Et j’ai ajouté dans cette troisième édition des nouvelles méthodes et outils d’investigation OSINT.
AML : Quel avenir pour Google, dont la situation semble inquiétante face aux IAG qui bouleversent son business model basé sur la monétisation des contenus référencés ? Comment imaginer l’avenir des moteurs de recherche et des sites en général ?
VM : Je ne me fais pas trop de souci pour la marque Google, même si on n’utilise désormais certainement plus le moteur comme on le fait depuis des années. Avec ses modèles de langage Gemini et Gemma, Google est en train de rattraper son retard par rapport à OpenAI. Des annonces ont été faites récemment concernant la généralisation d’ici la fin de l’année des « AI Overviews » (connus auparavant sous le nom de SGE), sous la forme d’une interface qui fournira des synthèses de réponses directement sur la page des résultats de recherche. Ce qui aura un impact considérable sur l’audience des sites, surtout dans certains domaines.
Pour autant, les débuts ne sont pas faciles : le lancement des AI Overviews a suscité récemment de nombreuses critiques des utilisateurs mécontents de réponses inexactes.
De façon plus générale, il est certain que les IA génératives vont avoir un impact sur l’évolution des interfaces utilisateurs. Par exemple, la navigation classique pourrait être remplacée par des assistants virtuels destinés à générer des réponses ou accomplir des tâches. Le SEO classique sera également impacté : il ne suffira plus de produire du contenu pour correspondre aux algorithmes de classement, mais de faire en sorte que ses contenus soient visibles dans les réponses générées par l’IA.
Ce qui est à craindre à mon sens, c’est la prolifération de contenus sans intérêt, très standardisés (sans parler bien sûr des contenus contrefaits et faux) générés par des IA. On le constate déjà sur le web, les réseaux sociaux… et jusqu’à la production d’articles académiques.
AML : Que penser des récents développements et partenariats entre les éditeurs de contenus et les acteurs de l’IA ?
VM : Les partenariats vont se multiplier… Le partenariat entre Le Monde et OpenAI, en mars dernier, a suscité de nombreuses questions, parmi les journalistes et aussi de la part d’autres médias. Bien sûr, il y a des enjeux financiers importants… et de nombreuses négociations sont en cours actuellement entre des éditeurs de contenus et les acteurs de l’IA, dans le domaine de la presse, mais aussi du droit et d’autres contenus spécialisés.
Il est important que les IA soient entraînées avec des contenus de qualité, et qu’il y ait davantage de transparence dans les sources utilisées, mais quel sera le bénéfice pour les utilisateurs ? Et quel modèle économique ? On risque là encore de se retrouver face à un éparpillement des accès aux contenus.
AML : Avec l’intégration rapide des IA génératives dans les pratiques professionnelles, comment les personnes que vous formez vivent-elles cette transition ? et comment analysez-vous les défis pour les professionnels de l’information ?
Déjà abonné ? Connectez-vous...
Une grande partie de la veille concurrentielle repose sur une surveillance de la presse, du web ouvert et des réseaux sociaux. Mais comment s’y prendre de façon structurée et systématique sans être noyé sous l’information ? Cet article a pour objectif de rappeler aux professionnels tous les flux à identifier pour être sûrs de ne rien laisser passer tout en maîtrisant le volume à traiter.
La première étape consiste évidemment à répertorier la liste des concurrents à surveiller. Dès ce stade, prenez le temps d’associer à chaque concurrent une ou plusieurs zones géographiques.
Il peut s’agir du pays ou de la région d’origine (généralement là où se trouve le siège), mais également et surtout des zones géographiques où la société a une activité : lieux d’implantation des usines, des centres de R&D (en allant si possible jusqu’au nom des villes) et plus globalement les pays ou les régions correspondant aux marchés sur lesquels il est présent et actif.
Pourquoi est-ce important ? Tout d’abord parce que cela va permettre de cibler des sources locales et des langues spécifiques, plutôt que de surveiller tous azimuts. De plus, les acteurs évoluant à l’international peuvent offrir des déclinaisons nationales de leurs sites web et comptes sur les réseaux sociaux, qu’il conviendra éventuellement de surveiller, comme on le verra dans la suite de cet article.
Déjà abonné ? Connectez-vous...
Mettre en place un projet de veille collaborative dans une entreprise où il n’existe pas de service veille et où les collaborateurs ont l’habitude de pratiquer une veille individuelle est un vrai challenge ! Retour sur mon expérience dans une PME, sur les succès, mais aussi les difficultés rencontrées.
Lorsque j’étais en charge de la Documentation d’un bureau d’études technique (130 personnes environ), j’ai tenté d’initier une démarche de veille collaborative avec mes collègues ingénieurs.
J’avais l’intuition que les ingénieurs faisaient de la veille dans leur coin et de mon côté, j’avais l’ambition de développer mon offre de service. Je réalisais jusque-là des activités documentaires traditionnelles (panorama de presse, gestion d’un portail documentaire…) et je souhaitais proposer un service de veille.
Avec l’accord d’un des membres du Comex auquel j’étais directement rattachée, j’ai mené une enquête quantitative auprès de l’ensemble de la société (Direction comprise) sur leurs pratiques informationnelles.
Dans le questionnaire, je demandais notamment aux répondants s’ils pratiquaient une veille et, si oui, sur quels sujets et combien de temps, ils accordaient à cette activité.
L’analyse des résultats de l’enquête m’a conduite à deux grands constats. D’une part, 65 % des répondants pratiquaient en effet une veille individuelle. D’autre part, 76 % se sont déclarés pour la mise en place d’un service de veille centralisé, avec un intérêt marqué pour une veille technique. Les domaines d’activité de ce bureau d’études évoluent vite et les ingénieurs avaient besoin d’être informés au plus vite des expérimentations technologiques, des nouveaux produits des industriels, etc.
Grâce à cette enquête, j’ai obtenu la légitimité nécessaire auprès de ma hiérarchie pour créer un service de veille.
Avec l’accord de la Direction, j’ai mis en place une veille pilote sur la « route intelligente » avec un des trois Départements de la société. Cette veille concernait une dizaine d’ingénieurs-chef de projets et directeurs de projet.
Déjà abonné ? Connectez-vous...
Le numérique a bouleversé les modèles traditionnels de gestion de l’information. Longtemps cantonnés à une approche statique avec des informations stockées sur des supports inertes, les professionnels doivent désormais appréhender un flot continu et dynamique de données. Ce virage vers une « culture de flux » implique une profonde mutation des pratiques.
La nécessité de passer d’une culture de stock à une culture de flux pour les métiers de l’information n’est pas nouvelle, pourtant elle peine toujours à être pleinement embrassée - et pleinement organisée - dans la pratique professionnelle.
En 2013, déjà, Caroline Sauvajol-Rialland, dans son ouvrage « Infobésité, comprendre et maîtriser la déferlante d’informations » (Éditions Vuibert, p.136), précisait : « en situation de surcharge informationnelle, il ne s’agit surtout pas d’archiver pour archiver et de multiplier les copies inutiles, mais de passer d’une logique de stock à une logique de flux, de passer de l’individu, qui porte la connaissance née de l’information, au collectif, qui produit de l’efficacité au sein du collectif ».
Dans la culture de stock traditionnelle, l’information est considérée comme un bien rare à accumuler et à préserver précieusement. Les connaissances sont ainsi rassemblées dans des bibliothèques, des archives ou des bases de données structurées. L’enjeu du documentaliste est ici d’organiser ces stocks pour en maîtriser l’accès et une diffusion contrôlée.
À l’inverse, la culture de flux voit l’information comme une ressource surabondante, renouvelée en continu par un afflux de données fraîches. La valeur réside alors moins dans la rétention que dans la capacité à capter, filtrer et exploiter ces flux en temps réel.
L’attention se déporte des stocks vers les canaux de diffusion dynamiques comme les réseaux sociaux ou les fils d’actualités. Dans ce cas, la donnée se consomme de manière ponctuelle et n’a souvent qu’une pertinence éphémère.
Basculer de paradigme n’est pas aisé. Cela suppose d’abandonner des réflexes ancestraux de thésaurisation pour embrasser la philosophie du flux, l’instantanéité et l’impermanence. Pour collecter, trier, hiérarchiser les informations pertinentes au sein de ces torrents de données, il devient impératif de repenser en profondeur les processus et les outils professionnels.
En termes de méthodologie, cela nous ramène à la constitution d’un « second cerveau numérique », terme popularisé par Tiago Forte qui a créé la méthode CODE (capturer, organiser, distiller, exprimer), comme nous l’avions vu dans NETSOURCES, n° 165, août 2023, consacré à cette problématique. Sans supprimer le stockage, ce dernier ne constitue plus qu’une première étape, sur un chemin de la connaissance qui en comporte trois autres.
Déjà abonné ? Connectez-vous...