Les outils de veille et de recherche professionnels face à la fiabilité des sources

Carole Tisserand-Barthole

Netsources no

140

publié en

2019.05

1972

Acheter ce no

Nous avons interrogé les principaux acteurs sur le marché français.

Des approches différentes pour des outils aux finalités différentes

La question de la désinformation et des fausses informations rejoint un concept crucial et presque « ancestral » pour les professionnels de l’information : celui du sourcing et de la constitution du corpus sur lequel on effectue ses recherches. Rappelons que le sourcing, une des premières étapes de la veille, consiste à identifier les sources les plus pertinentes à mettre sous surveillance.

Dans un processus de veille, qu’elle soit stratégique, concurrentielle, d’innovation, d’image, etc., il est généralement nécessaire d’associer deux approches : d’une part en identifiant une liste de sources pertinentes à mettre sous surveillance (on parle ici de sourcing) et d’autre part, en utilisant et en mettant des alertes sur des outils qui ratissent plus largement le Web afin de détecter régulièrement de nouvelles sources à intégrer à son sourcing ou de nouvelles tendances et angles d’attaque susceptibles d’impacter sa veille.

Les outils de recherche et de veille professionnels sur le marché sont de natures très différentes : difficile de mettre sur le même plan un agrégateur de presse, un serveur scientifique et des plateformes de veille et de social media monitoring.

Et ces positionnements distincts les conduisent à proposer des approches très différentes en matière de constitution de corpus et d’évaluation des sources.

Ainsi, les agrégateurs de presse, serveurs et bases de données traditionnelles ont toujours basé leur modèle sur la constitution d’un corpus fiable et de qualité avec des contenus de presse, de littérature scientifique et académique, de rapports et études de marché, de données financières, etc.

Les plateformes de veille quant à elles, ont débuté avec un positionnement «uniquement Web ouvert», avec des sources librement accessibles en ligne et pas nécessairement simples à évaluer. A l’origine, les outils et plateformes de veille traditionnelles comme KB Crawl, Digimind Intelligence, Website Watcher, etc. ou tout simplement les lecteurs de flux RSS laissaient cette phase de sourcing à la charge de leurs clients. Les utilisateurs étaient en charge de l’identification des sources qu’ils allaient intégrer dans leurs outils. Si les lecteurs de flux RSS ou les outils de veille bon marché ou artisanaux fonctionnent encore essentiellement sur ce modèle, les plateformes de veille payantes ont souvent choisi soit d’intégrer un corpus de sources par défaut ou la possibilité pour l’utilisateur de charger en option des packs de sources.

Enfin, les plateformes de social media monitoring, plus récentes, qui se concentrent sur les médias sociaux au sens large (réseaux sociaux, sites d’actualités, blogs, forums, etc.) ont toujours proposé des corpus de sources les plus larges possibles combinant des contenus très hétérogènes.

On le voit bien, l’importance donnée à la fiabilité des sources et des contenus n’était initialement pas la même selon les différents outils. Mais cela s’expliquait aussi par le type de veille et de recherche visé.

En effet, si dans un contexte de veille concurrentielle, scientifique ou d’innovation, il est crucial de disposer de sources fiables et de qualité, ce n’est clairement pas le but recherché dans un contexte de veille d’image ou de contrefaçon. Tous les contenus, qu’ils soient faux ou issus de sources douteuses méritent alors d’être identifiés.

Mais la mise en lumière des fake news depuis quelques années a conduit bon nombre des différents acteurs à repenser leur stratégie et leur positionnement en matière de fiabilité des sources.

Voyons donc maintenant quelles sont aujourd’hui les différentes approches proposées par les principaux outils de recherche et de veille professionnels.

Les agrégateurs de presse, serveurs et bases de données traditionnels : la fiabilité et la sélection avant tout

Comme on pouvait s’en douter, le positionnement des agrégateurs de presse, serveurs et bases de données traditionnels repose toujours sur la constitution de corpus de sources fiables et de qualité. C’est de toute façon leur marque de fabrique et ils auraient tort d’en changer.

Et même si, comme nous avons pu le voir précédemment dans NETSOURCES, ces acteurs élargissent leurs sources à des contenus Web et médias sociaux (intégration de blogs, sites Web, comptes sur les médias sociaux pour les agrégateurs de presse par exemple ou contenus en open access pour les serveurs et bases de données scientifiques, etc.), il y a toujours une sélection et validation des sources en amont.

Du côté de Newsdesk (LexisNexis) par exemple, qui permet de faire des recherches et des veilles sur plus de 75.000 titres et sites web provenant de sources variées : presse internationale, locale, communiqués de presse, etc., Farida Semmar, Responsable Global Content nous indiquait :

« Nous privilégions les partenariats de contenus ayant de la valeur stratégique pour les entreprises et organisations avec lesquelles nous travaillons. Nous collaborons avec des éditeurs fiables et faisant autorité dans les différents pays où ils opèrent. »

De plus,

« Notre plateforme permet d’ores et déjà de distinguer les contenus que nous avons via des partenaires vérifiés et sous licence des contenus issus du web gratuit et ou de réseaux sociaux. »

En se rendant sur Newsdesk, on constate ainsi les sources mises à disposition sont classifiées en catégories selon une note de fiabilité allant de 1 à 10. La presse traditionnelle PRINT ou en ligne est notée 1 tandis que les blogs étrangers qui n’ont pas fait l’objet de vérification sont notés 10.

Même son de cloche du côté de Factiva dont la stratégie est même clairement mise en évidence dès la page d’accueil du site :

« Une équipe d›une centaine de spécialistes identifie, analyse et intègre dans Factiva le contenu de près de 33 000 sources premium et réputées provenant du monde entier. »

Ainsi, même les sites Web ou blogs intégrés à la plateforme sont sélectionnés et évalués avant d’être intégrés au corpus.

Malgré cette constante, les agrégateurs de presse n’hésitent pas à intégrer quelques sources « non fiables » mais pouvant néanmoins avoir un intérêt dans certains contextes comme la veille d’image, tel que Press’edd qui a par exemple choisi d’intégrer des sites satiriques comme le Gorafi ou Nordpresse, mais en les catégorisant clairement comme tels.

D’autre part, certains de ces acteurs réfléchissent également à des solutions pour mieux appréhender la désinformation. Toujours chez Press’edd, Charles Patou nous indiquait ainsi que « concernant le fact checking, les fake news et les deep fake, nous travaillons depuis plusieurs mois à la constitution d’une solution innovante que nous présenterons prochainement ». A suivre donc !

Les bases de données de données et serveurs académiques ou scientifiques, continuent également de proposer des corpus de sources soigneusement sélectionnés. Peu de chances donc de retrouver des revues prédatrices (voir glossaire) dans Scopus, Web of Science, STN ou encore Proquest Dialog même s’il existe de rares témoignages où ces acteurs auraient réussi à se faire piéger et ont dû faire le ménage.

Les plateformes de veille traditionnelles : des modèles très différents

Du côté des plateformes de veille traditionnelles Web comme Digimind Intelligence, MyTwip, Sindup, Ixxo ou encore KB Crawl, on constate en revanche que les approches diffèrent.

Certains ont choisi de conserver l’approche traditionnelle des outils de veille où l’utilisateur lui-même est responsable de l’évaluation des sources à l’image de MyTwip (Coexel) où :
« la gestion des sources est assurée par les utilisateurs eux-même. Mais lorsque l’utilisateur ajoute une source, il a la possibilité d’en qualifier (NDLR : manuellement) la pertinence » Vincent Boisard - Coexel

D’autres proposent des corpus très larges avec des sources de qualité et de fiabilité diverses pour pouvoir répondre aux différents besoins propres à chaque type de veille mais en misant sur une catégorisation des sources pour aider l’utilisateur à distinguer les différents types de sources comme Sindup par exemple :

« Toute source est susceptible d’être intégrée à Sindup. En effet, selon le type de veille réalisée cela peut toujours faire sens. Cependant sa qualification doit permettre de l’intégrer sans qu’elle parasite les veilles qui n’en n’ont pas l’utilité. C’est pourquoi chaque source est associée à un grand type de sources. Ensuite les sources vérifiées se voient attribuer un score de confiance plus ou moins élevé, ce paramètre n’est pas visible par les utilisateurs mais utilisé par certains algorithmes, notamment dans le dédoublonnage, pour mettre plus en avant des sources vérifiées d’une part et pour en tenir compte dans l’importance de tel ou tel sujet.Enfin, les sources réseaux sociaux et web peuvent également être qualifiées au travers du module « Influenceurs ». Dans ce cas le niveau d’influence et le positionnement de la source sont automatiquement attribués aux informations qu’elles publient.» Mickaël Réault - Sindup

D’autres en revanche, ont choisi une approche qui s’apparente davantage à celle des agrégateurs de presse avec une évaluation des sources en amont et en aval comme Ixxo par exemple :

« Les panels de sources IXXO font l’objet d’un comité de sélection interne. Pour intégrer ces panels partagés, un critère retient en premier lieu notre attention : la source doit être considérée comme une référence incontournable du domaine visé, autrement dit, elle fait autorité dans le domaine. En complément, chaque client a la possibilité de créer ses propres panels de sources, en toute autonomie, pour répondre à ses besoins. Les panels créés par des clients ne sont pas partagés avec la communauté.Aujourd’hui nous laissons chaque veilleur attribuer une note de fiabilité à une source et à une information, et ce a posteriori. La plateforme IXXO se charge de vérifier automatiquement la fiabilité technique d’une source. Les sources validées apparaissent en vert lors de l’analyse des résultats. A moyen terme, l’apport de l’intelligence artificielle couplée à « nos big data » nous permettront de donner une note a priori. Elle restera indicative, et le chargé de veille pourra la modifier. » Louis-Marc Perez - Ixxo

Dernière approche, celle de Digimind qui a ainsi décidé de développer un partenariat avec une start-up spécialisée dans l’évaluation des sources, TrustedOut dont nous aurons l’occasion de reparler dans la suite de ce numéro.

« Nous intégrons la plupart des sources, sauf si on peut détecter en amont qu’elles sont manifestement du spam par exemple. Dans un second temps, ces sources vont être filtrées pour identifier le spam résiduel, puis classées selon notre propre «ranking» qui est basé sur un calcul entre l’audience (nombre de visiteurs) et l’Alexa Rank (classement mondial du site). Pour les news, blogs, forums et autres sites, il s’agit d’un calcul entre l’audience et Alexa Rank. Pour les media sociaux, différents critères vont être utilisés selon les plateformes entre le reach, l’engagement (ou d’autres éléments propres comme les listes Twitter par exemple). Ce système de ranking permet à l’utilisateur final de définir le seuil de confiance qu’il souhaite, plutôt que de filtrer de manière trop subjective les sources en amont. Enfin lorsque nous travaillons avec des partenaires, ceux-ci ont leur propre manière d’aborder la sélection et le classement des sources. Dans ce cas il s’agit d’une relation de confiance entre Digimind et le partenaire, comme dans le cas de TrustedOut.Les sources TrustedOut viennent donc s’intégrer comme un pack de sources complémentaire, qui peut être au choix intégré dans la veille globale ou bien sur un flux séparé. Cela reste à la discrétion de l’utilisateur en fonction de l’usage qu’il va en faire.Avec les sources supplémentaires telles que TrustedOut, nous pouvons ajouter un tagging (avec une couleur par exemple) qui viendra s’ajouter sur chaque news remontée par ce type de source. Ce comportement est natif dans Digimind et très facile à mettre en place. » Aurélien Blaha, Digimind

Les plateformes de social media monitoring proposent depuis toujours des corpus très larges et disparates car elles s’adressent avant tout aux professionnels du marketing et de la communication qui veulent analyser la présence des marques sur le Web et réaliser des veilles d’images. Et dans ce cas précis, la fiabilité d’une source n’est pas l’élément le plus important.

Mais là encore, différentes approches coexistent.

Certains ont préféré laisser l’évaluation des sources aux utilisateurs eux-mêmes. C’est le cas de Visibrain même si les sources et contenus explicites sont néanmoins filtrés en amont :

« Visibrain est avant tout une plateforme de veille des réseaux sociaux (notamment Twitter, Facebook & Instagram), sans notion de source : l’utilisateur rentre un mot-clé et Visibrain veille l’ensemble des contenus publics disponibles sur le réseau social en fonction du mot-clé, quel que soit l’auteur.Pour les contenus web (blogs par exemple), la volonté de Visibrain est d’intégrer le maximum de sources possibles.Nous ne prévoyons pas d’intégrer un système de notation des sources.L’utilisateur de Visibrain peut utiliser notre système de filtres génériques pour effectuer ses propres catégorisations s’il le souhaite. » Jean Christophe Gatuingt - Visibrain

D’autres comme Meltwater, plutôt que de s’attaquer à l’évaluation des sources à proprement parler, se sont focalisés sur l’évaluation des émetteurs, notamment sur les médias sociaux.

« Notre plateforme ne propose pas à l’heure actuelle de système pour évaluer la fiabilité d’une source presse (fake news) mais nous sommes capables d’estimer la fiabilité d’un profil sur les médias sociaux (Ex : Twitter, Instagram, Facebook, YouTube) grâce à un algorithme (qui analyse son audience, engagement, reach réel, followers etc.) et permet ainsi d’évaluer les différents profils. » Paul louis Valat - Meltwater

Brandwatch a quant à lui privilégié l’association à des partenaires extérieurs, en l’occurrence Storyzy dont nous reparlons dans la suite de ce numéro.

On citera enfin Talkwalker, qui s’est tourné vers le développement d’un « Credibility Index » en interne pour évaluer les sources.

« Notre nouvel index de crédibilité va aider nos clients à éliminer les fake news potentielles. Un peu comme notre filtre anti-spam et anti-pornographie, il identifie les sources suspectes grâce à notre AI Engine, à travers une analyse poussée du réseau et des communautés et leur attribue une note de 0 (pour une source sûre) à 100 (pour une source fortement suspecte). Ces critères sont toujours liés à la source et jamais au contenu.D’un point de vue technique/produit, cette fonctionnalité peut être activée via les «Project Settings». Cela permet de filtrer (exclure) les sources considérées comme risquées au niveau du projet entier. Il est également possible d’avoir le même type de procédé en utilisant l’opérateur booléen NOT fakenewslevel:>= 50 par exemple. Nos clients peuvent également mettre en place des alertes pour les prévenir si leur marque est mentionnée par l’une de ces sources. » Sarah Saupin - Talkwalker

Les approches des différents acteurs de la recherche et de la veille évoluent rapidement et il est donc très important de suivre toutes ces évolutions.

Précédent 201 / 353 Suivant

L’intelligence économique commence par une veille intelligente

Les outils de veille et de recherche professionnels face à la fiabilité des sources

Nous avons interrogé les principaux acteurs sur le marché français.

Des approches différentes pour des outils aux finalités différentes

Les agrégateurs de presse, serveurs et bases de données traditionnels : la fiabilité et la sélection avant tout

Les plateformes de veille traditionnelles : des modèles très différents

Menu principal

L’intelligence économique commence par une veille intelligente

Les outils de veille et de recherche professionnels face à la fiabilité des sources

Nous avons interrogé les principaux acteurs sur le marché français.

Des approches différentes pour des outils aux finalités différentes

Les agrégateurs de presse, serveurs et bases de données traditionnels : la fiabilité et la sélection avant tout

Les plateformes de veille traditionnelles : des modèles très différents

Les outils de Social Media Monitoring : également des approches très différentes

Menu principal