Médias et IA : ce que cela change pour la veille

Céline Boileau

Netsources no

167

publié en

2023.12

6704

Acheter ce no

Impacts sur la recherche

Des médias moins visibles dans les résultats des moteurs de recherche

Mais le contenu généré par IA commence aussi à concurrencer les médias sous une autre forme : des sites entièrement créés par IA s’invitent en effet dans les résultats des moteurs de recherche. Leur contenu, écrit pour correspondre aux règles actuelles de SEO, serait même mieux référencé que celui des médias. Récemment, le service américain de notation de l’actualité NewsGuard a identifié près de 600 sites Web (ils étaient 49 en mai dernier) qui fonctionnent avec peu ou pas d’intervention humaine. Et un site généré par l’IA produit jusqu’à 1200 articles par jour, contre 100 pour Le Monde ou 250 pour le New York Times ! Certains sont même financés par la publicité.

Les médias ont donc raison de craindre une baisse de leur propre trafic, qui provient à plus de 90 % de Google. Pour la veille, cela signifie davantage de difficultés à trouver certains contenus en provenance de médias pertinents, soudainement noyés dans des pseudos sites d’actualités générés par l’IA, mais difficiles à identifier, car ils reprennent les codes graphiques des sites d’actualités. Ce qui nécessite donc davantage de rigueur encore en phase de sourcing.

En revanche, pour le veilleur, les transcriptions de podcasts et de vidéos par les médias en format texte, consultable par les moteurs de recherche comme Google et Bing pourrait ainsi signifier de nouveaux résultats de recherche enrichis de ces transcriptions (enfin !).

La recherche au sein des sites médias

Mais d’autres initiatives en matière de recherche ont aussi lieu, à l’échelle individuelle de quelques médias : l’arrivée des chatbots au sein même des sites médias. En août dernier, un chatbot basé sur l’IA a été ajouté aux sites Macworld, PCWorld, Tech Advisor et TechHive. Ces derniers voulaient créer un chatbot « digne de confiance » (donc sans erreurs, sans citer de sources inexistantes ou inventer de fausses informations plausibles) pour répondre aux questions techniques en se fondant uniquement sur les articles des rédactions. Le chatbot, baptisé Smart Answers, apparaît dans presque toutes les pages des sites. Mais malgré des mois d’entraînement, le chatbot répond souvent, au mieux, qu’il ne sait pas/n’a pas assez d’information, y compris en cas des requêtes simples comme « quand est sorti le dernier produit Apple ? » ou « qui est le PDG de TikTok ? ». Au moins, n’invente-t-il pas juste pour avoir une réponse.

De son côté, Forbes dispose également, depuis peu, de son propre chatbot de recherche IA : Adelaide, dont il vient de sortir une version bêta (voir Figure 1). Les veilleurs peuvent donc poser des questions spécifiques (au-delà des mots-clés !) ou saisir des sujets généraux et obtenir des articles recommandés sur leur requête, ainsi qu’une réponse résumée à leur demande si elle a été couverte par la version américaine Forbes sur les douze derniers mois. Bien qu’Adélaide soit le premier outil d’IA générative construit par Forbes, le média avait développé d’autres outils dopés à l’IA depuis 2019.

Figure 1 : Résultat d’une question posée à Adelaide, le chatbot du média américain Forbes.

Impacts sur la collecte

Personnalisation des formats

Enfin, le veilleur commence à voir le même contenu sous différents formats. L’IA générative permet en effet une plus grande personnalisation à moindre coût, quitte à créer un « canal personnel » pour chaque utilisateur. Les médias peuvent alors créer plusieurs formats pour la même actualité : du texte uniquement, du texte et des images, des vidéos uniquement, du texte et des vidéos, du contenu immersif, etc. Et ils peuvent en générer uniquement la partie résumé, un article complet ou un rapport complet de cinq pages. Différents systèmes de formatage permettent à chaque élément de contenu d’être livré de la manière dont chaque utilisateur souhaite le recevoir. Pour l’heure on voit de plus en plus souvent la mention « Écouter cet article ». C’est le cas avec CB News depuis 2022 (voir Figure 2), Numérama depuis 2021. De son côté, Le Monde diplomatique propose à ses abonnés une sélection de ses articles, lus par des comédiens, tandis que Le Monde propose d’écouter les articles diffusés sur son appli La Matinale depuis un an.

Jusqu’ici, l’expérience n’est pas toujours concluante : les voix ressemblent encore à des robots et s’il est possible « d’écouter un article », on ne peut généralement pas exporter le format audio et le séparer de l’article pour la collecte ou l’intégration dans un livrable.

L’exploitation des données collectées pourrait aussi conduire à un système de recommandation d’actualités en fonction des profils de chaque lecteur, notamment en termes de format.

Figure 2. CB News propose d’écouter ses articles via un player au-dessus de ses articles.

Les actualités personnalisées avec l’IA en fonction de la langue et des préférences du lecteur (y compris le style) pourraient également permettre d’élargir son sourcing aux médias étrangers par exemple, affranchissant le veilleur (et le destinataire de sa veille), de la barrière de la langue. Le tout pour un coût de diffusion négligeable pour le média.

Personnalisation du contenu

Depuis le début des années 2000, l’IA est utilisée pour étudier et prédire le comportement des lecteurs dans le but d’optimiser la monétisation en personnalisant le contenu.

Avec l’IA, l’entreprise de médias belges, Mediahuis, expérimente la personnalisation des paywalls appliquée aux articles d’actualité, ce qui a un impact sur le style de la page d’accueil, le public cible, l’émotion invoquée et les articles anciens proposés à la lecture. Pour éviter de créer des bulles de filtres, le média travaille sur la recommandation d’autres sujets. L’algorithme peut aussi recommander des actualités positives avant que le public ne soit submergé par les nouvelles négatives. De son côté, Aftonbladet, qui travaille avec l’IA depuis sept ans, utilise également l’IA pour personnaliser et segmenter sa page d’accueil en fonction du public.

Grâce à leurs données, le cluster norvégien de médias Media City Bergen s’est ainsi rendu compte que les 18-30 ans ont du mal à comprendre l’actualité, car ils ne connaissent pas le contexte, alors même qu’ils en sont très friands. L’équipe a créé un outil qui identifie les sujets difficiles et les mots inhabituels utilisés dans le jargon journalistique. Elle a ensuite imaginé une « micro fact box », une petite boîte qui se déroule lorsque l’utilisateur clique sur les mots mis en évidence dans l’article. Le lecteur a ainsi le choix d’en savoir plus ou de continuer sa lecture. S’il est identifié comme jeune ou nouvel abonné, il se voit présenter davantage de définitions.

Le South China Morning Post (SCMP) a également mis en place un algorithme de recommandation, pour sélectionner ses articles de la section « Lire aussi ». Cela lui permet d’explorer le site du média plus en profondeur qu’un rédacteur. À l’occasion de cette mise en place, l’équipe a aussi découvert que les articles les plus sollicités provenaient de n’importe quelle autre section du site Web et n’étaient pas du tout liés à la première histoire, et plus encore s’il était placé au milieu et non en bas de l’article comme c’est le cas généralement, ce qui a considérablement stimulé la consommation de contenu. De quoi nourrir l’idée d’un contenu algorithmique de plus en plus aléatoire.

Autre initiative originale de personnalisation, celle du New Yorker, qui vient d’imaginer un « générateur de Une », prénommé Till-E. C’est un générateur d’image. Après un test avec Till-E, ce dernier nous propose de créer nous-mêmes le visuel de Une.

Impacts sur l’analyse

Une analyse plus rigoureuse devant la baisse de la qualité

Le veilleur est aux premières loges pour juger de l’impact de l’inondation d’informations bon marché sur la qualité globale du contenu sur le web. Une tendance contraire est également possible avec un regain d’intérêt pour le « vrai » et le journalisme professionnel. D’autant qu’en réduisant les coûts de production pour tous, les outils IA effacent l’avantage compétitif des entreprises qui misaient sur les coûts bas.

Jusqu’à présent, les expériences des médias qui ont remplacé les journalistes par des robots se sont révélées infructueuses, comme en témoignent les déboires de CNET, Gizmodo ou quelques autres, dont les articles « synthétiques » (produits par une IA), truffés d’erreurs, ont dû être corrigés après publication.

La question de la qualité du contenu se pose avec d’autant plus d’acuité pour le veilleur que l’arrivée des IA génératives pourrait bien fragiliser encore davantage le modèle des médias. Car l’IA a un coût d’infrastructures, de développement et d’exploitation, et ce coût est supporté non par les médias, mais par une poignée d’entreprises technologiques puissantes telles que Google, Microsoft ou Amazon Web Services (AWS). Ces mêmes entreprises, qui contrôlent déjà le marché de la publicité en ligne et des canaux de distribution, pourraient dès lors prendre le contrôle des moyens de production des médias. Avec tous les risques qui en découlent, de l’absence de contrôle technologique à des failles de sécurité pour la protection des sources en passant par une adoption de valeurs et de logiques propres à ces plateformes, comme une quantification et un mode de commercialisation de l’information contraires aux valeurs traditionnelles des médias.

Une analyse facilitée par les résumés

En revanche, une autre tendance déjà très concrète dans les titres de presse fait déjà gagner un temps inestimable aux veilleurs dans leur travail de sélection des articles : les résumés et les synthèses. Il est de plus en plus courant en effet de voir les résumés des articles, non seulement dans ses plateformes de veille ou ses lecteurs de flux, mais au sein même des médias.

Figure 3 : Le média norvégien VG met ses résumés à l’honneur.

Les résumés sont l’une des utilisations de l’IA les moins risquées pour les médias, car ils fonctionnent à partir d’un contenu spécifique et peuvent être aisément vérifiés par les rédacteurs. En France, Numérama propose un résumé de ses articles, réservé à ses adhérents.

Le tabloïd scandinave Aftonbladet utilise ainsi l’API d’Open AI pour produire des résumés. Au départ, ils étaient disponibles à la demande (il fallait cliquer pour les consulter) mais le succès, notamment auprès des jeunes, a été tel qu’aujourd’hui ils apparaissent d’office en haut des articles. Un résultat similaire a été observé vers davantage d’engagement chez le plus grand média de Norvège, VG. Ici il s’agit d’un petit texte de présentation en haut de l’article et les utilisateurs cliquent pour afficher le résumé complet (voir Figure 3). Créé à l’aide de ChatGPT-3, il est précisé que le résumé a été validé avant publication par les journalistes de la rédaction. Car les recherches montrent que si un lecteur lit la version courte d’une histoire, il est plus susceptible de lire l’article en entier.

Notre avis

Toujours en quête d’exhaustivité, le veilleur peut ainsi redouter que l’algorithme, qui choisit pour lui ce qui l’intéresse, passe des plateformes aux médias eux-mêmes. Dans ce cas, chaque personne verra des articles différents sur un même site de presse. Toutefois, l’Europe pourrait être un cas à part et relativement protégé, puisqu’avec la législation européenne, les médias consultés en Europe pourraient devoir, a minima, laisser le choix de la lecture algorithmique ou non à leurs lecteurs/auditeurs.

Précédent 72 / 367 Suivant

L’expertise humaine qui donne du sens à l'IA