Une typologie de la recommandation de contenus sur le Web
Derrière le concept de recommandation se cachent des réalités et des outils très divers.
Nous avons choisi de proposer la typologie suivante à laquelle nous nous réfèrerons tout au long de cet article avec :
- La recommandation automatique de contenu d’une part
- La recommandation humaine d’autre part
- et enfin la personnalisation des résultats et de l’information
La recommandation automatique de contenu
La recommandation automatique de contenu se caractérise généralement par un encadré appelé « vous aimerez aussi », « articles similaires », « sur le même sujet », etc. présent en dessous d’un document ou dans une colonne sur la droite proposant des contenus ou pages similaires à ce que l’on est en train de consulter ou susceptibles de nous intéresser.
Il existe différents systèmes de recommandation automatique de contenu :
- ceux qui se basent sur le contenu lui-même, le contenu textuel, les mots-clés pour proposer des documents, articles traitant de thématiques similaires ;
- ceux qui se basent également sur le contenu mais recommandent des documents similaires à ceux que l’utilisateur a déjà appréciés ou indiqués comme pertinents ;
- ceux qui fonctionnent sur un modèle collaboratif où l’on exploite les comportements ou évaluations d’autres utilisateurs afin de recommander ces mêmes documents à d’autres utilisateurs. Cela peut prendre la forme suivante : « les autres utilisateurs ayant consulté cette page/ce document ont aussi consulté... ».
La recommandation humaine de contenu
Parallèlement à la recommandation automatique, la recommandation humaine tient également une place très importante notamment avec le développement des médias sociaux où tout le monde peut partager des contenus.
On retrouve cette recommandation humaine sur les médias sociaux comme Twitter par exemple où l’on peut trouver de nombreux experts et spécialistes qui partagent des informations et articles sur des thématiques précises mais également sur les outils de curation comme Scoop.it ou les outils de social bookmarking comme Diigo.
La personnalisation de l’information
Enfin, il y a tous ces outils et services qui pratiquent la personnalisation de l’information et des résultats de recherche et qui sont de plus en plus nombreux.
Cela peut être perçu comme une forme de recommandation puisque l’outil affiche des résultats ou envoie une newsletter avec des contenus susceptibles d’intéresser l’internaute. L’outil se base sur ce qu’il sait de l’internaute et/ou sur les thématiques et goûts que l’internaute a renseignés et effectue implicitement une sélection d’information au sein de son index ou corpus.
Sur certains de ces outils, l’utilisateur n’a pas toujours directement conscience que ce qu’il visualise a été personnalisé en fonction de multiples critères sur lesquels il n’a pas la main comme son historique de recherche, ses goûts, ses lectures, sa localisation, sa liste d’amis, etc. C’est par exemple le cas des résultats des moteurs de recherche comme Google ou Bing ou du flux d’information proposé à chaque internaute sur Facebook.
Sur d’autres outils, en revanche, c’est l’internaute qui indique lui-même quelles thématiques il souhaite suivre ou qui entraîne l’algorithme pour améliorer sa pertinence. C’est le cas de tous les outils de curation automatisés ou content/news discovery comme Nuzzel, Flipboard, etc.
La recommandation sur le Web est ainsi de nature multiple mais qu’apporte-t-elle vraiment dans le cadre d’un processus de veille ou de recherche d’information ? Toutes les formes de recommandations proposées par les outils de recherche et sources d’information apportent-ils réellement une valeur ajoutée ou bien s’agit-il de simples « gadgets » pour apparaître dans l’air du temps et pour cibler les internautes ne sachant pas construire des stratégies de recherche élaborées ?
Recommandation de contenu et moteurs de recherche : une histoire qui ne cesse d’évoluer
Les systèmes de recommandation font aujourd’hui partie intégrante des outils grands publics : moteurs de recherche, médias sociaux et même les sites de presse.
Certains proposent des systèmes de recommandation automatique, d’autres de recommandation humaine et d’autres opèrent plutôt une personnalisation des résultats mais on constate que la plupart des outils reposent en réalité sur des approches hybrides combinant les différentes formes de recommandations.
Moteurs de recherche généralistes : personnalisation et sélection implicite de l’information
Les moteurs de recherche Web reposent depuis toujours sur une forme de recommandation, sauf que la recommandation proposée aujourd’hui n’a plus grand chose à voir avec celle proposée il y a vingt ans.
A l’origine, l’algorithme de Google reposait principalement sur le PageRank, « un système développé par les fondateurs de Google qui affecte une « notation » à une page web en fonction des liens externes pointant vers cette page et de la nature et qualité des sites sur lesquels ces liens sont présents » (source : definitions-marketing.com).
Ce principe était inspiré de la démarche, à l’époque déjà classique dans la littérature scientifique, à savoir l’impact du nombre de citations d’un article pour valoriser l’article et ses auteurs.
Ainsi, dans le PageRank de Google, les résultats recommandés sur la première page de résultats dépendaient principalement de la popularité de la page et du site web et des mots-clés présents sur la page.
Si l’internaute consultait l’intégralité des pages de résultats proposées, il visualisait bien, en principe, toutes les pages et contenus répondant à sa requête et présents dans l’index du moteur.
Mais au cours des vingt dernières années, l’algorithme n’a eu de cesse de changer et d’évoluer. Toujours est-il qu’aujourd’hui si le PageRank n’a pas complètement disparu, il occupe une place nettement moins importante. Plus de 200 critères différents interviendraient aujourd’hui dans le classement des résultats sans que l’on sache exactement quels sont ces critères et l’importance accordée à chacun d’entre eux.
On sait ainsi que le comportement, l’historique de navigation ou encore la localisation de l’internaute joue un rôle dans le classement de résultats.
Google personnalise ainsi les résultats de la recherche et surtout, le plus important, c’est qu’on constate qu’il effectue une sélection toujours plus restreinte d’informations et de résultats et ne liste absolument pas toutes les pages Web contenant les mots-clés présents dans la requête et pourtant disponibles dans son index.
Depuis quelque temps, le nombre de résultats réels proposés pour chaque requête ne cesse de diminuer. Il dépasse aujourd’hui rarement les 500 résultats.
Nous avons ainsi voulu le vérifier en prenant pour exemple le nom d’un outil de traduction automatique récent, en l’occurrence Deepl, que nous avions cité plusieurs fois dans un récent billet de blog sur le site de FLA Consultants et, lequel billet, est indexé par Google.
Pour une recherche sur le terme Deepl sur Google, sans limitation de date, de pays ou de langue, Google nous annonce dans un premier temps 406 000 résultats. En nous rendant sur la dernière page, on constate qu’il n’y a en réalité que 171 résultats. Notre billet n’en fait pas partie.
En bas de la dernière page de résultats, Google nous indique « Afin d›afficher les résultats les plus pertinents, nous avons omis quelques entrées qui sont très similaires aux 171 entrées actuelles. Si vous le souhaitez, vous pouvez relancer la recherche pour inclure les résultats omis. ». Nous relançons donc la recherche et obtenons cette fois-ci 399 résultats. Notre billet n’en fait toujours pas partie.
Pourtant, si on entre le titre de notre article dans Google, il ressort bien en première position et si on entre la requête Deepl veille, il ressort cette fois-ci en deuxième position. Preuve que l’article est bien indexé intégralement par Google.
Nous avons fait le test sur Bing, Qwant ou encore DuckDuckGo et le problème est à chaque fois le même.
Une requête sur Obama ne permet ainsi d’accéder réellement qu’à 225 résultats au lieu des 308 millions annoncés initialement. Or il est absolument impossible qu’il n’y ait que 225 résultats pertinents pour une requête comme celle-là. Le nombre de 308 millions paraît beaucoup plus plausible mais il n’y a aucun moyen pour l’internaute de visualiser ces millions de résultats.
Quelle que soit la requête, Google, Bing et les autres effectuent implicitement une sélection de pages qu’ils jugent pertinentes pour l’utilisateur au sein de leurs index. Cela s’apparente à une forme de recommandation mais cela ne lui permet d’en afficher que plusieurs centaines au maximum.
Et l’utilisateur n’a aucun moyen de savoir quels critères ont été pris en compte pour sélectionner ces pages plutôt que d’autres et n’est donc pas maître de sa recherche d’information.
Il est absolument crucial d’avoir conscience de ce biais lorsque l’on réalise une recherche sur Google. Google est passé d’un système de recommandation de contenu basé sur la popularité à un système de personnalisation de l’information où il ne propose qu’une petite sélection de l’information pertinente disponible.
Au-delà de la personnalisation des résultats, le moteur de recherche Web de Google propose également un système de recommandation de contenus similaires accessibles par l’option similar qui se situe à côté de certains résultats ou en utilisant l’opérateur related:, ces deux méthodes permettant d’afficher des sites et pages similaires à celui sélectionné.
Sur ce sujet, nous vous invitons à lire le post de notre blog « Comment trouver des sources et contenus similaires pour enrichir votre veille ? »
Intérêt pour la veille et la recherche
Si la recommandation de contenu via la fonctionnalité similar/related présente un réel intérêt pour la veille et la recherche d’information et permet par exemple d’identifier des sources intéressantes dans lesquelles relancer des recherches ou de compléter son sourcing, la personnalisation des résultats et surtout la sélection opérée par Google et ses confrères présente en revanche un réel problème pour les professionnels de l’information.
En effet, ils ne sont absolument pas maîtres de leur recherche ou de leur veille et n’accèdent jamais réellement à tout l’index de Google.
Dans le cadre d’une recherche sur le Web ouvert et gratuit, Google ne pourra s’avérer suffisant et il faudra également interroger d’autres outils notamment thématiques et professionnels et identifier des sources d’information sur le sujet pour y relancer sa recherche.
Les moteurs d’actualités : même combat
On constate d’ailleurs que le biais de la personnalisation et de la sélection d’information est également présent sur les moteurs d’actualités comme Google Actualités.
Si on effectue, par exemple, une recherche d’information sur le terme cryptomonnaie dans Google et qu’on limite ensuite à l’onglet Actualités, Google nous annonce 125 000 résultats même si on ne peut finalement accéder qu’à 275 d’entre eux.
Si on se rend dans l’interface de Google Actualités et que l’on lance la même recherche au sein de l’interface, nous avons cette fois-ci 20 résultats seulement. En bas de la page, Google nous indique d’ailleurs que « les articles figurant sur cette page ont été sélectionnés et classés de façon automatique ».
Dans les deux cas, on constate que, juste en dessous de certaines actualités, Google propose un lien « tout afficher » qui conduit alors vers une nouvelle page avec des articles portant sur le même sujet.
Lors de notre recherche sur la cryptomonnaie, nous avons ainsi cliqué sur « tout afficher » en dessous d’un article intitulé « Russie : des ingénieurs arrêtés pour avoir miné de la cryptomonnaie ». Nous arrivons alors sur une page avec six articles traitant spécifiquement de cette actualité. Et sur les 6 articles proposés, seul un se retrouvait dans les 275 résultats de notre première recherche et pourtant, tous contenaient bien le terme cryptomonnaie.
Encore une fois, l’internaute n’est absolument pas maître de sa recherche d’information et Google a effectué une sélection implicite qui varie selon l’interface choisie.
Enfin, on signalera que Google Actualités propose également une rubrique Recommandations directement accessible depuis la page d’accueil de son interface. Le contenu n’est accessible que si l’on est connecté aux services de Google et permet d’afficher un flux d’information personnalisé en fonction de critères opaques.
Dans notre cas, les articles recommandés traitaient de tout et de rien allant de la politique aux célébrités en passant par les transports, la musique ou encore des actualités locales sur la ville de Montpellier avec laquelle nous n’avons pourtant aucun lien. Il semble qu’il faille entraîner l’algorithme afin d’obtenir des résultats plus pertinents en indiquant en dessous de chaque actualités si le sujet nous intéresse ou non et en se rendant dans les paramètres pour « gérer les centres d’intérêts ».
Intérêt pour la veille et la recherche : Réaliser une recherche ou une veille média en utilisant Google Actualités a toujours représenté un risque car l’index de Google Actualités n’inclut pas l’intégralité de la presse en ligne et ne permet d’accéder qu’à des contenus gratuits. Le fait que Google Actualités n’affiche qu’une sélection d’articles présents dans son index, sélection qui diminue d’ailleurs au fil du temps, ne fait qu’accroître encore un peu plus ce risque.
Au-delà du contenu textuel : les moteurs de vidéos et d’images et la recommandation
Bon nombre de moteurs de vidéos ou d’images proposent des systèmes de recommandation automatique de contenus comme Google Images, YouTube, Bing Images, etc.
Sur Google images par exemple, lorsque l’internaute clique sur l’un des résultats, il voit alors s’afficher dans une nouvelle fenêtre une liste d’images similaires. Il en est de même sur Bing Images.
Bing va encore plus loin, en permettant de sélectionner une zone dans l’image (pour se focaliser sur un objet par exemple) et en relançant la recherche pour visualiser des contenus similaires et associés à cet objet.
Les plateformes de vidéos comme YouTube, Dailymotion fonctionnent sur le même principe et proposent systématiquement des vidéos jugées similaires ou reliées à celle en cours de visionnage.
Intérêt pour la veille et la recherche : Dès lors que l’on doit effectuer une recherche d’images ou de vidéos sur ces outils, la recommandation de contenu enrichit sans aucun doute la recherche. On peut ainsi identifier des images ou vidéos similaires qui n’apparaissaient pas nécessairement dans la liste de résultats et même découvrir des contenus et thématiques reliés auxquels on n’aurait pas nécessairement pensé.
Médias en ligne : la recommandation de contenus pour valoriser leur contenu interne
S’il y a bien un autre secteur où la recommandation a pris beaucoup d’ampleur, c’est du côté des médias notamment sur leurs sites Web.
Sur la grande majorité des sites de presse, on trouve différents niveaux de recommandations.
Il y a tout d’abord les contenus sponsorisés appelés de manière trompeuse « recommandations de contenu » fournis par des prestataires comme Outbrain, Taboola ou encore Ligatus. Mais il ne s’agit en réalité ni plus ni moins que de publicités ciblées dont les contenus n’ont généralement rien à voir avec le sujet de l’article consulté.
Ces contenus n’ont donc aucun intérêt dans un contexte professionnel.
Mais on trouve également souvent en bas des articles des encadrés « sur le même sujet », « et aussi », « à lire aussi », « dans la même rubrique », etc.
Intérêt pour la veille et la recherche : Les personnes n’ayant pas accès à des outils de recherche professionnels comme les agrégateurs de presse pourront tirer parti de ces recommandations et pourront ainsi découvrir des contenus pertinents n’apparaissant pas nécessairement via les outils de recherche grand public.
Pour les personnes disposant d’accès à des outils de recherche payants, l’intérêt sera plus limité car une bonne recherche sur ces outils leur aura déjà permis de repérer tous les articles pertinents en lien avec leur requête. Cela pourra néanmoins s’avérer utile pour des sources non indexées dans ces outils.
D’autre part, on a pu voir apparaître récemment, avec l’important développement de l’intelligence artificielle, des chatbots de recommandation de contenu proposés par les éditeurs de presse.
Le Monde, par exemple, a conclu un partenariat avec Jam, un éditeur de chatbot, pour proposer Jamnews, un chatbot permettant aux utilisateurs de Messenger sur Facebook de recevoir 5 articles par jour publiés par le Monde. Ce service vise plutôt les jeunes (16-30 ans) et ne propose pour le moment que peu de personnalisation puisque les cinq articles proposés sont tout simplement les cinq articles les plus partagés au cours des dernières 24 heures.).
Aux Etats-Unis, CNN propose, de son côté, un chatbot disponible sur Messenger capable de proposer des contenus/ articles basés sur les préférences de l’utilisateur et son activité passée.
Intérêt pour la veille et la recherche : Pour le moment, il s’agit ici avant tout de « gadgets » qui n’ont pas d’intérêt dans un cadre professionnel et exigeant.
Les médias sociaux reposent sur un principe de recommandation de contenus
La recommandation est au cœur des médias sociaux. Nous avons choisi ici d’analyser les principaux médias sociaux utilisés dans des contextes de veille et de recherche d’informations.
Twitter : de la recommandation humaine à la personnalisation
Twitter fonctionne avant tout sur un modèle de recommandation humaine. De nombreux utilisateurs y partagent en effet des contenus repérés sur le Web en lien avec leur thématique de prédilection. Et cette recommandation humaine est extrêmement précieuse.
Sur bon nombre de sujets et secteurs d’activité, on arrive à identifier des experts, influenceurs ou passionnés partageant de l’information qualifiée et pertinente.
Intérêt pour la veille et la recherche : Analyser et suivre ces comptes représente aujourd’hui une valeur ajoutée certaine pour la veille et la recherche d’information quel que soit le domaine ou secteur d’activité.
Il faut cependant trouver le bon équilibre pour ne pas suivre tous les comptes spécialisés sur une thématique mais uniquement ceux qui détectent des informations vraiment nouvelles et ne se contentent pas de retweeter les autres utilisateurs, publient régulièrement et ne polluent pas leur flux Twitter avec des contenus personnels ou hors-sujet.
On trouve également sur Twitter une couche de recommandation automatique de contenu avec le module Suggestions disponible sur toutes les pages donnant accès à des recommandations de comptes à suivre. Mais ces recommandations sont personnalisées et dépendent exclusivement des abonnements dont on dispose déjà.
On notera également que Twitter envoie régulièrement par email des suggestions de contenus à lire et de comptes à suivre. Enfin, quand on se connecte à la page d’accueil de son compte Twitter, il est très fréquent qu’il ajoute un encadré « au cas où vous l’auriez manqué » avec des suggestions de contenus publiés récemment par les comptes que nous suivons.
Mais toutes ces recommandations n’ont d’intérêt que dans le cadre d’une veille métier car elles dépendent entièrement de ses contacts, abonnés, abonnements sur les médias sociaux.
Ainsi, si notre compte Twitter tourne essentiellement autour de la veille et les bibliothèques avec des abonnés et abonnements issus majoritairement de ce milieu, les recommandations seront toutes liées à cette thématique. Et si on effectue par exemple une recherche sur un sujet complètement différent comme la cryptomonnaie, Twitter nous propose bien 3 comptes liés à cette thématique. Mais dès que l’on clique sur « tout afficher » pour visualiser plus de suggestions, l’intégralité de la liste est composée de comptes liés à la veille ou aux bibliothèques.
Intérêt pour la veille et la recherche : Ce module de suggestions est certes utile pour découvrir des comptes pertinents avec sa thématique de prédilection ou son secteur d’activité mais n’aura aucune utilité pour explorer un sujet nouveau ou un secteur d’activité en dehors de son champ habituel, ce qui est pourtant un cas fréquemment rencontré par les professionnels de l’information.
Et l’idée de créer un nouveau compte Twitter à chaque fois que l’on doit explorer ou mettre en place une veille sur un nouveau sujet n’est pas vraiment envisageable et surtout très chronophage.
Enfin, Twitter propose également une couche de personnalisation du flux d’information présent sur la page d’accueil de l’utilisateur en affichant en premier les tweets considérés comme les plus pertinents pour l’utilisateur. Mais le critère de sélection reste opaque.
Intérêt pour la veille et la recherche : Fort heureusement, on peut désactiver la personnalisation du flux dans les paramètres de son compte, ce que nous recommandons.
LinkedIn : la recommandation au service de la détection de contenus et de personnes
La recherche de personnes est au cœur de LinkedIn. Quand on consulte un profil de personne ou d’entreprise, on dispose d’un module « autres pages consultées » correspondant aux autres pages consultées par les internautes ayant également consulté la page sur laquelle on se trouve actuellement.
On constate cependant que la qualité de la recommandation est très variable d’une page à l’autre.
Pour les groupes, LinkedIn propose également une rubrique « Découvrir » avec toute une liste de groupes susceptibles de nous intéresser. Cette liste est liée à son propre profil et dépend donc uniquement des thématiques associées à son profil et des thématiques des groupes auxquels on est déjà abonné. Impossible donc d’obtenir des recommandations sur des sujets en dehors de notre champ d’action habituel ou liés à une recherche précise.
Enfin, on dispose également d’une couche de recommandation humaine avec les contenus partagés par ses propres contacts et qui apparaissent dans son flux et d’une couche de personnalisation du flux d’information en raison du classement par pertinence opéré par défaut par l’algorithme.
Encore une fois, on conseillera de privilégier le classement chronologique. Et cela n’aura d’intérêt que dans le cadre d’une veille car il est impossible d’effectuer la moindre recherche sur les contenus partagés par ses contacts.
La recommandation chez Facebook, Pinterest, Instagram et les autres
Le principe-même de Pinterest repose sur le partage humain de contenus visuels. Cette recommandation humaine peut encore une fois s’avérer très riche sur certaines thématiques.
D’autre part, sur Pinterest, lorsque l’on clique sur un Pin (nom donné aux contenus publiés sur le réseau social d’images), on voit alors apparaître toute une liste de suggestions de contenus jugés similaires (« more like this »). Et depuis quelques mois, Pinterest a lancé une fonctionnalité appelée « Lens » qui permet de pointer l’appareil photo de son téléphone sur un objet ou produit pour visualiser instantanément des objets et contenus similaires présents sur Pinterest.
Cette recommandation automatique de contenu peut également apporter une réelle valeur ajoutée dans certains cas.
Sur Facebook, la personnalisation est reine. Impossible de savoir précisément pourquoi il affiche les contenus publiés par certains contacts et pas d’autres. D’autre part, quand on effectue une recherche dans le moteur, le classement des résultats est tout autant un mystère. Pour interroger Facebook, il est d’ailleurs préférable de recourir à des outils externes comme Inteltechniques.com par exemple.
Enfin sur Instagram, on dispose d’une rubrique « Explore » qui permet de découvrir des contacts et des contenus très consultés et commentés.
Si la veille et la recherche d’information sur Twitter et LinkedIn est aujourd’hui pertinente et utile dans bon nombre de secteurs d’activité, c’est moins le cas de Facebook, Pinterest ou Instagram. On vérifiera au cas par cas s’il y a un intérêt à suivre et interroger ces médias sociaux.
Des outils de social bookmarking aux outils de curation et de news/content discovery automatisés
Parallèlement au développement des réseaux sociaux comme Twitter, Facebook, etc., on a pu voir apparaître dans les années 2005/2006 les outils de social bookmarking comme Delicious, Diigo, Netvibes(pour les pages publiques) ou encore Stumblupon, très appréciés des professionnels de l’information où les internautes pouvaient stocker, classer et partager publiquement leurs signets.
Le principe était donc celui d’une recommandation humaine.
Dans les années 2010, l’heure n’était plus au social bookmarking mais à la curation et les outils qui n’avaient pas disparu ont pour la plupart décidé de se rebaptiser « outils de curation ». D’autres ont également vu le jour comme Scoop.it, Pearltrees, Paper.li, etc.
Ces outils reposaient essentiellement sur une recommandation de contenus humaine mais on commençait déjà à voir apparaître la recommandation automatique et la personnalisation de l’information délivrée.
C’est le cas de Paper.li par exemple qui fournit une sélection de contenus en lien avec des mots-clés ou thèmes entrés par l’utilisateur et permet d’associer ses différents comptes sur les médias sociaux afin de visualiser une sélection de contenus publiés par ses contacts sur ces différents réseaux. Cette sélection automatisée est ensuite publique mais l’utilisateur a tout de même la possibilité de déplacer et supprimer certains contenus. Malgré cette part d’automatisation, tous les contenus fournis restent reliés à une personne identifiée, en l’occurrence l’utilisateur du service, ce qui n’est plus le cas de tous les outils qui ont vu le jour par la suite.
Et cette tendance vers l’automatisation n’a cessé de s’accentuer au fur et à mesure des années avec le développement d’outils de curation en grande partie automatisés aussi appelés outils de content discovery ou news discovery, magazines intelligents, magazines personnalisés, agrégateurs d’actualités ou de news, etc.
Si les appellations diffèrent, ils revendiquent finalement tous la même chose : lutter contre l’infobesité et délivrer clé en main l’information pertinente à leurs utilisateurs.
On est cependant en droit de douter...
Ces outils sont nombreux et on trouve différents cas de figure :
- les outils qui exigent de relier ses comptes Twitter, Facebook, LinkedIn, etc. et qui envoient ensuite automatiquement des contenus liés à ce qu’il sait de l’internaute (contenus similaires aux comptes qu’il suit déjà, contenus partagés par des amis d’amis, etc.)
- les outils qui demandent à l’internaute d’indiquer les thématiques qui l’intéressent, de créer une requête par mot-clé
- les outils auto-apprenants où il est nécessaire d’entraîner l’algorithme à détecter ce qui nous intéresse en indiquant ce qui est pertinent et ce qui ne l’est pas.
- les outils qui mêlent en amont curation automatisée et humaine
Les outils liés aux comptes sur les médias sociaux
Dans la première catégorie, on trouve des outils comme Nuzzel, d’ailleurs assez utilisé par les professionnels de l’information.
Nuzzel envoie quotidiennement une newsletter qui reprend les liens les plus partagés par ses amis et contacts sur Twitter et sur Facebook mais également les liens les plus partagés par les amis de ses amis.
Intérêt pour la veille et la recherche : Comme l’outil se base exclusivement sur les comptes et abonnements dont on dispose sur les médias sociaux, il pourra avoir un intérêt dans le cadre d’une veille métier permettant de mettre en évidence les informations qui suscitent le plus d’intérêt dans son secteur et de découvrir des idées et tendances venant de personnes que l’on ne suit pas habituellement.
Dans un billet de blog « Why Google Alerts AND RSS Feeds AND Nuzzel? » publié récemment sur le site https://researchbuzz.me, l’auteur résumait bien l’intérêt de tels outils : « Google alertes est intéressant pour le passé et le présent, les flux RSS pour le présent et le futur proche. Mais pour apprécier et découvrir ce que je ne sais pas et ce que je sais que je ne sais pas, j’ai besoin de Nuzzel ».
Les magazines automatisés
Dans la deuxième catégorie, on trouve des outils comme Flipboard et NewsRepublic.
- Flipboard, qui se définit comme un outil permettant de créer des magazines personnalisés et des « magazines intelligents » basés sur la recommandation de contenus
- NewsRepublic : une application mobile qui permet de recevoir des actualités personnalisées en fonction de ses intérêts et propose des articles similaires et des articles liés à celui que l’on est en train de consulter
Intérêt pour la veille et la recherche : Seul problème, ces outils ne permettent pas de surveiller des sujets précis et pointus. Ils proposent généralement quelques thématiques larges comme Technologie, Politique, Science, etc. mais on ne pourra pas aller plus loin. Leur utilité est très limitée dans un contexte de veille.
Les outils hybrides
On trouve également des outils qui mêlent ces deux approches : contenus liés à ses comptes Twitter, Facebook et requêtes sur mot-clé et thématiques.
C’est le cas de :
- Drum Up, un outil de recommandation où l’utilisateur crée des requêtes par mots-clés et se voit suggérer des contenus récents en lien avec cette thématique ; il peut aussi relier ses différents comptes sur les médias sociaux pour recevoir des recommandations liées à ses thématiques de prédilection.
- Refind, qui fonctionne sur le même principe avec une sélection d’informations liées aux personnes qu’il suit, aux mots-clés et centres d’intérêt qu’il a renseignés et aux éditeurs et sources d’informations qu’il suit.
Intérêt pour la veille et la recherche : Nous avons fait quelques tests sur ces deux outils et nous avons eu le sentiment que les contenus qui nous étaient proposés étaient issus d’un corpus assez restreint, venant essentiellement de grandes sources d’informations comme le New York Times, Le Monde, Le Figaro et que nous les aurions de toute façon identifiés d’une autre manière.
Les outils « auto-apprenants »
Enfin, on trouve les outils « auto-apprenants » comme Zuperlist ou Flint.
Le premier s’appelle Zuperlist et se définit comme un « lecteur de flux intelligent ». Son créateur, un développeur roumain, indique avoir voulu combiner les points forts des lecteurs de flux RSS avec ceux des outils de news discovery.
L’utilisateur peut tout d’abord sélectionner des thématiques qui l’intéressent, qui, comme sur les autres outils, restent très larges (Technologies, Politiques, etc.) et entrer aussi ses propres sources. L’outil indique mettre en avant les informations les plus proches de ses centres d’intérêts. Et au sein de ce flux d’information, l’outil propose également des recommandations en provenance de sites que l’on ne suit pas, et les informations les plus partagées sur des sites que l’on ne suit pas.
Lors de nos quelques tests, nous avons été quelque peu déroutés par la présentation des résultats ; par ailleurs, les recommandations étaient assez éloignées de nos centres d’intérêts et ne permettaient pas de cibler des sujets et thématiques très précis.
Il existe une version d’essai gratuite pendant 30 jours et l’abonnement est ensuite à 5$/mois.
On citera enfin Flint qui se définit comme « une newsletter personnalisée confectionnée avec amour par des intelligences artificielles ».
Face aux fameuses bulles de filtres, Flint aurait pour mission de fournir une autre forme de tri et des contenus plus pointus. Il a cependant besoin d’un peu d’entraînement pour s’améliorer en lui indiquant ce qui est effectivement pertinent et ce qui ne l’est pas.
Seul problème, on ne peut pas le personnaliser avec une requête en entrant des mots-clés ou sites et pages qui nous intéressent. Il nous propose une liste d’articles sur des sujets divers et variés et il faut ensuite lui indiquer lesquels sont pertinents ou non. Et cela peut durer des heures. Après avoir coché si l’article était intéressant ou non pour plus de 100 résultats, nous avons arrêté là l’expérience. Dans les jours qui ont suivi, nous avons reçu notre newsletter personnalisée avec des articles qui étaient bien pertinents mais aussi des articles en dehors de nos centres d’intérêts.
Intérêt pour la veille et la recherche : Ces outils « auto-apprenants » ont encore du chemin à faire avant d’être complètement aboutis et véritablement utiles dans un contexte de veille et de recherche professionnelles.
Quand les outils de curation réintègrent de l’humain
Enfin, il y a une catégorie d’outils plus intéressante qui mêle automatisation, sélection et analyse humaine comme Curationcorp.
Curationcorp produit des newsletter thématiques (une vingtaine pour le moment) sur des sujets précis comme les robots et les drones, l’asset management, la santé digitale, le futur du transport ou encore la blockchain. Tous les contenus sont validés et contextualisés par les curateurs de CurationCorp.
Factiva a d’ailleurs conclu un partenariat avec la société en octobre dernier. Les contenus de Factiva répondants aux thématiques suivies par CurationCorp seront filtrés automatiquement puis lus et résumés par l’équipe de curateurs.
Nous l’avons testé sur l’un des sujets pendant plusieurs mois et avons apprécié la qualité des articles sélectionnés et les résumés qui en étaient faits. On constate d’ailleurs que de nombreux contenus proviennent de sources payantes. Mais au bout de 4 mois, nous avons reçu un email nous indiquant qu’il allait falloir passer à une offre payante pour continuer à recevoir les contenus. Nous avons alors reçu la liste de tous les contenus qui nous avaient été fournis au cours des 4 mois et nous avons été invités à indiquer lesquels nous avions trouvés les plus pertinents et à contacter la société afin d’avoir une offre commerciale sur mesure.
Et du côté des outils professionnels pour la veille et la recherche d’information ?
Nous avons ensuite cherché à savoir si les systèmes de recommandation avaient également fait leur chemin du côté des outils de recherche et de veille professionnels comme les agrégateurs de presse ou encore les outils et plateformes de veille.
Du côté des agrégateurs de presse
Pour les agrégateurs de presse, nous sommes allés regarder du côté des principaux acteurs du domaine : Pressedd (permettant d’interroger plusieurs milliers de titre de presse française), Factiva ou encore LexisNexis avec Newsdesk (qui permettent d’interroger, entre autres, plusieurs dizaines de milliers de titres de presse du monde entier).
Sur Factiva, on constate qu’en bas de chaque article visualisé, on dispose d’une fonctionnalité « articles connexes » avec une liste de 20 articles maximum traitant du même sujet. Les quelques tests que nous avons effectués ont montré que la pertinence des articles connexes était très variable d’une requête à l’autre. A notre sens, cela n’apporte pas de réelle valeur ajoutée à la recherche elle-même.
Sur Newsdesk (LexisNexis), nous n’avons pas trouvé de système de recommandation d’articles similaires.
Chez Pressedd, la recommandation n’est pas présente et il n’est pas prévu qu’elle le soit un jour. Selon Charles Patou, Directeur de produits chez EDD, la recommandation de contenus est même contraire au modèle de Pressedd. EDD a fait le choix d’un contenu payant et ciblé dès le départ, d’un moteur de recherche puissant permettant à ses utilisateurs de retrouver précisément les articles et informations dont ils ont besoin et de pouvoir interroger l’intégralité de leur corpus.
Et s’il y a besoin d’une sélection d’informations, on n’a pas encore trouvé mieux que l’humain et le cerveau pour le réaliser. C’est pour cette raison qu’ils ont une équipe de professionnels de l’information capable de réaliser des panoramas de presse.
Du côté des bases de données scientifiques, techniques et académiques
La recommandation de contenu s’est développée ces dernières années du côté des bases de données et outils de recherche scientifiques, techniques ou encore académiques. Le sujet étant vaste, nous avons choisi de développer cet aspect dans un prochain numéro de BASES.
Les outils de veille et la recommandation
On pourrait également être tenté de penser que les outils dits de « veille » (plateforme de veille, lecteurs de flux, etc.) proposent des systèmes de recommandation de contenu basés sur les contenus et pages consultés par leurs utilisateurs ou sur les sources surveillées. Cela pourrait avoir un véritable intérêt pour détecter de nouvelles sources et enrichir son sourcing ou pour détecter de nouvelles tendances et sujets à mettre sous surveillance.
On entend régulièrement parler des concepts de « veille cible » et « veille radar » développés par le consultant et blogueur Christophe Deschamps.
Dans le cas de la « veille cible », le veilleur identifie des sources pertinentes et les met sous surveillance. La « veille radar » a pour but de faire sortir le veilleur de sa bulle informationnelle en faisant remonter des contenus en dehors de son champ de veille habituel et découvrir de nouveaux horizons informationnels.
Et c’est cet aspect-là que les systèmes de recommandation de contenu pourraient permettre de développer chez les outils et plateformes de veille.
Nous avons donc contacté plusieurs acteurs importants du monde des outils de veille pour savoir ce qu’ils proposaient en la matière ou si c’était quelque chose qui était en projet.
Chez KB Crawl, il existe tout d’abord une forme de recommandation humaine : le veilleur sélectionne l’information pertinente dans l’outil de surveillance de pages KB Crawl et la publie dans la plateforme de diffusion KB Platform.
Ensuite, KB Platform offre des possibilités de suggestion d’articles et ce, sous différentes formes :
- suggestions portant sur les articles les plus lus ;
- suggestions portant sur les articles les plus aimés ;
- suggestions portant sur la similarité des articles (articles ayant été taggués de la même façon que l’article en cours de lecture par l’utilisateur) ;
- suggestions grâce aux entités nommées (noms de personnes, noms de lieux et noms d’organisations). A la lecture d’un article, KB Platform se charge d’identifier automatiquement l’ensemble des entités nommées et les propose à l’utilisateur qui pourra les exploiter comme filtre de recherche.
- tendance de thématiques. Dans le module de Data Visualisation il existe une option afin de visualiser les thématiques du moment en rapport avec un contexte de recherche (entités et mots-clés les plus cités)
- nuages de tags présentant les tags les plus fréquents et possibilité de visualiser les articles associés.
Mais toutes ces suggestions sont liées aux contenus déjà sélectionnés par le veilleur et basculés dans la plateforme.
Toutes les plateformes de veille reposent d’ailleurs sur un principe de recommandation humaine : le veilleur sélectionne l’information pertinente au sein du corpus qu’il surveille ou pré-intégré à la plateforme et recommande des contenus pertinents, contextualisés et analysés au client final via le livrable qu’il a choisi (newsletter, alerte, dashboard, plateforme de diffusion, etc.).
Tous les dashboards et plateformes de diffusion offerts par ces outils proposent ensuite une forme de suggestion de contenus au travers des filtres, nuages de tags, etc. Mais dans la plupart des cas, ces suggestions se basent sur le contenu déjà présent dans la plateforme et issu de leur propre corpus.
Du côté de Digimind, Christophe Asselin, nous a ainsi indiqué que les outils Digimind ne proposaient pas actuellement de systèmes de recommandation automatique de contenus « mais une prochaine version d’un projet plus large intégrera une forme de recommandation. »
Brandwatch propose un système de recommandation automatique de contenu depuis peu suite au rachat de Buzzsumo en octobre 2017. Buzzsumo est une plateforme lancée en 2014 permettant de trouver et visualiser des influenceurs et les contenus les plus partagés sur les médias sociaux.
Chez Sindup, la recommandation automatique de contenus existe pratiquement depuis le lancement de la plateforme. Sindup propose en effet depuis 2010 un module auto-apprenant appelé FilterLive offrant de la recommandation de contenus, sur le modèle de ce que peuvent proposer les sites d’e-commerce. Ce module est intégré par défaut à la plateforme.
Son utilisation requiert un effort d’entraînement de l’algorithme en amont afin de lui fournir une base d’exemples, indiquer précisément quels types d’information on souhaite obtenir et ce qui est considéré comme pertinent ou non.
Différents niveaux de paramétrages sont disponibles permettant d’obtenir aussi bien des recommandations très similaires aux informations déjà sélectionnées ou bien en élargissant son spectre à des sujets connexes. Et si cette fonctionnalité était peu utilisée au moment de son lancement, Mickaël Réault, CEO de Sindup nous indiquait qu’elle était de plus en plus exploitée par ses clients, ce qui s’explique par le fait que la recommandation automatique de contenus s’est démocratisée au cours des dernières années, ce qui n’était pas encore le cas en 2010.
Chez Talkwalker, on nous a indiqué qu’il n’y avait pas de système de recommandation automatique de contenus à l’heure actuelle.
Enfin, nous sommes également allés faire un tour du côté des lecteurs de flux RSS les plus utilisés pour la veille comme Feedly ou Inoreader. Ces deux outils proposent des fonctionnalités de recommandations de flux similaires permettant ainsi de découvrir des sources sur les mêmes sujets que celles déjà intégrées dans l’outil.
Sur Feedly, quand on visualise le contenu d’un flux, on dispose d’un encart « you might also like » listant quelques flux jugés similaires.
Sur Inoreader, la fonction « flux similaires » est accessible par un clic droit depuis une source déjà intégrée dans l’outil.
La recommandation est déjà présente d’une manière ou d’une autre chez la plupart des outils de veille mais on pourrait aller encore plus loin pour détecter des sources, contenus et concepts en dehors de son champ de surveillance habituel. Avec le développement massif de l’intelligence artificielle, ces systèmes devraient continuer à se développer et s’améliorer dans les années à venir.
Conclusion
Il est aujourd’hui difficile de faire l’impasse sur la recommandation de contenu. Mais ce n’est pas parce qu’un outil ou une source propose des systèmes de recommandation que cela présente nécessairement un intérêt dans un contexte de veille et de recherche d’information.
Sur les moteurs de recherche qui proposent toujours moins de résultats à l’internaute et personnalisent de plus en plus la liste de résultats, tirer parti des fonctionnalités de recommandation de contenus suggérant des contenus similaires présente un intérêt car cela permet de découvrir des contenus pertinents n’apparaissant pas nécessairement dans la liste de résultats.
Les algorithmes de recommandation pourraient ainsi combattre en partie la bulle de filtre que les grands acteurs du Web ont eux-mêmes créée. Cela pourrait même permettre de réintroduire une forme de sérendipité1dans la recherche Web elle-même.
Les évolutions des moteurs obligent donc à repenser sa façon d’interroger les moteurs.
Si cela fait déjà bien longtemps que la recherche sur le Web n’est plus complètement linéaire, la personnalisation et sélection des résultats et le développement de systèmes de recommandation ne fait qu’accentuer cette non-linéarité.
Fini le temps où l’on entrait une longue requête booléenne et où l’on consultait la seule liste de résultats. Il faut aujourd’hui éviter ces longues requêtes avec l’opérateur OR et procéder par « tâtonnement » en testant différentes requêtes, en réorientant la recherche en fonction de ce que l’on a trouvé pour approfondir certaines pistes, en tirant parti des systèmes de recommandation, des liens hypertextes, etc. On a ainsi vite fait de s’éloigner considérablement de la liste de résultats initiale.
Sur les médias sociaux, on constate que c’est finalement la recommandation humaine qui a toujours le plus de valeur dans un contexte de veille et de recherche. Les systèmes complètement automatisés sont mêmes souvent en totale contradiction avec l’essence du métier de professionnel de l’information. Ils font finalement son travail mais en beaucoup moins bien...
Et sur les outils professionnels qui ont déjà un corpus qualifié et qui ne pratiquent pas une sélection implicite de l’information, le développement des systèmes de recommandation pourrait permettre de sortir le veilleur du périmètre de veille qu’il connaît et qu’il maîtrise, en lui permettant de découvrir de nouvelles sources, détecter de nouveaux signaux et de nouvelles tendances et concepts qu’il ne connaît pas encore. Et cette « veille radar » est aujourd’hui la plus difficile à mettre en place.
Au final, on constate que malgré le développement massif de l’intelligence artificielle et des solutions automatisées, l’humain n’a jamais été aussi important et a encore de beaux jours devant lui. Une bonne nouvelle pour les professionnels de l’information !
- 1 « En recherche documentaire, la sérendipité pourrait se résumer à l’art de trouver la bonne information par hasard ou le fait de trouver par hasard sur internet une information que l’on ne cherchait pas grâce à la faculté de rebondir de liens en liens. » (source : Sérendipidoc.fr)