Pourquoi a-t-on besoin d’antériorité dans la veille ?
Le besoin d’antériorité se fait déjà sentir lors la mise en place d’une veille et de la phase de sourcing.
Il est nécessaire d’effectuer des recherches d’information rétroactives pour cibler au mieux son sujet, repérer les angles importants, déterminer les principaux termes associés à son sujet et réaliser un état des lieux complet avant la mise sous surveillance.
Et pour le sourcing, ces recherches vont permettre de détecter les sources les plus pertinentes ayant traité de ces questions par le passé.
Mais le besoin d’information ponctuelle ne s’arrête pas à cette simple phase de mise en place. Il est récurrent et peut intervenir à tout moment dans le processus de veille. Il peut s’agir de :
- retrouver une information que l’on a vu passer dans sa veille il y a quelque temps mais que l’on n’avait pas jugé pertinent de sélectionner à l’époque et qui a désormais une certaine résonnance et pertinence ;
- la découverte d’un nouvel axe de veille avec un besoin d’en savoir plus sur cet aspect en remontant sur les derniers mois ou dernières années ;
- la découverte d’un nouvel entrant, concurrent pour lequel on souhaite dresser une fiche/étude détaillée ;
- etc.
Outils de veille et outils de recherche professionnels : des frontières plus perméables
Il y a encore une dizaine d’années, les outils de veille présents sur le marché, essentiellement des outils et plateformes de surveillance de pages et lecteurs de flux RSS n’étaient pas véritablement dimensionnés pour conserver une quantité importante d’archives des sources et pages qu’ils surveillaient ou bien ces archives étaient très limitées dans la durée.
Les outils de veille n’étaient bien souvent que des outils de veille au sens strict du terme.
Et il était alors inenvisageable d’utiliser les outils de veille pour effectuer des recherches d’informations ponctuelles. Il fallait se tourner vers d’autres outils comme les moteurs de recherche, les bases de données, serveurs ou encore agrégateurs de presse.
Mais aujourd’hui le paysage a bien changé et les frontières deviennent plus perméables...
Comme nous l’avons déjà mentionné à plusieurs reprises dans NETSOURCES, on assiste à une convergence progressive des plateformes de veille professionnelles et des bases de données et agrégateurs de presse professionnels. Les plateformes de veille ont beaucoup amélioré leurs fonctionnalités de recherche et de filtres et commencent à intégrer autre chose que le Web ouvert et gratuit et notamment des contenus payants. Et comme nous le verrons par la suite dans cet article, ces plateformes proposent de plus en plus des backdata, soit des données rétrospectives et des fonctionnalités voire même des outils de recherche ponctuelle.
Et de l’autre, les bases de données et agrégateurs de presse intègrent de plus en plus de fonctionnalités de veille Web, d’analyse et élargissent progressivement leurs contenus à des contenus Web et médias sociaux à l’image de LexisNexis avec Newsdesk ou Europresse (qui a d’ailleurs été racheté récemment par Cision, une plateforme de social media monitoring).
Une dégradation des outils de recherche Web et médias sociaux
Quand il s’avère nécessaire de réaliser des recherches d’information rétrospectives sur le Web ou les médias sociaux, les outils de recherche classiques comme les moteurs de recherche Web généralistes ou les moteurs spécialisés sur les médias sociaux sont de moins en moins adaptés.
D’une part, les moteurs de recherche Web tels que Google et Bing se transforment progressivement en « moteurs de réponses », ce qui répond certes mieux aux problématiques de l’internaute lambda dans sa vie quotidienne mais ce qui génère une réelle dégradation pour la recherche dans un cadre professionnel. Il n’existe malheureusement aucune alternative crédible sur le créneau des moteurs de recherche Web généralistes à l’heure actuelle.
D’autre part, les principaux médias sociaux restreignent de plus en plus l’accès à leurs plateformes à des applications tierces. Ce qui oblige donc souvent à se rendre sur l’interface-même du média social pour y effectuer la recherche. Le moteur de recherche et les fonctionnalités de recherche associées y sont parfois très pauvres... (sur ce sujet, voir l’article suivant « Recherche sur les réseaux sociaux : quelles solutions gratuites ? » dans ce même numéro).
A l’inverse, on ne manque pas de ressources qualifiées pour les recherches d’information sur la presse avec les agrégateurs de presse qui ne cessent de s’améliorer et d’élargir leur couverture ou les publications scientifiques et académiques avec les serveurs et bases de données traditionnels. Au-delà de la recherche ponctuelle, ces outils permettent d’ailleurs de réaliser de très bonnes veilles sur leurs contenus depuis déjà de très nombreuses années.
Pour pallier les défaillances et limites des outils de recherche Web et sur les médias sociaux, les plateformes de veille et de social media monitoring pourraient-elles devenir des outils de recherche à part entière ? Va-t-on finalement parvenir à un modèle où les plateformes vont regrouper au sein d’un même outil, un outil de veille et un outil de recherche et combiner pleinement ces deux activités ?
Nous avons donc contacté une dizaine de plateformes très présentes sur le marché français pour savoir ce qu’elles avaient à offrir en matière d’antériorité. L’utilisateur peut-il effectuer des recherches rétrospectives ? Ces recherches portent-elles uniquement sur les contenus indexés par l’outil à partir de la mise en place de la veille par le client ou bien cela va-t-il bien plus loin avec de véritables outils de recherche Web et Web social globaux proposant une antériorité de plusieurs années ?
Que proposent les outils et plateformes de veille en matière d’antériorité ?
Le cas particulier des agrégateurs de presse qui développent des solutions de media / social media monitoring
Parallèlement aux plateformes de veille que nous détaillerons ci-dessous, il existe un cas particulier qu’il convient d’aborder : les agrégateurs de presse tels LexisNexis ou Europresse qui ont développé ces dernières années de nouveaux produits ou ont élargi leurs produits existants pour en faire des outils de veille et de recherche multi sources (presse, Web, médias sociaux, TV/radio).
LexisNexis par exemple, traditionnellement connu pour son agrégateur de presse Nexis qui permet d’effectuer des recherches d’information sur les contenus sous licence comme la presse papier et en ligne propose depuis maintenant 5 ans en parallèle un autre produit appelé Newsdesk. Cette plateforme se définit comme un outil de media monitoring qui n’a pas vocation à proposer une antériorité aussi vaste et complète que Nexis mais se positionne plutôt comme une plateforme de veille multi sources (contenus sous licence, actualités, web, médias sociaux, blogs, TV/radio, etc.).
Newsdesk inclut par exemple, en option, les réseaux sociaux Instagram, YouTube, Twitter, Facebook, Dailymotion ou encore Pinterest.
Et pour ce qui est de l’antériorité, Newsdesk offre 5 ans d’archives pour les contenus sous licence et généralement 100 jours par défaut sur les autres contenus mais cela peut varier d’une source à l’autre(pour Twitter par exemple, il est possible de remonter beaucoup plus loin).
Et à travers Newsdesk, on bénéficie également de la puissance d’interrogation et de l’expertise historique de LexisNexis en matière de recherche d’information professionnelle.
Venons en maintenant aux plateformes de veille et de social media monitoring au sens classique du terme.
Archives et antériorité : une réelle préoccupation pour les éditeurs de veille
Huit éditeurs de veille parmi les plus importants ont accepté de répondre à nos questions. Il est intéressant de constater qu’il existe de grandes variations selon les différents outils. Pour certains, les données historiques et archives liées aux veilles sont automatiquement incluses à l’abonnement alors que pour d’autres, il s’agit d’une option payante. Certains permettent de retrouver des informations parues avant même la mise en place de la veille et certains ont même développé des produits parallèles, semblables à des moteurs spécifiquement dédiés à la recherche d’information ponctuelle.
Nous avons fait le choix de classer les plateformes par ordre alphabétique.
On rappellera également que toutes ces plateformes proposent des fonctionnalités de recherche avancées répondant aux besoins des professionnels de l’information : opérateurs booléens, troncature, opérateur de proximité, respect de la casse pour certains, etc. et proposent de nombreux filtres… Tous ces outils proposent des fonctionnalités plus avancées que ce que peuvent proposer les moteurs de recherche Web classiques.
D’autre part, on précisera que tous ces acteurs accordent une grande importance à la question du copyright même si ce sujet ne sera pas traité dans cet article.
Digimind : des données historiques et un moteur dédié
Chez Digimind, il existe deux possibilités pour effectuer des recherches d’antériorité :
- Historical Data, qui est une option payante par mois et par requête et qui est limitée aux requêtes créées dans la plateforme de social media monitoring Digimind Social, la plateforme de social media monitoring. L’utilisateur peut donc accéder aux données historiques de sa veille avec une antériorité d’un an sur Twitter et un mois sur Facebook.
- Historical Search: une nouvelle plateforme complémentaire à Digimind Social qui va être lancée dans les semaines à venir, payable en une fois qui permet de réaliser un nombre de recherches illimitées avec une antériorité de 2 ans sur Twitter et Facebook. Dans ce cas, l’outil ne se limite pas aux requêtes créées dans Digimind Social.
On constate donc que Digimind, à l’image de ses concurrents comme Sysomos, Talkwalker ou encore Linkfluence a choisi de lancer un nouveau produit dédié à la recherche d’information ponctuelle.
L’antériorité proposée est cependant plus grande que chez ses concurrents : 2 ans contre 12/13 mois en moyenne.
Keywatch : la recherche rétroactive « en standard »
La plateforme de veille KeyWatch développée par iScope permet d’effectuer recherches rétroactives « en standard » et offre une capitalisation des données dans le temps sans limite de volume.
La collecte de données anciennes est possible avec KeyWatch dès lors qu’elles existent au format électronique (les communiqués de presse d’entreprises via les archives de leurs sites web par exemple, etc.).
L’antériorité proposée dépend seulement de l’existence de l’information sous forme électronique (il est ainsi possible de récupérer via iScope des articles scientifiques publiés dans les années 1950 par exemple). Il suffit que l’information soit accessible électroniquement et qu’elle ait donc été capitalisée par iScope ou par des tiers ou qu’elle soit accessible aujourd’hui sur Internet (sur un site web ou via des moteurs comme Google, moteurs de bases de données, Wayback Machine, etc.).
Cela varie considérablement d’une source à l’autre : tous les tweets peuvent potentiellement être récupérés depuis la création du site alors qu’inversement, aucun post Snapchat ne peut l’être.
Meltwater : une rétroactivité qui dépend du type de contenu et un moteur dédié
Chez Meltwater, les recherches rétrospectives sont également possibles et dépendent du type de contenu.
Pour les contenus médias et presse, Meltwater propose une rétroactivité complète de 5 ans, sans contraintes de volume.
Pour les contenus réseaux sociaux (Twitter, Facebook, Instagram, YouTube, Blogs, avis consommateurs, forums et commentaires), il propose une rétroactivité de 15 mois, sans contraintes de volume. Les recherches remontant à plus de 15 mois sont susceptibles d’être incomplètes.
Le contenu sur Twitter, Instagram et YouTube n’est stocké que lorsqu’une recherche est mise en place par l’un des clients existants. Cependant pour la majorité des recherches, il y aura souvent du contenu historique déjà présent car Meltwater compte près de 30 000 clients dans le monde réalisant des recherches sur les médias sociaux.
Meltwater propose également un produit spécifique dédié à la recherche d’information ponctuelle avec Sysomos Search. On rappelera que Meltwater a racheté Sysomos, une plateforme de social media monitoring en avril dernier.
Sysomos Search permet de réaliser des recherches rétrospectives exhaustives sur le corpus de Sysomos sur les 13 derniers mois, soit Facebook, Instagram, Twitter, YouTube, les news, forums et blogs.
Sysomos et Meltwater peuvent être utilisés séparément mais il y a bien sûr des synergies en termes de données et fonctionnalités.
MyTwip : 12 millions de données sur les dix dernières années
La plateforme de veille MyTwip développée par Coexel, que nous aurons l’occasion de présenter en détail dans un prochain numéro propose un fonds documentaire de 12 millions de données qui remonte sur les 10 dernières années et permet de formaliser sa requête avant de l’élargir aux moteurs de recherche.
Une fois la veille mise en place et le paramétrage réalisé, MyTwip assure un stockage des données sur toute la durée de l’abonnement sans limitation de volume. L’antériorité est variable selon les sujets et selon les fonds documentaires spécialisés proposés (Aéronautique, Santé, Agro, etc.).
Lors de la mise en place de la veille, pour les sources structurées, les équipes de MyTwip appliquent les requêtes en dynamique et récupèrent les derniers contenus proposés avec un historique de quelques mois par défaut mais avec la possibilité de charger l’ensemble des données antérieures si besoin.
Sindup
Mickaël Réault de Sindup nous a indiqué que Sindup « n’était pas positionné sur les recherches rétrospectives en dehors bien entendu des veilles mises en place par nos clients qui historisent les résultats dans la durée. ».
Talkwalker : plateforme et moteur dédié
Pour Talkwalker, nous avions déjà eu l’occasion d’aborder cet aspect dans le dernier numéro de NETSOURCES lors de la présentation de l’outil Quick Search.
On rappellera donc que, dans la plateforme de veille Talkwalker, les clients peuvent avoir accès au maximum à 2 ans d’archives mais il y a une limite mensuelle, au-delà de laquelle les données sont facturées en plus de l’abonnement. Ces données sont liées aux veilles qui ont été mises en place par le passé, elles ne couvrent donc pas tous les sujets ni tous les secteurs d’activité.
D’autre part, en février dernier, Talkwalker a annoncé le lancement d’un nouveau produit appelé Quick Search, qui se définit comme un moteur de recherche permettant d’interroger avec une antériorité de 13 mois les medias sociaux, sites d’actualités, blogs et forums.
Il est disponible sur abonnement pour 500 euros par mois soit comme un produit à part soit comme un add-on pour les clients de la plateforme.
Visibrain : une antériorité plus grande depuis peu
Visibrain permet de retrouver des données historiques sur n’importe quel sujet et il n’existe pas de limite dans le volume de données stockées.
L’antériorité proposée est de plusieurs années et varie en fonction du type de sources :
- pour les médias : depuis 2012
- pour Twitter : depuis 2006 (à partir du premier tweet)
- pour Facebook : sur les 30 derniers jours
Si Visibrain ne travaille pas sur un produit de type « search » à l’image des moteurs dédiés que nous avons présentés précédemment, la question de l’antériorité occupe cependant une place importante dans leur stratégie et ils viennent notamment d’annoncer une évolution importante en la matière.
Auparavant, lors de la création d’un nouveau sujet, seuls 30 jours rétroactifs étaient récupérables instantanément. Pour récupérer des données au-delà de 30 jours, c’était un processus compliqué et relativement long (de plusieurs heures à plusieurs jours).
Mais depuis quelques jours, il est désormais possible de récupérer en quelques minutes plusieurs mois de données (ou plusieurs années, dans la limite de ce qui a été évoqué précédemment) lorsque l’on crée un nouveau sujet de veille.
Et les lecteurs de flux RSS ? Le cas d’Inoreader et Feedly
Tout le monde n’a pas accès à une plateforme de veille comme celles présentées précédemment. Et nombreux sont les professionnels de l’information qui utilisent des lecteurs de flux RSS pour réaliser tout ou partie de leur veille. Ces outils proposent-ils des moteurs de recherche performants et quelle est l’antériorité proposée ?
Nous avons donc enquêté du côté d’Inoreader et Feedly, les deux lecteurs les plus utilisés par la profession.
Du côté d’Inoreader, il n’existe pas de limite d’archives. Tout le contenu présent dans le lecteur reste accessible et « recherchable » via son moteur de recherche. Rappelons que le moteur reste assez simple avec les opérateurs booléens classiques, la possibilité de rechercher sur le titre des actualités et/ou le contenu seulement et d’indiquer un intervalle de dates.
D’ailleurs, il est intéressant de constater que lorsqu’on ajoute un nouveau flux à Inoreader, l’outil charge l’historique du flux ou du moins une partie. Sur les tests que nous avons effectués, il était possible de remonter jusqu’à 2012/2013 pour certains flux mais pas tous. De plus, dans la version payante professionnelle, on peut effectuer des recherches sur les articles publics même s’ils ne sont pas dans les flux auxquels on est abonné.
On pourra donc effectuer des recherches sur des contenus antérieurs à la mise en place de la veille même si ce ne sera pas exhaustif.
Le système est sensiblement le même sur Feedly. Dans la version payante, on peut ainsi effectuer des recherches sur les flux que l’on suit (et comme Inoreader, il charge un certain historique pour chaque flux) ou plus largement sur les sources publiques. On peut utiliser les opérateurs booléens classiques, rechercher sur le titre ou le nom de l’auteur, limiter par date ou exiger des résultats qui incluent des vidéos, du son ou des documents.
Conclusion
Comme on peut le constater au travers de cet article, de nombreuses plateformes de veille présentes sur le marché s’intéressent aujourd’hui à la question des archives et de l’antériorité. Nombre de ces plateformes ne sont plus uniquement des outils de veille avec des contenus qui démarrent à un instant T et se limitant au mieux aux 30 derniers jours.
Mais les modèles et solutions choisis par ces différents acteurs diffèrent beaucoup d’un acteur à l’autre même si on peut tout de même voir une tendance qui se dégage ces derniers mois avec le lancement de moteurs et d’outils de recherche dédiés.
On semble donc se diriger vers un modèle où la plateforme de veille reste avant tout centrée sur la veille au sens strict avec le développement en parallèle de moteurs de recherche spécialisés sur les médias sociaux, qui peuvent être vendus comme des produits à part ou utilisés en complément de la plateforme.
Et quand on voit à quel point la recherche sur les réseaux sociaux, pourtant devenus des sources d’information incontournables, en utilisant des moteurs ou outils de recherche gratuits peut être laborieuse (ce que nous abordons dans le prochain article), ces acteurs semblent avoir fait la bonne analyse. Et c’est une bonne nouvelle pour les professionnels de l’information en quête d’outils offrant des recherches de qualité !
Lire aussi :
« Google évolue : les documentalistes plus utiles que jamais »
« Google News évolue à son tour : bonne ou mauvaise nouvelle pour la veille ? »