De l’agrégation de contenus à la recherche « fédérée » en passant par la recherche « unifiée » et les outils de discovery
Cette quête de l’outil de recherche qui agrège des contenus toujours plus nombreux et qui offre un point d’accès unique à l’information n’est pas nouvelle mais continue d’évoluer.
Il y a plus de 30 ans déjà, les serveurs d’information et bases de données professionnelles ainsi que les agrégateurs de presse offraient déjà la possibilité d’interroger au sein d’une seule et même interface des corpus de sources qui pouvaient être très larges. Mais à l’époque, on était encore sur des contenus de même nature et donc comparables entre eux : les agrégateurs de presse pour les articles de presse, les bases de données bibliographiques pour la littérature scientifique, les bases brevets pour les brevets, des bases de données dédiées aux études de marché, etc.
L’arrivée des moteurs Web et notamment de Google a changé la donne avec une interface unique capable d’interroger des sources nettement plus disparates. Car un article de presse en ligne est finalement très différent du contenu d’un site d’entreprise ou d’un post sur un forum de discussion.
Cependant, on constate que malgré cette tendance constante vers une recherche plus unifiée, Google n’a jamais vraiment renoncé à ses moteurs thématiques ni tout regroupé au sein d’une interface unique. Google News, Google Images, Google Vidéos, Google Scholar, Google Books restent des produits à part entière. Et Google continue de lancer régulièrement de nouveaux moteurs thématiques tels que Google Datasets ou encore un nouveau moteur consacré au Fact-checking.
Google a certes communiqué sur la « recherche unifiée » en 2013 avec Google Search Cloud mais cela correspondait seulement à une recherche intégrant des résultats Gmail, Drive, Google Photos ou encore Agenda dans le moteur Web.
Les autres acteurs et notamment les outils de recherche professionnels ou académiques, les outils de veille et fournisseurs d’information professionnels, ont presque tous choisi d’aller dans cette la direction d’interfaces « à la Google » pour toucher un public plus large, peu enclin à aller beaucoup plus loin que quelques mots dans une boîte de recherche unique, tout en proposant des corpus toujours plus larges et plus hétérogènes. Néanmoins, la recherche experte sur ces outils n’a généralement pas disparu mais n’est seulement plus visible au premier regard.
Dans le monde des bibliothèques aussi, cette tendance ne date pas d’hier. Le concept d’interfaces de « recherche fédérée » a fait son apparition il y a 20 ans, à peu près en même temps que la naissance de Google. Mais c’est surtout il y a une dizaine d’années que le concept a été largement repris et utilisé. La « recherche fédérée » permettait d’interroger des ressources internes à l’institution mais aussi des ressources externes. Progressivement la recherche « fédérée » a été abandonnée au profit de la recherche « unifiée », qui ne permet d’interroger que des outils et ressources disponibles au sein d’une même institution, jugée plus simple et intuitive pour les utilisateurs.
Et aujourd’hui, on parle plutôt d’outils de « découvertes » ou de « discovery » à l’image d’outils comme EBSCO Discovery Services, Primo ou encore Summon qui offrent une boîte de recherche unique pour interroger l’ensemble des collections accessibles au sein de la bibliothèque ou auxquelles la bibliothèque est abonnée.
Finalement, si le nom change au fil du temps et en fonction des acteurs impliqués, l’idée reste néanmoins la même : fournir aux internautes et aux utilisateurs un moteur unique pour interroger des contenus disparates et devenir un point d’accès unique à l’information.
Et le discours commercial et marketing de ces acteurs autour de la recherche unifiée reflète bien l’idéal vers lequel ils cherchent tous à tendre. Il est question de recherche « intuitive », « sans effort », « d’obtenir l’essentiel des informations avec quelques mots-clés en quelques minutes », « de résultats rapides » et pour certains même la promesse de « pouvoir enfin se consacrer pleinement à l’analyse ».
Mais ce qui est avant tout destiné à des utilisateurs et professionnels non experts de la recherche d’information (étudiants, chercheurs, etc.) doit-il également devenir la norme pour les professionnels de l’information ?
Comment faire des recherches et de la veille sur des contenus disparates ?
Tirer parti des spécificités de chaque type de contenus
Dans un contexte de recherche d’informations, il est assez rare de ne se focaliser que sur un seul type d’informations et de contenus. De même, la veille est également souvent multicanale.
L’information pertinente peut se retrouver aussi bien dans un article de presse, un tweet, un article de blog, un article académique, une vidéo, une infographie, un jeu de données en open data, etc.
Chaque type de contenu dispose de ses propres spécificités structurelles dont on a tout intérêt à tirer parti pour réaliser une bonne recherche ou une bonne veille (voir figure 1.).
Type d’informations utiles à la veille et la recherche |
Registre de langue |
Type de vocabulaire |
Taille des contenus textuels |
Type d’indexation dans les outils de recheche |
Spécificités/structure dont on peut tirer parti pour la recherche |
Article de presse |
Courant |
Variable selon le type de presse (grand public ou technique et spécialisé) |
Variable avec des brèves comme des articles de fond |
Souvent indexé en texte intégral |
Titre, chapô, le nom du journaliste,rubrique, nombre de mots, date, etc. |
Billet de blog |
Courant |
Variable sur le sujet et public visé (grand public ou technique et spécialisé) |
Variable |
Indexé en texte intégral |
Titre, nom d’auteur, date, tags, rubrique, etc. |
Article scientifique et académique |
Courant |
Technique et spécialisé |
Long |
Texte intégral ou informations bibliographiques |
Titre, abstract, mots-clés, auteur, affiliation, citations, etc. |
Brevets |
Courant |
Technique et spécialisé |
Long |
Texte intégral |
Déposant, titre, abstract, revendication, classification, etc. |
Contenus multimédia (images, vidéos, podcasts) |
Parlé, familier ou courant |
Variable (grand public ou technique et spécialisé) |
Court (essentiellement des métadonnées) |
Souvent métadonnées uniquement |
Métadonnées, titre, descriptif, durée, qualité, couleurs, taille, etc. |
Etudes de marché / rapports / fiches pays / fiche entreprises |
Courant |
Vocabulaire plutôt spécialisé et technique |
Long |
Texte intégral ou informations bibliographiques |
Titre, résumé, liste des acteurs cités, liste des figures/tableaux, classification (code SIC, NAICS, données/statistiques, etc. |
Statistiques |
NA |
NA |
Court avec peu de mots, surtout des chiffres |
Texte intégral |
Chiffres |
Données (open data, datasets) |
NA |
Variable (grand public ou technique et spécialisé) |
Court avec peu de mots, surtout des chiffres |
Souvent métadonnées uniquement |
Métadonnées, titre, descriptif, tags, etc. |
Données financières |
NA |
Technique et spécialisé |
Peu de mots, surtout des chiffres |
Texte intégral |
Chiffres, type de données (chiffre d’affaire, EBITDA), etc. |
Médias sociaux |
Parlé, Familier ou courant |
Variable (grand public ou technique et spécialisé) |
Souvent court |
Texte intégral |
Hashtag, retweet, likes, nom d’utilisateur, géolocalisation, etc. |
Livres/ouvrages/ebooks |
Courant ou soutenu |
Variable (grand public ou technique et spécialisé) |
Long |
Texte intégral ou informations bibliographiques |
Résumé, auteur, éditeur, nombre de pages, ISBN, etc. |
Normes |
Courant ou soutenu |
Technique et spécialisé |
Long |
Texte intégral ou informations bibliographiques |
Résumé, descripteur, etc. |
Sites Web (entreprises, association, institutionnel, etc) |
Courant |
Variable (grand public ou technique et spécialisé) |
Variable |
Texte intégral |
|
Information juridique |
Courant ou soutenu |
Technique et spécialisé |
Variable |
Texte intégral ou informations bibliographiques |
Indexation, date, pourvoi, avocat, etc. |
Figure 1. Typologie des sources d’information et leurs spécificités
Certains de ces contenus sont ainsi très codifiés et structurés, à l’image des articles scientifiques, brevets, normes par exemple. Et il est souvent possible de cibler et affiner sa recherche sur ces spécificités : abstract, nom d’auteur, nombre de mots, nombre de retweets, classification/codes etc.
A l’inverse, pour d’autres types de contenus (pages Web d’entreprises par exemple, post sur Facebook), il n’existe aucune structure commune ou élément différenciant, ce qui rend plus difficile leur interrogation.
D’autre part, le registre de langue (familier, courant) et le type de vocabulaire utilisé (grand public, technique) varie considérablement selon qu’il s’agit de contenus à destination du grand public ou à destination de professionnels, et selon qu’ils sont rédigés par des internautes lambda ou par des experts. Une recherche par mots-clés devra donc tenir compte de ces spécificités.
Enfin, la taille des documents et donc le nombre de mots est très variable entre un tweet de 280 caractères maximum et un rapport , une thèse ou un ouvrage qui peuvent faire plusieurs centaines de pages. De même rechercher sur du texte intégral ou des notices bibliographiques ne peut être envisagé de la même manière.
Et c’est sans compter sur le fait que certaines informations ne sont pas textuelles comme les contenus multimédia ou les données statistiques et chiffrées. Une longue requête très précise n’aura ici aucun sens et sera généralement contre-productive.
Cas pratique : une veille multi sources sur les additifs alimentaires
Pour illustrer cela, prenons comme exemple une société qui souhaite effectuer une veille large sur les additifs alimentaires et plus précisément la tartrazine (E102), un additif présent dans de nombreux aliments et boissons. Il s’agit aussi bien de surveiller la e-réputation de l’additif, les actualités, les nouvelles régulations, informations concurrentielles, recherches scientifiques sur le sujet, etc.
Les informations utiles proviendront donc de sources et contenus très disparates : articles de presse, blogs, médias sociaux, articles scientifiques, réglementations, sites institutionnels, etc.
En effectuant quelques tests sur le sujet, on constate très vite que les articles scientifiques évoquant la tartrazine ont recours à des termes spécifiques et mesurés comme allergy, allergic, sensitivity pour désigner les dangers potentiels liés à cet additif alors que sur les réseaux sociaux, on retrouve des termes plus forts et dans un langage plus familier et courant comme hyperactivité, danger, cancer, asthme, urticaire, mortel, létal, etc.
Dès lors que l’on souhaite faire une recherche au-delà du simple mot-clé tartrazine
, il convient donc de construire plusieurs requêtes distinctes : des requêtes adaptées aux réseaux sociaux, d’autres à la presse, d’autre à la littérature scientifique, etc.
D’autre part, les contenus courts (tweets, posts, etc.) ou non textuels (données, images, vidéos) contiennent rarement le terme tartrazine et restent à un niveau plus général, en l’occurrence les additifs alimentaires. Et pourtant, ces contenus où le terme tartrazine n’apparaît pas contiennent des liens qui peuvent conduire vers des articles/documents de fonds citant la tartrazine. D’autre part, le terme peut être prononcé dans une vidéo ou un podcast sans qu’il soit possible d’effectuer des recherches sur le contenu intégral de ces contenus. Les requêtes sur ces contenus devront donc rester à un niveau général.
Enfin, on constate que la notion de bruit varie également d’une source à l’autre et d’une langue à l’autre. Dans la littérature scientifique, le terme tartrazine ne fait référence qu’à l’additif. En revanche, sur les médias sociaux, tartrazine est utilisé dans le nom/pseudo de certains utilisateurs, ce qui pollue alors considérablement la liste de résultats. De même, le code E102 fait essentiellement référence à la tartrazine lors d’une recherche Google, alors que sur Twitter cela fait aussi référence à des numéros de stands lors de salons et expositions...
Même si ce n’est pas le cas ici, la langue peut également être source de bruit et nécessite d’adapter sa requête. Par exemple, une recherche sur la société Apple en utilisant uniquement le terme apple
ne fournira pratiquement que des contenus en lien avec l’entreprise américaine sur des contenus en français, alors que sur des contenus en anglais, les résultats seront pollués par tout ce qui concerne le fruit et autres entreprises et nombreux produits qui utilisent le terme.
Notre avis
Si l’idée d’interroger d’une seule manière des corpus très disparates peut paraître séduisante et représenter un gain de temps a priori, la réalité est toute autre.
Car une des difficultés majeures d’une recherche ou d’une veille, c’est de ne pas trop restreindre sa requête au risque de passer à côté de résultats pertinents et à l’inverse de ne pas réaliser des requêtes trop larges au risque d’être noyé sous l’information non pertinente.
Or à vouloir interroger des contenus disparates simultanément et avec la même stratégie, on bénéficie en réalité du pire des deux mondes.
Il faut ainsi réfléchir en amont aux types de contenus susceptibles de répondre à sa question et préparer plusieurs stratégies de recherche en fonction des caractéristiques propres à chaque type de sources :
- registre de langue et vocabulaire grand public, technique ou spécialisé
- requêtes larges ou très précises et ciblées
- identification des potentielles sources de bruit et affiner sa recherche sur ces sources en conséquence
- exploitation des spécificités propres à chaque type de contenus pour effectuer des recherches quand cela est possible. On peut par exemple rechercher sur le nombre de mot-clé dans des agrégateurs de presse professionnels payants alors que ce n’est pas possible dans Google Actualités ni sur la plupart des sites de presse.
Des moteurs aux plateformes de veille en passant par les bases de données professionnelles : comment tirer parti des corpus disparates ?
Maintenant que nous avons vu l’importance de distinguer les types de sources et de contenus dans ses recherche et veilles, comment cela se traduit-il concrètement au quotidien dans les outils de recherche et de veille qui proposent des corpus disparates ?
Sur les moteurs Web et notamment Google
Sur Google, comme nous avons eu l’occasion de le montrer à de multiples reprises, les longues requêtes booléennes ne fonctionnent pas et il est préférable de multiplier les requêtes courtes avec quelques mots-clés couplés à l’utilisation de quelques opérateurs avancés. De plus, le nombre de résultats fournis ne cesse de diminuer : quelle que soit la requête, il est rare de pouvoir accéder réellement à plus de 200 résultats.
Dans ce contexte, il est plus important que jamais de réaliser des requêtes distinctes selon le type de contenu que l’on cherche à identifier.
Dans le cas de notre exemple sur les additifs alimentaires, on privilégiera des requêtes avec un vocabulaire expert et spécialisé pour repérer de l’information issue de sources académiques, scientifiques, professionnelles ou spécialisées. A l’inverse, on choisira des termes plus grand public pour cibler les médias sociaux, blogs grands publics, forums où s’expriment directement les internautes.
D’autre part, on choisira des requêtes ciblées utilisant le terme tartrazine
pour les contenus d’une certaine taille indexés en texte intégral alors qu’il faudra rester à un niveau plus général sur les additifs pour les contenus multimédia ou très courts.
On pourra d’ailleurs cibler directement certains types de contenu en utilisant les opérateurs avancés :
site:
pour limiter à certains sites ou types de sites précis, filetype:
pour certains types de fichier.
Et lorsque l’on a identifié des résultats pertinents, on aurait tout intérêt à relancer des recherches au sein de ces sources pour repérer des résultats n’apparaissant pas nécessairement dans Google.
A titre d’exemple, une recherche simple dans Google sur le terme tartrazine
ne génère que 174 résultats sans limitation de dates avec par exemple un seul résultat de LinkedIn, un seul du Moniteur des pharmacies, un de Quora, ou un de Science Direct.
La même recherche sur le moteur de LinkedIn génère une vingtaine de résultats, sur le moteur interne du Moniteur des pharmacies 11, sur Quora une centaine de résultats, sur Science Direct plus de 3 000 résultats... Preuve qui si Google indexe bien la majorité des pages de ces sites, ce n’est pas pour autant qu’il les affiche dans la liste de résultats et ce, même si les mots-clés apparaissent bien.
Et surtout, on aurait tort de se limiter uniquement au moteur Web. On aura grand intérêt à utiliser les moteurs thématiques de Google (Scholar, Books, Actualités, etc.) et à adapter ses requêtes au type de contenu référencé par ces outils.
Mais là encore, ce n’est pas exhaustif : une recherche basique sur Google Scholar avec le terme tartrazine
limité au site Science Direct (tartrazine site:sciencedirect.com
) annonce 2 800 résultats soit 300 de moins que sur le site de Science Direct. Et sur ces 2 800 résultats, seulement 1 000 sont réellement visualisables au sein de Google Scholar.
Sur les moteurs académiques
Sur les moteurs académiques, le problème se situe peu au niveau du niveau de langue et de vocabulaire car on reste sur des contenus académiques. Mais on ne peut pas retrouver de la même manière une thèse, un article scientifique en texte intégral et des images ou datasets pour lesquels on ne dispose que de métadonnées.
En effet, une recherche très ciblée et précise sur des métadonnées a peu de chance de porter ses fruits.
Il faudra alors relancer plusieurs recherches plus ou moins larges en sélectionnant à chaque fois le type de documents correspondants.
Sur Isidore par exemple, le moteur en SHS, on pourra interroger à part les contenus comme les calendriers, les photos, cartes ou plans qui ont peu de points communs avec des articles scientifiques, des billets de blogs ou des thèses et mémoires.
Du côté de Dimensions ou The lens, deux moteurs académiques intéressants, il faudra également séparer la recherche sur les articles scientifiques de la recherche sur les brevets mais aussi des résultats sur les subventions ou encore les essais cliniques.
Du côté des plateformes de social media monitoring et de veille
Sur les outils de social media monitoring, la différenciation des sources devra se faire aussi bien au niveau de la langue et du vocabulaire utilisé qu’au niveau de la taille des contenus
Twitter a finalement peu en commun avec Instagram ou avec Facebook.
On recommandera d’utiliser des requêtes distinctes en fonction de chaque réseau social et de tirer parti de leurs spécificités (hashtags pour Twitter et Instagram, retweets pour Twitter, etc.).
Sur les plateformes de veille classiques, il faudra bien faire la distinction entre les sources du Web ouvert et les contenus provenant de fournisseurs d’information externes (comme les agrégateurs de presse, bases d’études de marché, bases d’appels d’offres, etc.), proposés en option dans la plateforme ou via des connecteurs.
Dans la mesure du possible, il est toujours préférable de mettre en place les requêtes dans la source originale car ces outils proposent des fonctionnalités de recherche et une indexation plus puissante. Seuls les résultats de la requête seront ainsi intégrés dans la plateforme de veille.
A l’inverse, les sources du Web ouvert seront paramétrées directement dans la plateforme mais on adaptera les stratégies de recherche en fonction du type de sources, du niveau de langue, etc.
Agrégateurs de presse et bases de données professionnelles
Enfin, sur les agrégateurs de presse et bases de données professionnelles qui offrent également des contenus de plus en plus disparates, on conseillera également de relancer plusieurs recherches en fonction du type de document. On séparera bien la presse en ligne et imprimée des médias sociaux ou encore des contenus multimédia.
Conclusion
L’évolution des outils de recherche et de veille professionnels vers des corpus multi sources est intéressante mais nécessite en réalité une attention accrue.
Car derrière cette apparente simplicité et cette sensation d’en avoir toujours plus pour son argent (même si c’est gratuit !), le discours des éditeurs et fournisseurs d’information masque souvent la complexité de la recherche et de la veille sur des contenus disparates.
Disposer de corpus plus larges est une bonne nouvelle mais uniquement à condition de bien préparer ses stratégies de veille et de recherche en amont. Et cela ne signifie pas non plus qu’il faille se limiter à un unique outil. Il y aura toujours des résultats intéressants qui ne ressurgiront que via Google et inversement des résultats qui n’apparaîtront jamais dans Google et auxquels on ne pourra accéder que via une plateforme de veille ou des bases de données professionnelles.
D’autre part, il est intéressant de constater que les évolutions des outils de recherche gratuits et notamment des moteurs ne vont finalement pas dans la même direction que celles des outils de recherche et de veille professionnels (agrégateurs, bases de données, plateformes de veille). D’un côté, les outils de recherche et de veille professionnels se positionnent toujours plus comme des « couteaux-suisses » en proposant des corpus toujours plus larges et disparates. A l’inverse, la majorité des moteurs semblent progressivement délaisser cet aspect. Google a arrêté de communiquer sur le fait qu’il voulait indexer l’intégralité du Web et être le point d’accès central à l’information et se positionne désormais comme un moteur de réponses. Personne ou presque ne se positionne plus sur le créneau des moteurs généralistes à l’exception des moteurs orientés respect de la vie privée ou de Bing qui résiste envers et contre tout. On assiste en revanche à une verticalité de l’offre avec des moteurs spécialisés sur une thématique (juridique, pharmaceutique, finance, etc.) ou sur un type de contenus (présentations/slides, jeux de données, etc.).
A croire que ceux qui ont déjà expérimenté la recherche unifiée sur des contenus très disparates par le passé ont lement changé leur fusil d’épaule car ce n’était finalement pas concluant...