La recherche d’information est au cœur des métiers de l’information depuis toujours et on a parfois le sentiment de tout savoir à son sujet. Mais la recherche d’information telle qu’elle était pratiquée il y a plus de 30 ans (lors du lancement de BASES par exemple) n’a plus grand chose à voir avec celle que nous pratiquons aujourd’hui. Elle se transforme d’ailleurs plus vite que jamais...
D’un côté, rechercher de l’information n’a jamais eu l’air aussi simple et accessible. On dispose en effet de nombreux outils gratuits proposant des interfaces intuitives et que l’on peut interroger en langage naturel.
Mais de l’autre, nous vivons aujourd’hui dans un monde avec une surabondance de sources, outils, méthodes et informations.
La recherche d’information n’a en réalité peut-être jamais été aussi complexe et multiple.
Lire aussi :
Un regain d’énergie et de vitalité pour les outils de recherche
Bien interroger les outils de recherche gratuits : une multitude de méthodes
Si, comme nous avons pu le voir, le paysage des outils de recherche a évolué, c’est également la façon de les interroger qui a beaucoup changé en quelques années.
Au départ, tous les outils ou presque proposaient au minimum une recherche booléenne simple.
Par recherche booléenne, nous faisons référence ici à des requêtes structurées plus ou moins longues où l’on combine des mots-clés grâce aux opérateurs booléens classiques AND, OR, NOT mais aussi des opérateurs avancés (opérateur de proximité, recherche dans le titre, recherche sur un type de fichier, troncature, etc.).
Lire aussi :
Un regain d’énergie et de vitalité pour les outils de recherche
Google évolue, les documentalistes plus utiles que jamais
Comment bien interroger Google en 2018
L'information sur le Web est éphémère : quel impact et quelles solutions pour la recherche d’information ?
Si la veille et la recherche d’information professionnelle restent avant tout des activités réalisées le plus souvent sur « grand écran » au bureau, il n’en reste pas moins que les pratiques évoluent vers plus de mobilité.
Les professionnels de l’information sont parfois amenés à devoir suivre en temps réel certaines problématiques sensibles ou à risque, et ce, quel que soit l’endroit où ils se trouvent.
D’autre part, pour réaliser sa propre veille métier, cruciale pour rester au courant des dernières tendances, des évolutions et des nouveautés liées à la veille, la recherche d’information ou plus largement tout ce qui a trait à l’infodoc, il n’est plus toujours possible de le réaliser sur son temps de travail au bureau. Ainsi, de nombreux lecteurs de BASES et NETSOURCES nous indiquent qu’ils lisent nos revues papier dans les transports en commun !
Lire aussi :
Recherche-t-on différemment à l’heure du « Mobile First » ?
Les challenges qui attendent les professionnels de la veille et de la recherche d’information en 2019
« Rechercher l’information stratégique sur le web » : votre nouveau guide au quotidien
Rechercher l’information stratégique sur le web
Le Web d’aujourd’hui s’émancipe de plus en plus du contenu textuel avec une part toujours plus importante de contenus multimédias. Et de fait, la recherche Web traditionnelle par mot-clé évolue également avec une progression importante de la recherche vocale et de la recherche visuelle et d’images.
Durant cette deuxième session de la journée Search Solutions 2018, il a été question de recherche vocale chez Google d’une part et de recherche d’images chez les journalistes d’autre part.
Lire aussi dans ce dossier :
Les moteurs de recherche vers toujours plus de recommandations de contenus
Cette année encore, nous avons eu l’occasion d’assister à la journée d’étude Search Solutions à Londres organisée par BCS (Chartered Institute for IT) et qui a eu lieu le 27 novembre dernier.
Cette manifestation annuelle regroupe à la fois des acteurs des moteurs de recherche (développeurs, ingénieurs, data scientists, etc.) mais aussi les utilisateurs de ces moteurs, notamment les professionnels de l’information.
C’est l’occasion d’avoir une vision claire des dernières tendances et axes d’évolution chez les moteurs de recherche, qui, rappelons-le sont pour la plupart avant tout orientés vers le grand public comme Google, Bing ou encore les réseaux sociaux. Mais toutes ces évolutions ont également un impact fort sur l’avenir des pratiques de recherche et de veille des professionnels de l’information.
Lire aussi dans ce dossier : De la recherche par mot-clé à la recherche vocale et visuelle
Le terme data est à la mode. Big data, smart data, datajournalisme, small data, datasets sont autant de mots que l’on voit s’afficher au quotidien sur nos écrans.
Nous avons choisi ici de nous intéresser spécifiquement aux datasets, aussi appelé en français « jeux de données » car leur intérêt dans un contexte de recherche d’information et de veille est croissant. Google vient même de leur dédier un nouveau moteur appelé Google Dataset Search.
Qu’est-ce que les termes datasets ou jeux de données englobent réellement ? En quoi ces données peuvent-elles avoir un intérêt pour la recherche d’information et la veille ? Comment les identifier et quelles sont les principales sources et méthodes à connaître ?
Lire aussi dans ce dossier :
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Quelques rappels sur l’open data au service de la recherche d’information
Si Google a choisi de lancer un nouveau moteur dédié aux datasets (https://toolbox.google.com/datasetsearch), ce n’est certainement pas par pur philanthropisme. Il y voit très certainement son intérêt et ambitionne de refaire avec les données ce qu’il a déjà fait avec les publications scientifiques et académiques à travers le moteur académique Google Scholar.
Google a très justement perçu l’importance de ce mouvement d’ouverture des données qu’il s’agisse de données publiques ou de données de la recherche, le manque d’homogénéité et de visibilité des initiatives existantes et l’importance de pouvoir y accéder facilement.
Et il ne compte pas passer à côté de cette opportunité de fédérer la recherche sur les données et de devenir la source de référence sur le sujet. Il le dit d’ailleurs lui-même :
« Dataset Search permet aux utilisateurs de trouver des ensembles de données sur le Web grâce à une simple recherche par mot-clé. L’outil présente des informations sur des ensembles de données hébergés dans des milliers de référentiels sur le web. Ces ensembles de données deviennent ainsi accessibles et utiles à tous. »
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Quelques rappels sur l’open data au service de la recherche d’information
Nous avons déjà eu l’occasion de parler de l’open data à de multiples reprises, dans BASES et dans NETSOURCES et nous lui avions même consacré un article de fond en janvier 2016 («Open Data : une mine d’or brute pour les professionnels de l’information», BASES n°333 - Janvier 2016).
Pour autant, le volume de données liées à l’open data continue de s’accroître et de nouvelles sources en la matière voient le jour régulièrement.
Lire aussi dans ce dossier :
Les Datasets : un nouvel enjeu pour la recherche d’information et la veille ?
Google Dataset Search : peut-il devenir le Google Scholar des données ?
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique
Quand on recherche de l’information sur le Web, on a souvent l’impression que tout ce qui a, un jour, été publié sur le Web ouvert doit pouvoir se retrouver d’une manière ou d’une autre, notamment en tirant parti des fonctionnalités avancées des moteurs de recherche comme Google. Or l’information sur le Web ouvert est bien plus éphémère qu’on ne pourrait le croire...
Dans la réalité, une très grande partie de ce qui a été publié sur le Web dans les années 1990 et 2000 n’existe plus en tant que tel. Les sites Web ont été refaits ou ont tout simplement disparu. Et de fait, bon nombre de ces contenus sont désormais inaccessibles par les moteurs de recherche classiques.
Pas toujours facile de suivre toutes les évolutions de Google quand on sait par exemple qu’il modifie son algorithme plus de 1 600 fois par an. Heureusement, toutes ces modifications ne revêtent pas la même importance et toutes n’ont pas d’impact sur la recherche d’information professionnelle.
Toujours est-il qu’en ce mois de septembre, les nouveautés sont nombreuses et méritent d’être signalées.
On commencera donc par le lancement d’un nouveau moteur dédié aux données publiques appelé « Google Dataset Search » accessible à l’adresse suivante : https://toolbox.google.com/datasetsearch.
La recherche d’articles de presse est un exercice classique pour les professionnels de l’information.
Pour autant, s’il existe de multiples outils et méthodes pour retrouver en ligne le contenu textuel d’articles parus dans des revues et journaux papier, cela s’avère nettement plus compliqué lorsque l’on souhaite retrouver les articles avec leur mise en page originale.
Il existe aujourd’hui de multiples manières de rechercher de l’information et cela ne se limite plus à l’insertion de mots-clés dans une boîte de recherche : on peut utiliser des images, des sons, des blocs de texte, tirer parti de recommandations automatiques, etc.
Les grands moteurs de recherche Web comme Google et Bing notamment, dont le développement se focalise toujours un peu plus vers la recherche mobile et vocale ont fait évoluer la façon dont il est possible de les interroger. Et le recours à l’intelligence artificielle chez ces mêmes moteurs permet d’ailleurs une meilleure compréhension de l’intention de l’utilisateur et par là-même une simplification potentielle des requêtes.
Quand il s’agit d’effectuer des recherches bibliographiques ou de réaliser une revue de littérature, Google Scholar apparaît généralement en tête de liste chez les chercheurs, universitaires, étudiants et même certains professionnels de l’information.
Une réalité qui est particulièrement surprenante, la rigueur de la démarche de recherche scientifique semblant a priori incompatible avec le mode de recherche très pauvre, proposé par Google Scholar dans des amas d’informations non structurées, et dont on ne connaît pas les contours.
Lire aussi dans ce dossier :
La perversité de Google Scholar
Recherche et veille sur la littérature scientifique et académique : nouveaux entrants et ressources-clés
Le volume important de documents contenus dans Google Scholar fait qu’il est extrêmement rare de ne trouver aucune réponse à n’importe quelle question un tant soit peu scientifique. Parmi ces réponses, le chercheur trouvera bien quelques documents intéressants parmi les premiers de la liste car on serait curieux de savoir combien vont examiner les 1 000 résultats visualisables (c’est la limite).
Ces résultats trouvés à partir d’une ou plusieurs recherches permettent le plus souvent de tirer quelques fils et de trouver quelques documents présentant un intérêt.
Et c’est là toute la perversité du système. Car l’accès à Google Scholar est gratuit et son contenu un des plus importants disponibles.
Lire aussi dans ce dossier :
Google Scholar est-il un véritable outil de recherche scientifique ?
Recherche et veille sur la littérature scientifique et académique : nouveaux entrants et ressources-clés
Il convient maintenant de dresser le portrait des principales ressources généralistes et multidisciplinaires pour la veille et la recherche bibliographiques. Et si nombre d’entre elles sont connues depuis longtemps des professionnels de l’information, nous avons également identifié quelques nouveaux acteurs prometteurs apparus au cours des deux dernières années et dont nous n’avons pas encore eu l’occasion de parler dans BASES.
Nous avons choisi ici de nous intéresser aux grandes ressources généralistes et multidisciplinaires proposant des références ou accès aux articles scientifiques et académiques. Sont donc exclues les ressources spécialisées sur une discipline en particulier ou sur certains types de documents qui pourront faire l’objet d’autres articles comme les thèses, mémoires, ouvrages, etc.
Lire aussi dans ce dossier :
Google Scholar est-il un véritable outil de recherche scientifique ?
La perversité de Google Scholar
Dans le précédent numéro de BASES, nous avions eu l’occasion de revenir sur certaines conférences et ateliers ayant eu lieu lors du salon I-Expo qui s’est tenu les 20, 21 et 22 mars derniers.
Nous poursuivons donc dans ce numéro avec le compte-rendu et analyse des conférences suivantes :
- L’intelligence artificielle va-t-elle tuer ou renforcer les moteurs de recherche ? Comment s’assurer de la fiabilité de l’information recherchée à l’heure des bulles de filtres et de la désinformation ?
- Espaces communautaires, RSE, plateforme collaborative : les bons choix pour réussir une plateforme de veille collaborative, mobile et plus performante. Avec les retours d’expérience d’ENGIE, RATP, AEF, LA POSTE
Ce mois-ci, l’actualité des moteurs concerne exclusivement Google qui n’a pas faibli dans le nombre de ces annonces et lancements de nouvelles fonctionnalités.
Nous vous parlions le mois dernier du nouveau bouton « plus de résultats ». Pour certaines questions comme la météo par exemple, Google avait lancé un test où il n’affichait plus aucun résultat mais juste une réponse à la question posée suivie d’un bouton « plus de résultats » pour ceux qui souhaiteraient aller plus loin. Le test avait ensuite pris fin et tout était redevenu comme avant.
Dans un article publié sur notre blog « Google évolue : les documentalistes plus utiles que jamais », nous faisions le constat que Google affiche toujours moins de résultats et ce, quelle que soit la requête et alors que son index ne cesse pourtant de s’accroître.
Il annonce certes dans un premier temps des centaines de milliers voire des millions de résultats mais en se rendant sur la dernière page de résultats, on constate que leur nombre ne dépasse pratiquement jamais les 500.
Pour preuve, nous avions réalisé en 2011 une recherche sur les masques respiratoires. A l’époque, une requête sur l’expression masque respiratoire permettait de visualiser plus de 1 000 résultats dans Google. Aujourd’hui, la même requête n’en génère que 183.
En ce début d’année, l’actualité de Bing et Google ne manque pas.
Et ce qui fait beaucoup parler, ce sont les featured snippets de Google et de Bing.
Affiché dans un cadre spécifique et au-dessus des résultats dits « naturels », en « position 0 », le featured snippet constitue une réponse à la question posée par l’internaute et est extrait directement d’une page Web.
La recommandation de contenus prend une place toujours plus importante dans l’univers du Web avec l’accroissement de la recommandation humaine, lié d’une part, au développement des médias sociaux et des outils du Web 2.0 et d’autre part, à la multiplication des systèmes et algorithmes de recommandations automatiques, grâce aux progrès de l’informatique d’abord et plus récemment de l’intelligence artificielle.
Quand on pense aux systèmes de recommandations, on pense en premier lieu aux sites d’e-commerce tels que Amazon qui nous propose des produits similaires à ceux que nous consultons ou susceptibles de nous intéresser, Netflix qui nous recommande des séries et des films qui pourraient nous plaire ou encore Spotify qui nous signale des morceaux et artistes correspondant à nos goûts musicaux.
Mais aujourd’hui, la recommandation est partout et il ne se passe pas un mois sans que l’on ne voie surgir une nouvelle fonctionnalité ou de nouveaux outils grand public et professionnels nous promettant de nous faire découvrir automatiquement des contenus nouveaux qui pourraient nous intéresser et nous faire sortir de notre bulle informationnelle ou des contenus similaires à ce que nous consultons.
L’information est au cœur du processus de veille. Si l’on n’est pas en mesure d’identifier les bonnes sources et par la suite les informations les plus pertinentes sur un sujet donné, toute analyse et recommandation stratégique en découlant sera incomplète, avec tous les risques que cela entraîne.
L’information produite par les médias, qu’il s’agisse de presse nationale, locale ou même spécialisée est un élément précieux pour la veille quel que soit le secteur d’activité concerné.
Le développement de la presse en ligne il y a une vingtaine d’années ainsi que la prolifération des contenus gratuitement accessibles sur ces sites, parallèlement à l’émergence de Google, a conduit à une croyance trompeuse largement répandue selon laquelle il n’est pas nécessaire de payer pour avoir accès à l’information. Et si l’information ne ressort pas dans Google, c’est qu’elle n’existe pas.
Premier événement en date : l’annonce du rachat de CEDROM-SNI, propriétaire de l’agrégateur de presse Europresse par Cision le 20 décembre dernier. On en sait pour l’instant assez peu sur ce qu’il va advenir d’Europresse et de tous ses clients sur le sol français si ce n’est que cela va apporter « une excellente complémentarité stratégique » et « permettra de renforcer l’offre internationale » de Cision. Nous enquêterons donc sur les conséquences à court et long-terme de ce rachat et la nouvelle place de Cision dans le paysage de la veille, qui, rappelons-le, avait déjà racheté l’Argus de la presse cet été.
Autre rachat : celui de Xilopix, l’éditeur du moteur français Xaphir (pour lequel nos tests avaient été peu concluants) par le moteur français également Qwant. Les deux équipes travailleront ensemble pour développer des solutions de recherche adaptées au respect de la vie privée.
Enfin, l’outil de curation de contenus Storify, que certains de nos lecteurs connaissent et utilisent vient d’être acquis par la start-up américaine Livefyre spécialisée dans la curation de contenus et l’engagement d’audiences, elle-même acquise par Adobe en mai 2016. Storify fermera ses portes en mai 2018 et deviendra une fonctionnalité de LiveFyre qui est par contre un outil payant.
La lutte contre les fake news était un des thèmes central de l’année 2017. Et de nouvelles initiatives voient régulièrement le jour.
Le 29 novembre dernier, nous avons eu l’occasion d’assister à une journée d’étude riche en enseignements organisée par BCS, The Chartered Institute for IT à Londres. Cette journée d’étude payante appelée « Search Solutions » est organisée tous les ans à la même période depuis 2006 et est limitée à 70 participants afin de privilégier la qualité des échanges.
Mais à l’origine de cette manifestation annuelle, il y avait la volonté de combler le fossé qu’il pouvait y avoir, et qu’il y a toujours d’ailleurs, entre les ingénieurs et informaticiens qui travaillent chez les acteurs des outils de recherche (moteurs de recherche, bases de données, médias sociaux, etc.) et les utilisateurs de ces solutions (et notamment les professionnels de l’information).
Les thèmes traités dans cet article sont :
Lire aussi dans notre dossier spécial :
Search solutions 2017 : tendances et innovations pour la recherche d’information et ses outils
La recherche au défi de la désinformation et des fake news
Les Search Industry Awards
De la recherche classique à la recherche conversationnelle
Au-delà de la recherche Web
En quelques années, la recherche Web via les moteurs a considérablement évolué. Alors que pendant très longtemps, les moteurs se conformaient à la requête entrée par l’utilisateur, ce n’est plus le cas chez les géants du Web avec l’intégration de technologies alliant recherche sémantique, machine learning ou encore reconnaissance vocale ou visuelle.
L’une des évolutions majeures concerne les interactions entre l’utilisateur et la machine qui ont ainsi connu des mutations profondes ces dernières années.
Et au regard des présentations auxquelles nous avons assisté, l’avenir devrait être également riche en nouveautés.
Lire aussi dans ce dossier :
Search solutions 2017 : tendances et innovations pour la recherche d’information et ses outils
Au-delà de la simple correspondance de mots-clés : recherche sémantique, taxonomie, etc.
La recherche au défi de la désinformation et des fake news
Les Search Industry Awards
Au-delà de la recherche Web
La dernière session s’intéressait à la recherche au-delà de la recherche Web.
On retiendra de la présentation que les équipes de Microsoft à Londres qui travaillaient avant exclusivement sur le moteur de recherche Bing ont vu leurs attributions changer récemment et travaillent désormais uniquement au développement de solutions de recherche pour les produits Microsoft.
Cela a été illustré par la présentation du nouveau projet sur lequel travaillent les équipes à Londres : il s’agit d’un système permettant de répondre quasi-automatiquement à une demande de document par email.
Lire aussi dans ce dossier :
Search solutions 2017 : tendances et innovations pour la recherche d’information et ses outils
Au-delà de la simple correspondance de mots-clés : recherche sémantique, taxonomie, etc.
La recherche au défi de la désinformation et des fake news
Les Search Industry Awards
De la recherche classique à la recherche conversationnelle
Au-delà de la recherche Web
Un des grands sujets de l’année 2017 a bien évidemment été celui des fake news et des bulles de filtres.
Si l’on a déjà pu lire une multitude de choses sur le sujet, ces quelques interventions avaient le mérite d’apporter des éclairages différents en proposant notamment des solutions techniques et méthodologiques pour lutter contre ce phénomène et évaluer les contenus.
Lire aussi dans ce dossier :
Search solutions 2017 : tendances et innovations pour la recherche d’information et ses outils
Au-delà de la simple correspondance de mots-clés : recherche sémantique, taxonomie, etc.
Les Search Industry Awards
De la recherche classique à la recherche conversationnelle
Au-delà de la recherche Web
Nous apprenions il y a quelques jours que Pubmed testait une nouvelle interface. Celle-ci est accessible sur Pubmed Labs (https://www.ncbi.nlm.nih.gov/labs/pubmed) et n’a pas vocation à supplanter l’interface actuelle pour le moment. Le but étant de tester de nouvelles fonctionnalités.
Parmi les nouveautés, on notera :
Dans le secteur de la recherche, il est en ce moment beaucoup question des « revues prédatrices », en l’occurrence des revues pseudo-scientifiques dont le but principal est l’enrichissement plutôt que l’avancement de la recherche.
Les chercheurs sont généralement sollicités par email par ces revues et invités à soumettre des articles. Elles fonctionnent sur le modèle du libre accès où les auteurs payent pour que leurs articles soient publiés. Mais dans le cas des revues prédatrices, n’importe quel article est accepté et publié, les comités éditoriaux étant souvent composés de membres fictifs ou de chercheurs dont les noms ont été inscrits sans leur accord.
Jeffrey Beall, un bibliothécaire de l’Université du Colorado à Denver avait mis en ligne une liste des revues prédatrices pour aider les chercheurs à ne pas se faire piéger, liste qui a malheureusement été retirée en janvier dernier suite aux nombreuses pressions qu’il a reçues.
Claritive Analytics qui a racheté les activités Propriété Intellectuelle de Thomson vient d’acquérir Publons et sa plateforme à destination des chercheurs pour partager, discuter et mettre en valeur le travail des reviewers. Le CEO de Claritive a ainsi annoncé que l’entreprise souhaitait investir dans des solutions d’analytics et d’optimisation des workflows pour aider ses clients à accélérer leur processus d’innovation.
LexisNexis a récemment lancé une base de données appelée LexisNexis Media Contacts Solution qui recense plus de 800 000 contacts médias dans plus de 200 pays. Cette base permet ainsi d’identifier des journalistes et influenceurs.
Du côté de l’information business et financière, les opérations de rachat et partenariats se font nombreuses.
Nous apprenions récemment le rachat de Bureau Van Dijk (Orbis, Diane, Zehyr, etc.) par l’agence de notation Moody’s pour 3.3 milliards de dollars. Pour Moody’s, l’opération a pour but d’étendre ses activités « en services d’analyse de risques et d’évaluation analytique ».