Les longues requêtes booléennes n’ont pas encore dit leur dernier mot surtout dans les outils de recherche professionnels.
Savoir construire des requêtes expertes reste une compétence indispensable pour le professionnel de l’information.
Mais cela n’est pas toujours simple. Car il faut d’une part penser aux différentes composantes de sa requête sans oublier certains concepts ou mots-clés importants. Et d’autre part, il est nécessaire de savoir correctement traduire sa question dans la syntaxe de l’outil de recherche que l’on utilise.
Et comme dans toute construction humaine, on n’est jamais à l’abri d’une erreur.
Il y a une vingtaine d’années, les outils de recherche d’information dans un contexte professionnel se divisaient en deux catégories bien distinctes.
- d’un côté les bases de données et serveurs professionnels qui donnaient accès à des contenus payants (articles de presse, articles scientifiques et académiques, brevets, études de marché, données financières, profils pays et d’entreprise, etc.)
- de l’autre, les outils de recherche gratuits du Web ouvert (moteurs de recherche, annuaires généralistes et spécialisés, métamoteurs, portails sectoriels, etc.) qui donnaient essentiellement accès à des contenus gratuits.
Lire aussi :
Bien interroger les outils de recherche gratuits : une multitude de méthodes
Les pratiques des internautes évoluent vers toujours plus de recherches et de navigation sur mobile, qu’il s’agisse de smartphones ou de tablettes. De fait, les grands acteurs du Web, que ce soit les moteurs, les réseaux sociaux ou encore les sites de e-commerce orientent toujours un peu plus leur stratégie et leurs innovations vers ces supports mobiles.
Lire aussi :
Veille et recherche d’information en mobilité : quelles solutions offrent les outils professionnels ?
Les challenges qui attendent les professionnels de la veille et de la recherche d’information en 2019
« Rechercher l’information stratégique sur le web » : votre nouveau guide au quotidien
Rechercher l’information stratégique sur le web
Il y a quelques mois, Eric Léandri, PDG de Qwant avait annoncé que 2018 serait une année déterminante pour le moteur français qui mise sur le respect de la vie privée. Au regard des dernières actualités, cela semble plutôt bien parti...
Le ministère des Armées, la ville d’Issy-les-Moulineaux, la région Ile-de-France, la région Normandie, France Télévision ou encore l’Assemblée Nationale ont récemment annoncé qu’ils allaient ou avaient déjà adopté le moteur de recherche Qwant « par défaut ».
Lire aussi :
Google et la « recherche personnalisée » : quel impact pour les professionnels de l’information ?
Les outils et plateformes de veille, par définition, surveillent un périmètre et des sources à partir d’un instant t et de manière itérative sur une certaine durée.
Les termes veille et antériorité ou rétroactivité semblent donc à première vue antinomiques. Les outils de veille sont associés au futur mais cherche le présent, là où les moteurs de recherche ou bases de données sont associés au passé.
Pourtant, il est impensable de penser la veille sans un minimum d’antériorité, que ce soit au niveau du sourcing, de la mise en place des sujets de veille ou bien même quand la veille est déjà mise en place et fonctionne depuis longtemps.
Cette question renvoie à l’éternelle distinction et débat entre la veille et la recherche d’information.
Pour certains, il existe une distinction claire et nette entre ces deux disciplines. La veille est un processus itératif et continu qui débute à un instant T, s’intéresse au présent et au futur, avec entre autres, la détection de tendances et signaux.
Alors que la recherche d’information est ponctuelle, interroge le présent et le passé et que l’on cherche généralement à obtenir une vision la plus exhaustive possible d’un sujet ou d’un événement.
Il y a encore une dizaine d’années d’ailleurs, il s’agissait souvent de deux métiers bien différents, avec les « veilleurs » amenés à réaliser la veille d’une part et les documentalistes dédiés à la recherche d’information d’autre part. Mais aujourd’hui, il est de plus en plus rare de voir ces deux fonctions dissociées. La veille est d’ailleurs de plus en plus une compétence intégrée à de nombreux postes, postes de documentalistes bien sûr, mais aussi d’ingénieurs, chercheurs, ou chargés de marketing ou communication.
A l’inverse, pour d’autres personnes, il n’existe finalement pas de distinction entre la veille et la recherche d’information, et c’est finalement le terme Veille qui l’emporte et englobe sans distinction la veille au sens strict du terme et la recherche d’information ponctuelle.
Rechercher sur le Web classique est une chose ; effectuer des recherches sur les réseaux sociaux en est une autre.
Si les moteurs de recherche classiques comme Google et Bing sont adaptés à la recherche sur les sites Web tels que les sites d’entreprises, sites institutionnels, sites d’actualités, blogs, forums, ils ne sont pas d’une très grande utilité lorsque l’on souhaite obtenir des résultats issus de réseaux sociaux comme Twitter, Facebook, Instagram, Pinterest ou encore LinkedIn.
Talkwalker, acteur présent sur le marché de la veille depuis une petite dizaine d’années est surtout connu pour sa plateforme de social media monitoring du même nom et pour les Talkwalkers Alerts, un système d’alertes Web gratuit fonctionnant sur le même principe que les Google Alertes.
En février dernier, Talkwalker a annoncé le lancement d’un nouveau produit appelé Quick Search, qui se définit comme un moteur de recherche permettant d’interroger avec une antériorité de 13 mois les médias sociaux, sites d’actualités, blogs et forums.
Dans le dernier numéro de NETSOURCES (n°132 - janvier/février 2018), nous avons analysé la place grandissante de la recommandation de contenu dans les outils de recherche aussi bien grand public que professionnels, et l’impact que cela peut avoir sur les pratiques de veille et de recherche d’information.
Nous aborderons aujourd'hui la recommandation appliquée aux outils et sources d’information scientifiques, techniques et académiques :
Quelle est aujourd’hui la place des systèmes de recommandation de contenus dans les moteurs de recherche académiques, les serveurs et bases de données scientifiques, académiques et brevets, les outils de recherche développés par les éditeurs, les réseaux sociaux académiques, etc. ? Et qu'apporte ce système de recommandation au processus de recherche et de veille dans ces domaines ?
La recommandation de contenus prend une place toujours plus importante dans l’univers du Web avec l’accroissement de la recommandation humaine, lié d’une part, au développement des médias sociaux et des outils du Web 2.0 et d’autre part, à la multiplication des systèmes et algorithmes de recommandations automatiques, grâce aux progrès de l’informatique d’abord et plus récemment de l’intelligence artificielle.
Quand on pense aux systèmes de recommandations, on pense en premier lieu aux sites d’e-commerce tels que Amazon qui nous propose des produits similaires à ceux que nous consultons ou susceptibles de nous intéresser, Netflix qui nous recommande des séries et des films qui pourraient nous plaire ou encore Spotify qui nous signale des morceaux et artistes correspondant à nos goûts musicaux.
Mais aujourd’hui, la recommandation est partout et il ne se passe pas un mois sans que l’on ne voie surgir une nouvelle fonctionnalité ou de nouveaux outils grand public et professionnels nous promettant de nous faire découvrir automatiquement des contenus nouveaux qui pourraient nous intéresser et nous faire sortir de notre bulle informationnelle ou des contenus similaires à ce que nous consultons.
Dans l’imaginaire collectif des professionnels de l’information, Google Scholar, le moteur de recherche académique de Google, apparaît comme un concurrent des serveurs et bases de données payantes comme Scopus, Web of Science, Proquest, Proquest Dialog, etc.
S’il est de notoriété publique qu’une grande partie du contenu des sites et outils des éditeurs scientifiques se retrouvent sur Google Scholar, cela paraît moins évident pour le contenu des bases de données disponibles sur les grands serveurs.
Pourtant, on apprenait il y a peu que Google étendait sa collaboration avec Proquest en indexant près d’un demi million de thèses disponibles dans la base de données ProQuest Dissertations & Theses Global™ database (PQDT).
Si Google détient le quasi-monopole du marché de la recherche d’information Web grâce à une ambition et une intelligence hors normes, force est de le reconnaître, il ne détient heureusement pas le privilège de l’innovation. Le Goliath du Search donne même assez souvent envie à des David en herbe de relever le défi de la recherche et d’inventer des modèles de recherche alternatifs.
On constate avec plaisir que la France est présente sur ce terrain, les exemples ne manquant pas, avec pour les plus connus, Exalead, Qwant et maintenant Xaphir.
Parmi les initiatives qui ont vu et continuent de voir le jour, il existe une catégorie de moteur particulière : le « human powered search engine », que l’on pourrait traduire par moteur de recherche humain, ou « à modération humaine », comme les qualifie Phil Bradley sur son blog. Ce type de moteur se différencie en ce qu’il réintroduit l’expertise humaine dans un modèle de recherche algorithmique dominant.
Depuis de nombreuses années, la recherche d’information sur le Web fait la part belle aux outils généralistes : Google, Bing, Twitter, etc. Et une partie non négligeable des outils de recherche thématiques gratuits (les annuaires thématiques par exemple) disponibles sur le Web ouvert et qui existaient depuis de nombreuses années ont aujourd’hui disparu ou ne sont plus mis à jour.
Alors qu’il y a une dizaine d’années, on disposait de toute une panoplie d’outils pour rechercher de l’information sur le Web ouvert (annuaires, moteurs, métamoteurs, moteurs spécialisés et thématiques, etc.), ces dernières années, on avait le sentiment que le choix s’était considérablement réduit pour ne laisser la place qu’à Google ou aux moteurs internes des grands médias sociaux comme Twitter, Facebook, LinkedIn, etc.
Précisons que nous nous intéressons ici aux outils gratuits de recherche sur le Web et non aux serveurs et bases de données qui continuent d’exister et de se développer.
Être un concurrent direct de Google n’est sûrement pas facile tous les jours...
On apprenait il y a peu qu’Apple avait décidé de remplacer Bing par Google sur IoS et Mac. Désormais, les utilisateurs des produits Apple effectueront donc leurs recherches Web par défaut sur Google.
Un nouveau coup dur pour Bing, qui n’en est pourtant pas à sa première déconvenue.
La veille et la recherche d’informations audiovisuelles diffèrent considérablement des veilles presse ou Web et, ce en raison même du format de leur contenu.
Certes, les vidéos ou fichiers audio sont aujourd’hui légion sur le Web et il n’est pas difficile de rechercher et d’accéder à des vidéos gratuitement en interrogeant simplement le moteur de vidéos de Google.
Mais cela se complique considérablement quand on souhaite effectuer des recherches ou surveiller le contenu d’émissions ou de vidéos dans leur intégralité afin de savoir si un ou plusieurs termes y ont été cités. Effectuer une recherche textuelle sur du contenu qui ne l’est pas représente alors un véritable challenge...
Cette conférence rassemblait Julie Egal (Market & competitive intelligence, Innovation, chez un grand acteur du tourisme en France), Frédéric Martinet (Consultant veille et intelligence économique, Fondateur, Actulligence Consulting), Thierry Lafon (Chargé d’analyses stratégiques, La Poste), Alfred Huot de Saint Albin (Secrétaire général, AEGE1) et Carole Tisserand-Barthole (rédactrice en chef de BASES et NETSOURCES).
Anne-Marie Libmann, directrice opérationnelle chez FLA Consultants, animait le débat.
Depuis plusieurs mois, on ne comptait plus les actualités négatives sur les fonctionnalités de recherche de LinkedIn. Car si le réseau social est toujours leader sur le marché et propose des fonctionnalités toujours plus innovantes, l’aspect recherche ne semblait pas ou plus être une de ses priorités.
Il semble que LinkedIn ait décidé de faire machine arrière puisqu’il réintroduit des fonctionnalités de recherche même dans sa version gratuite.
Cela coïncide avec le lancement de sa nouvelle interface depuis le 20 janvier dernier. Tout le monde n’en dispose pas encore car le déploiement se fait progressivement dans tous les pays du monde.
Facebook a, depuis ses débuts, l’image d’un réseau social grand public orienté vers la sphère privée avec, de fait, un intérêt limité pour la veille et la recherche d’information, à l’exception des veilles d’opinion, marketing ou encore d’e-réputation où l’on se focalise justement sur l’opinion publique.
Depuis quelques années, Facebook propose de nouvelles fonctionnalités et innovations qui l’ont fait progressivement entrer dans la sphère professionnelle, quitte à marcher dans certains cas sur les plates-bandes de Twitter ou encore de LinkedIn. Mais Facebook est-il pour autant devenu un terrain de chasse incontournable pour tous les professionnels ?
Le Ministère de l’éducation Nationale, de l’Enseignement et de la Recherche vient de lancer en version beta ScanR, un moteur de recherche permettant d’identifier des organismes de recherche publics et privées (petites, moyennes et grandes entreprises).
Quand on connaît la difficulté qu’il y a à localiser des experts ou des acteurs sur une thématique précise, on ne peut que se féliciter du lancement d’un tel produit.
Mais comment fonctionne t-il, quelles sources interroge t-il et quelles sont ses limites ?
Du côté du géant américain Google, l’actualité ne manque pas aussi bien au niveau du moteur de recherche que de ses autres services.
L’entreprise travaille actuellement sur un algorithme pouvant deviner où une photo a été prise même quand l’utilisateur a désactivé la géolocalisation (et notamment supprimé les données exif qui fournissent ces informations de localisation). Pour le moment, le système arrive à reconnaître le continent dans 48% des cas, le pays dans 28 % des cas, la ville dans 10% et la rue dans 3.6% des cas. Il faudra encore un peu de travail avant que le concept présente un réel intérêt.
Sur le moteur Google images, les internautes peuvent désormais bookmarker les images qui les intéressent (seulement aux Etats-Unis pour le moment).
Enfin, YouTube a ajouté une nouvelle fonctionnalité permettant de flouter des zones sur une vidéo. Cette fonctionnalité n’est bien sûre accessible qu’aux personnes propriétaires de la vidéo souhaitant la charger sur YouTube.
On le sait, Google indexe les documents au format PDF, mais ce que l’on sait moins, c’est qu’il les met peu souvent à jour (c’est-à-dire qu’il ne retourne pas souvent pour crawler un même document) car il considère que les documents PDF sont des documents « stables » qui sont rarement modifiés ou mis à jour. Ce n’est donc pas en passant par Google que l’on pourra surveiller efficacement les changements sur un document PDF.
Qui n’a pas rêvé de trouver, en un clin d’œil et de façon certaine, sans reconstitution à partir de déductions hasardeuses, l’adresse mail d’une personne potentiellement intéressante. Cela peut se faire de façon relativement simple avec des outils gratuits.
Les outils payants comme www.emailfinder.com sont certainement plus performants mais couvrent un ensemble de besoins la plupart du temps trop larges par rapport au besoin immédiat que l’on a la plupart du temps.
Il n’est pas possible de commencer cette rubrique sans débuter par Google, dont l’actualité est chargée.
Récemment, l’un des porte-paroles de Google a annoncé lors de la conférence SMX Advanced de Seattle (les 2 et 3 juin derniers) que le moteur n’indexait pas toutes les urls rencontrées lors de son exploration. Google aurait ainsi accès à plus de 30 mille milliards d’urls mais n’aurait pas la capacité de stocker un tel volume.
Lors d’une recherche sur le moteur, il faut donc bien garder à l’esprit que Google ne lancera pas la recherche sur l’intégralité du Web mais une partie seulement.
Toujours au niveau de la recherche, le géant du Web vient d’annoncer que dans 10 pays (dont les Etats-Unis et le Japon), le nombre de recherches sur téléphones mobiles dépassait désormais le nombre de recherches sur ordinateurs ou tablettes. La firme ne donne malheureusement aucune indication sur les 8 autres pays.
France Labs, une startup fondée en 2011 par trois anciens de SAP, met sur le marché son nouveau moteur de recherche d'entreprise, Datafari 1.0. L’une de ses particularités est d’être un moteur open source clé en main, de la configuration à l’usage, en passant par l’administration web.
Dafatari annonce permettre aux entreprises de retrouver leurs données où qu’elles soient, et se situe résolument dans le contexte de la recherche des données à l’ère du cloud et du big data. L’entreprise peut retrouver ses données, généralement éparpillées et provenant de multiples sources, en connectant les flux souhaités au moteur de recherche.
S’il y a bien une information qui est passée complètement inaperçue au cours des derniers mois, c’est celle de la disparition du moteur de blog de Google, « BlogSearch », qui permettait d’effectuer sa recherche sur un index uniquement composé de blogs et non sur l’index général du moteur.
Cette disparition est-elle le fruit d’une désaffection des internautes pour les blogs, les blogs ont-ils perdu de leur singularité au point qu’il n’est plus nécessaire de les différencier des autres types de sources ou bien est-ce simplement un pas de plus dans la stratégie de simplification du géant américain qui effectue un grand ménage de printemps dans ses services tous les ans à la même période (iGoogle, Google Reader, etc) ?
Google dispose désormais d’une nouvelle section intitulée « Dans l’actualité ».
Par rapport à l’ancien encart « actualités » qui se contentait de présenter dans l’onglet de recherche les premiers résultats de Google News, cette nouvelle section présente un ensemble de médias (articles, mais aussi blogs, vidéos youtube ou posts issus de réseaux sociaux) liés aux dernières nouvelles et qui ne sont pas nécessairement indexés par Google Actualités.