Les moteurs à la recherche du temps


LA CULTURE DE L’INSTANTANEITE
            
Le 1er avril dernier, le quotidien anglais “The Guardian” annonçait son intention de devenir le premier journal au monde diffusé exclusivement sur Twitter, sa version papier étant devenue trop coûteuse. Il s’agissait bien entendu d’un poisson d’avril, mais ce canular témoigne de l’importance prise non seulement par le célèbre site de micro-blogging, mais aussi par les outils temps réel dans leur ensemble.
             
Tout récemment également, et pour la première fois de son histoire, Facebook a concentré aux Etats-Unis plus de trafic sur une semaine complète que le moteur de recherche de Google. C’est dire si cette nouvelle génération d’outils basés sur l’échange instantané d’informations constitue d’ores et déjà une concurrence sérieuse pour les moteurs de recherche classiques.

            
La navigation web mobile et l’utilisation grandissante des smartphones n’est évidemment pas pour rien dans cet engouement pour les applications temps réel.
             
Pour paraphraser Oscar Wilde, pourrait-on considérer que c’est la vie  qui imite le Web et non l’inverse ? Toujours est-il que le Web des années 2010  semble bien à l’image de la société actuelle, et tout particulièrement de la fameuse “génération Y”  caractérisée par la règle des 4 i : individualisme, interconnexion, inventivité et impatience.
           
On retrouve cette notion d’immédiateté dans la définition du Web temps réel  que donne Dave Winer, créateur des standards RSS 0.91 et 2.0: “Il arrive sans attendre”[1]. Pourtant, cette notion de “Web temps réel” reste très floue et désigne plusieurs éléments liés à la recherche d’information et à la veille. S’agit-il en effet de publication, d’indexation, de collecte ou recherche en temps réel ?
           
Nous allons tenter d’en dégager les enjeux multiples, et de dresser un panorama des moteurs de recherche temps réel. Nous étudierons également l’évolution des flux RSS vers une prise en compte de l’immédiateté, et distinguerons les secteurs les plus concernés par la veille temps réel.
             
DES ENJEUX MAJEURS DANS LE MONDE  DU SEARCH
             
Pour les moteurs de recherche classiques, l’un des principaux enjeux est désormais de pouvoir restituer en temps quasi-réel les résultats de recherche. En effet, même si les moteurs ont connu au fil des années de grands progrès dans ce domaine, le temps de rafraîchissement de leur index est encore loin de s’effectuer au fur et à mesure des publications de nouveaux contenus sur le Web.
             
Plusieurs protocoles apparus récemment permettent d’améliorer les performances, notamment le protocole PubsubHubbub, basé sur le format Atom et utilisé actuellement par Google Alert et Google Reader. Selon le blog ReadWriteweb[2], Google mettrait au point pour son moteur un module d’indexation basé sur cette technologie. L’index du moteur serait ainsi réactualisé plus rapidement grâce à un système de notification des nouveaux contenus. Pour cela, les éditeurs de contenus devront créer un “hub” dont le contenu se rafraîchit en temps réel, et qui transmet une alerte au flux. Ce nouveau dispositif viendrait compléter et enrichir la collecte classique par les spiders.
             
Parallèlement, l’actualisation des flux RSS en temps réel est rendue désormais possible par  la nouvelle extension RssCloud. Dès qu’un nouvel élément est publié sur un site (par exemple, un billet dans un blog), la notification sera effectuée en temps quasi-réel via les agrégateurs de flux.
              
Cette technologie, promise à un grand avenir, va être incorporée entre autres dans la nouvelle version Wasabi de Netvibes.
            L’autre  enjeu majeur du temps réel est de permettre une recherche sur un corpus particulier, lié essentiellement aux réseaux sociaux et aux plates-formes de microblogging, et tout particulièrement Twitter. Ce dernier apparaît, selon l’expression même de Danny Sullivan[3], comme l’élément central d’un “système solaire” autour duquel gravitent de nombreux satellites.
             
LA NEBULEUSE TWITTER ET LA VAGUE DES MOTEURS TEMPS REEL
             
Certains de ces nouveaux moteurs se contentent d’indexer le contenu des “tweets”, c'est-à-dire des messages courts échangés sur la plate-forme Twitter. C’est le cas de Tweetmeme ou encore Twitter Search. Ce dernier permet de créer un flux RSS associé à une requête mots-clés, afin de surveiller l’actualité d’une personne, ou d’une marque.
             
Au-delà de ces deux exemples, les applications développées autour des tweets connaissent une croissance exponentielle. En janvier 2010, le blog “Web temps réel” publiait une liste de rien moins que cent services et applications pour Twitter, témoignant une fois de plus du dynamisme et de la création autour de cette plate-forme. Parmi les nombreuses applications concernant  la recherche ou la veille, citons Tweetbeep pour des alertes mots-clés, Snapbird pour retrouver un tweet perdu, Twitscoop pour suivre les tendances, Bettween pour suivre des conversations… La liste – non exhaustive – se consulte à l’adresse suivante : http://webtempsreel.com/100-applications-twitter-2010-98
             
Dans la nébuleuse des outils Twitter, on peut distinguer également Retweetist, qui fait ressortir les URLs qui ont été le plus retwittées, créant ainsi une sorte de tri par popularité à la manière du PageRank de Google. Même principe chez OneRiot, qui va effectuer les recherches non pas dans les tweets émis, mais dans le contenu associé, en suivant les liens contenus dans les tweets et en explorant leur contenu. On appréciera pour son ergonomie le service Tweetabs, qui offre la possibilité de suivre simultanément l’actualité de plusieurs mots-clés, que l’on visualisera sur un même écran via une répartition en colonnes.
            
Mais il serait pour le moins réducteur de limiter sa veille aux seuls contenus de Twitter ; d’autres moteurs peuvent inclure dans leur périmètre des agrégateurs d’actualité, des services de mutualisation d’images, de vidéos ou de favoris, voire d’autres services de microblogging, comme par exemple Jaiku ou Tumblr.
             
Christophe Deschamps, dans son blog Outils froids[4], présentait en juin dernier un tableau comparatif de 14 moteurs “temps réel”.  Il distinguait dans ce comparatif les deux moteurs Social Mention et Yauba pour les multiples sources prises en compte ainsi que les services associés, notamment l’option de cartographie proposée par Social Mention. Ce dernier est également l’un des rares outils de cette famille à disposer de fonctions de recherche avancée mettant en œuvre des opérateurs booléens. Il offre de plus une analyse automatisée du “sentiment” positif, neutre ou négatif du contenu d’un message.
             
Parmi les interfaces les plus originales, il convient de mentionner celle de Scoopler, qui se présente comme un “révélateur de scoops” et indexe le contenu des principaux réseaux sociaux comme Twitter, Flickr, Digg ou Delicious, ainsi que des médias.
             
L’interface partage en deux les résultats, distinguant sur deux colonnes ceux issus de Twitter et ceux provenant des autres réseaux.
             
On retrouve cette variété de sources chez Factery Labs, un moteur apparu début 2010. Fort son slogan “Get Facts, not links”, ce moteur original associe la détection sur les thèmes d’actualité les plus populaires dans les sites de micro-blogging avec la recherche dans des sites classiques d’actualité ou des sources réputées dignes de confiance.
             
Collecta, lancé en juin 2009, mélange également les résultats de recherche dans l’actualité sociale et/ou journalistique.
            
LES MOTEURS CLASSIQUES CONTRE-ATTAQUENT
             
Bien entendu, les géants de la recherche classique n’allaient pas demeurer absents de ce nouveau terrain d’affrontement. 
            
Les grands moteurs de recherche ont au cours des derniers mois multiplié les alliances avec ces nouveaux venus, qui commencent à leur porter ombrage.
             
Yahoo! ambitionne de devenir “le dernier salon où l’on tweete” grâce à un partenariat conclu en février 2010. Les internautes vont ainsi pouvoir consulter leurs flux Twitter à partir de nombreux services Yahoo!. Ils  pourront également  échanger sur Twitter des contenus glanés sur Yahoo!. Enfin, les différents sites de Yahoo! afficheront en temps réel les dernières informations diffusées via Twitter, cette fonctionnalité étant déjà disponible pour les internautes américains. Yahoo! rejoint ainsi Microsoft et Google, qui avaient conclu en octobre 2009 un partenariat avec Twitter, permettant d’intégrer instantanément les tweets dans les résultats des moteurs.
            
Désormais, Google et Bing affichent également en temps réel dans leurs résultats les statuts publics issus de Facebook, correspondant à près de 4 millions de profils, c'est-à-dire les Fan pages et les profils des personnes ayant autorisé l’accès public à ces informations. Ce qui pose la question du classement des résultats proposés par les moteurs, que ce soit Google, Bing et Yahoo!. Les critères classiques utilisés par les moteurs (occurrences de mots-clés, position dans le texte, indice de popularité…) se révèlent peu adaptés à la structure des tweets. Selon Amit Singhal, chargé du développement de la recherche en temps réel chez Google, le moteur classerait les tweets en fonction du nombre de “followers”, mais également en fonction de la réputation de ces followers[5]. Un système somme toute voisin du PageRank… Attention, l’abus de hashtags (voir plus bas la définition de ce terme), serait considéré par Google comme une forme de spam et signifierait une mauvaise qualité des messages !
             
En ce même mois de février 2010, Facebook et Microsoft prolongeaient leur partenariat axé autour du moteur Bing, qui devient ainsi le moteur du célèbre réseau social. L’objectif de ces manœuvres est clair : contrer l’empire Google !
             
Le géant californien, de son côté, n’est pas en reste d’annonces en ce début 2010, avec les initiatives Social Search et Google Buzz. La première application permet de chercher en une seule requête aussi bien sur Internet que sur les réseaux sociaux utilisés par l’internaute. 

Avec Google Buzz, les utilisateurs de Gmail peuvent  partager des liens, photos, images… et échanger des tweets ouverts aux commentaires.
            
L’objectif, là encore, est de répondre à la demande d’instantanéité et de  fidéliser un public, qui pourrait se laisser séduire par les “concurrents” Facebook et Twitter…                                 
Menace bien réelle, puisque Facebook compte aujourd’hui davantage d’utilisateurs que Gmail. Google Buzz apparaît ainsi comme une version “allégée” et plus ergonomique de Google Wave, lancé en fin 2009.
             
RSS ET TEMPS REEL
            
De nombreux veilleurs utilisent des agrégateurs en ligne tels que Netvibes ou Google Reader, qui pourraient sembler désormais plus lents et complexes que les plates-formes de microblogging. Un nouveau clivage se dessinerait-il ainsi entre  blogging et microblogging, entre  agrégateurs RSS et Twitter ?
             
Pourtant, avec les nouveaux protocoles mentionnés plus haut, les agrégateurs RSS gagnent en rapidité et en ergonomie.
             
Ainsi, la nouvelle version “Wasabi” de Netvibes, encore en version bêta privée en ce printemps 2010, offre de nombreuses évolutions. Les mises à jour s’effectueront en temps quasi-réel grâce à la technologie Instant Udpate Hub, qui intègre l’extension RSSCloud mentionnée plus haut.
             
Netvibes ambitionne avec cette nouvelle version de devenir le “lecteur de flux d’informations le plus rapide du monde”. Les veilleurs n’auront donc pas à choisir, pour des raisons de rapidité, entre les applications basées sur le microblogging ou des agrégateurs RSS, mais seront à même de mixer les deux et d’obtenir le meilleur de chacune des solutions. 
            
LA RECOMMANDATION EN TEMPS REEL
             
Le développement des services 2.0 et des communautés virtuelles de tout type a donné naissance à de nouvelles formes de recommandations “populaires”, qui viendraient rivaliser avec les formes classiques de recommandations dites “autoritaires”.
             
L’internaute devient ainsi à la fois demandeur et producteur de recommandations, et ce secteur n’échappe pas non plus à la déferlante du temps réel.
             
Là encore, les enjeux sont de taille. Google aurait ainsi récemment déboursé 50 millions de dollars pour racheter le moteur Aardvark, créé par des anciens de la firme californienne. Le principe de ce moteur est de mettre en relation un internaute posant une question avec des personnes inscrites sur les réseaux sociaux, et susceptibles de répondre à la question posée. On retrouve ainsi le principe de la résolution d’une question via l’“appel à un ami”, mais démultiplié par la puissance des réseaux et mettant en œuvre la fameuse sérendipité favorable aux trouvailles heureuses…
             
En France, l’application iphone Nomao se positionne également sur ce créneau en recommandant des lieux ou services aux internautes, en fonction de leurs goûts et affinités. Nomao ambitionne ainsi de devenir un service d'annuaire professionnel sur mobile, basé sur la recommandation en temps réel des utilisateurs.
             
VEILLE TEMPS REEL ET DONNEES MULTIMEDIA
             
La veille d’actualité suppose l’utilisation de données multimédia, image, audio ou vidéo. Là encore, on retrouve les flux RSS issus des plates-formes de mutualisation d’images et de vidéos, que l’on peut personnaliser à partir de mots-clés (voir Netsources n°79). On peut également utiliser les technologies “speech to text” qui permettent de retrouver un mot au sein d’un fichier audio. C’est le cas de l’application Voxalead (voir Netsources n°81), utilisée entre autres dans le nouveau site de l’Elysée !
             
Multimédia et temps réel s’accordent particulièrement dans le domaine des applications de e-learning (notamment le video streaming). Parmi les technologies émergentes, mentionnons également  l’hypervidéo, qui  est à la vidéo classique ce que l’hypertexte est au document textuel. On peut ainsi  doter des images animées de surfaces cliquables, afin de créer des  parcours de navigation entre différents contenus  interactifs. Combinée avec des réseaux sociaux ou des plates-formes de microblogging actualisées en temps réel, cette technologie devrait trouver de nombreuses applications dans l’enseigne-ment  à distance ou le marketing.
            
N’oublions pas non plus Twitpic, l’application de partage de photos associée à Twitter.
            
La combinaison de tweets et de fichiers images ou vidéos permet de générer des reportages “life streaming”.
             
QUI A BESOIN DE VEILLE EN TEMPS REEL ?
            
Différents secteurs d’activité vont se trouver plus ou moins concernés par cette veille temps réel. La veille d’opinion et le suivi de l’e-reputation d’une personne ou d’une entreprise s’y prêtent tout particulièrement. On pourra ainsi suivre à la minute près l’actualité d’une personnalité ou d’une marque. N’oublions pas en effet que les avis de consommateurs sur les marques sont très présents sur les services de microblogging : une étude de la Pennsylvania State University [6] portant sur 150 000 tweets mentionnant le nom d’une marque montre que 22,3% d’entre eux ont exprimé un avis ou une opinion, qu’elle soit positive ou négative. Le microblogging devient ainsi un nouvel élément à intégrer dans la panoplie de la veille marketing.
             
L’information financière est également concernée en premier lieu par l’accès immédiat à l’actualité, mais dans ce domaine, la fiabilité de l’information, de l’analyse ou de la recommandation est primordiale ! La veille financière en temps réel, ainsi que les avis et recommandations, pourraient ainsi sortir des salles de marchés et s’adresser à tout particulier.
           
 Twitter pourrait même être utilisé pour la veille sociale : le blog “Marketing 3”[7] y voit “un outil possible pour les syndicats”, ou du moins la possibilité de recueillir instantanément l’avis des salariés sur leurs conditions de travail, et d’obtenir ainsi un baromètre social
             
Enfin, on peut parler d’“indexation mots- clés en temps réel” à propos des hashtags. Un hashtag, dans le jargon de Twitter, est un mot-clé précédé du signe dièse, et décrivant le contenu d’un message.
            
 On retrouve ici le principe des tags et folksonomies issue du Web 2.0.
           
Le site Hashtags.org permet de suivre ces mots-clés en temps réel.
           
MAIS A-T’ON TOUJOURS BESOIN D’INSTANTANEITE ?
             
Pour autant, face à cette déferlante d’informations instantanées, il convient de prendre parfois un prudent recul. Le contenu des messages publiés dans les plates-formes de réseaux sociaux ou microblogging est extrêmement divers, allant de l’officiel à l’intime, et la forme courte des messages peut être source – de façon volontaire ou non – de nombreuses erreurs ou approximations.
             
Le professionnel de la veille, habitué à travailler sur des signaux faibles plutôt que sur des informations structurées et vérifiées, pourra trouver dans le “bruit documentaire” généré par l’information instantanée des éléments à caractère anticipatif ou original. Mais il conviendra comme toujours de les contextualiser et de les recouper, afin de leur donner du sens. Le veilleur professionnel est moins à l’affut du “scoop” que de l’“information critique”, qui ne se trouve pas forcément dans un flux d’informations publiées dans l’instant.
             
Par ailleurs, des critiques se sont fait jour à l’encontre de certaines utilisations des réseaux sociaux et du microblogging.
             
Dans un billet paru en juillet 2009 sur le blog Readwriteweb[8], Fabrice Epelboin dénonce l’agrégateur temps réel Friendfeed comme une “mauvaise projection de l’objet social” et s’insurge contre des “conversations fragmentées, voire schizophrènes”, dans la mesure où Friendfeed déporte une partie des commentaires de blogs et les sort de leur contexte.
             
Les spécialistes des sources d’information que sont les veilleurs documentalistes pourraient également émettre des réserves sur le principe des URLs raccourcies (tinyurl en anglais), bien commodes pour être incluses dans un tweet, mais dont la source n’apparaît pas de façon explicite…
            
Pour pallier cet inconvénient, on peut utiliser des extensions pour les navigateurs Firefox ou Chrome, qui permettent d’afficher dans une petite fenêtre l’URL raccourcie dans son véritable format, et donc de vérifier immédiatement d’où vient l’information et éviter les sites douteux ou sans intérêt.
             
On voit ainsi que le “Web Temps Réel” engendre tout à la fois de nouvelles formes de collecte, de traitement et de diffusion de l’information, ouvrant ainsi de nouveaux horizons à la pratique de la veille.
             
Au passage, et plus que jamais, les  différents maillons de la traditionnelle “chaîne de l’information” que sont les auteurs, éditeurs, documentalistes ou utilisateurs voient leurs rôles renouvelés. Dans le schéma documentaire classique, de nombreuses étapes pouvaient intervenir entre l’élaboration de l’information, sa mise en forme, sa validation, sa publication, éventuellement son indexation via des thésaurus, son traitement sous forme d’analyse ou de résumé…
            
Désormais, toutes ces opérations peuvent être réalisées parfois en quelques secondes. Une information d’ordre professionnel ou “grand public” pourra se retrouver diffusée au même moment en tous lieux de la planète, pour le meilleur ou le pire, et faire le tour de la Toile en un éclair. Le veilleur professionnel devra ainsi se partager  entre une information rare et chère, issue de sources très classiques (bases de données bibliographiques, revues à comité de lecture) et une information surabondante et gratuite, provenant des nouveaux outils de l’instantanéité.
            
Car  bien entendu, les différentes familles d’outils continuent de coexister, une nouvelle vague ne venant pas systématiquement remplacer la précédente…
             
Et si l’accès à l’information est désormais beaucoup plus facile et répandu qu’il y a une vingtaine d’années, il n’en va pas de même de la recherche d’informations et de la veille, qui se complexifient toujours davantage.
             
Laissons le mot de la fin à Clive Thompson[9], qui explique dans un article paru en septembre dernier dans la revue Wired,  comment la nouvelle génération de moteurs – illustrée par Tweetmeme, OneRiot, Topsy ou Scoopler – tentent de redéfinir les critères d’importance d’une information.
            
Les créateurs de ces moteurs expliquent que leur objectif n’est pas de répondre à des questions, comme le ferait Google, mais de donner à voir, comme à travers un trou de serrure, ce que le monde est en train d’effectuer à l’instant même.
            
Pour Edo Segal, pionnier du Web temps réel cité dans l’article de Wired,  “Google a organisé notre mémoire. La recherche temps réel organise notre conscience”.
            
Si l’on adjoint au “Web temps réel” les nouvelles applications de “réalité augmentée”, on pourrait en conclure que décidément, le Web des années 2010 imite de mieux en mieux la vie réelle…
             
[1] La définition donnée par Dave Winer est reprise ici : //fr.readwriteweb.com/2009/12/07/a-la.../dis-cest-quoi-web-temps-rel/
            
[2] www.readwriteweb.com/archives/google_developing_real_time_index.php
            
[3] //searchengineland.com/what-is-real-time-search-definitions-players-22172
            
[4] www.outilsfroids.net/news/comparatif-de-14-moteurs-de-recherche-temps-reel
           
[5] www.technologyreview.com/web/24353/?a=f
             
[6] www.marketingcharts.com/interactive/one-in-five-tweets-is-brand-related-10404/
            
[7] www.marketing3.fr/2009/08/13/le-micro-blogging-un-outil-possible-pour-les-syndicats/
             
[8] //fr.readwriteweb.com/2009/07/27/ analyse/friendfeed-cest-mal/
            
[9] www.wired.com/techbiz/people/ magazine/1710/st_thompson#ixzz0k9QcdOs



véronique Mesguich
Publié dans le n°85 de Netsources (Mars/Avril 2010)

Aucun commentaire:

Enregistrer un commentaire