Contenus multimédias : de nouveaux territoires pour la recherche d'information


Le Web vient de fêter ses vingt ans : l’âge des passions et des utopies, mais aussi l’âge du début de la maturité. Selon Tim Berners Lee, l’un de ses pères fondateurs, le Web est loin d’avoir livré encore tout son potentiel et de nombreuses innovations sont à attendre.
             
Le Web que nous utiliserons au cours des  prochaines années, ce “Web de demain”, sera incontestablement collaboratif, mobile, sémantique, et fera la part belle aux contenus multimédias. Images, vidéos et sons abondent désormais sur le Web  et les chiffres dans ce domaine sont éloquents : 100 millions de visiteurs uniques sur YouTube en janvier 2009, plus de 14 milliards de vidéos visionnées en ligne aux Etats-Unis ce même mois… (source : étude Comscore).  Selon Google, plus de mille milliards d’images seraient disponibles sur le Web !

             
En matière de fichiers vidéos, on trouvera de tout (mais pas tout !) sur le Web : podcasts, reportages, interviews, clips vidéos, extraits de films, émissions TV… sans oublier bien sûr les fameux  contenus images ou vidéos “générés par les utilisateurs”. 
             
Cette explosion de données constitue une formidable opportunité pour les moteurs de recherche textuels classiques, tandis que de nouveaux moteurs ou modes d’accès commencent à s’imposer.
            
Plates-formes de partages de vidéos, moteurs de recherche d’images, vidéos et sons se multiplient sur la toile : nous vous  proposons un tour d’horizon des principaux outils spécialisés et de leurs évolutions.
             
LES PLATES-FORMES DE PARTAGE DE VIDEOS
            
On ne présente plus YouTube, plate-forme collaborative de mise en ligne de vidéos, rachetée fin 2006 par Google et actuellement classée comme le 3ème site le plus visité au monde. 200 000 vidéos seraient mises en ligne quotidiennement sur cette plate-forme et l’on estime à 600 ans la durée nécessaire pour visionner l’intégralité des contenus disponibles !  
             
De nombreux autres services de recherche et partage de vidéos ont vu le jour au cours des dernières années : Dailymotion en France,  MetaCafé,  Revver (qui propose un système de rémunération aux internautes), Vimeo et autres Blip.tv.
            
La recherche sur YouTube s’effectue par mots-clés, les requêtes portant à la fois sur le titre du fichier, le résumé ou les tags décrivant le contenu. Les options de recherche avancée sont proposées à partir d’une recherche par tags et permettent l’utilisation des opérateurs booléens et de critères de langue, de durée ou date de mise en ligne. On peut même affiner la recherche selon le lieu d’enregistrement de la vidéo, à partir d’un système de géolocalisation basé sur Google Maps.
            
La page http://www.youtube.com/rssls fournit un grand nombre d’astuces destinées à paramétrer des flux personnalisés à partir de YouTube.
Par exemple,  le flux suivant permettra de surveiller l’apparition sur YouTube de vidéos taggées avec le mot clé “Obama” : www.youtube.com/rss/tag/obama.rss

Ce flux pourra être intégré dans n’importe quel agrégateur de flux. On peut utiliser plusieurs mots-clés en les combinant avec le signe+ (ex.: www.youtube.com/rss/tag/ obama+nato.rss).
            
Même principe sur Dailymotion : pour mettre en place une veille sur les vidéos taggées “Obama”, il suffit d’utiliser le flux suivant : www.dailymotion.com/rss/relevance/search/obama.
            
En complément de ces plates-formes à vocation généraliste, on trouvera des sites de regroupement de vidéos spécialisés dans des domaines tels que :
             
- l’enseignement, avec Teachertube (www.teachertube.com) et autres Schooltube (www.schooltube.com), qui diffusent des supports de cours en anglais destinés à des lycéens ou étudiants ;
             
- l’histoire, avec History.com qui présente des vidéos en relation principalement avec l’histoire des Etats-Unis (www.history.com/ media.do) ;
             
- a vie pratique et la vulgarisation scientifique, avec Videojug (www.videojug.com).
            
De grands “réservoirs” de vidéos sont également disponibles via des sites institutionnels : c’est le cas bien sûr de l’INA, fort de ses 100 000 archives d’émissions TV ou radio à consulter ou télécharger, ou bien de la bibliothèque numérique européenne Europeana, ou encore de la collection de webcasts de la Bibliothèque du Congrès, interviews sur des sujets historiques ou littéraires.  (www.loc.gov/today/cyberlc/index.php).
             
Le célèbre MIT a été pionnier dans la mise en ligne gratuite de supports de cours et tutoriels, sous forme de conférences vidéo. Des milliers de cours de mathématiques, biologie, informatique et bien d’autres sujets sont téléchargeables, tout en bénéficiant dans certains cas de leur traduction en français.  En France, le site ParisTech entre autres propose un accès libre aux ressources pédagogiques de ses équipes d’enseignants, qui en ont accepté le principe.
             
On citera également Internet Archive Movies Image, créé par Rick Prelinger, qui donne accès à 160 000 films ou documentaires américains libres de droit (y compris des films publicitaires des années 50-60) (www.archive.org/details/prelinger).
             
Enfin, dans un registre moins professionnel, Hulu.com (actuellement disponible uniquement aux Etats-Unis) diffuse de nombreuses séries TV américaines “cultes”. Le site pourrait être disponible courant 2009 en France, des pourparlers étant en cours avec les chaînes françaises et le site Dailymotion.
            
La convergence entre le Web et la télévision s’illustre également avec des sites de “télévision de rattrapage”, tel M6Replay, qui permet de revoir certaines émissions.
             
LES MOTEURS DE RECHERCHE VIDEOS           
            
Le terrain de la guerre des moteurs s’est aujourd’hui étendu aux contenus vidéo. Selon une étude récente commanditée par le moteur Truveo (et donc, pas forcément très objective…), ce moteur, propriété du groupe AOL, serait le plus complet des moteurs de recherche de vidéos en ligne.
            
Il dépasserait ses principaux concurrents, à savoir le moteur Blinkx, ainsi que les options de recherche vidéos de Google, Live Search et Yahoo.
            
Truveo revendique un index de plus de 300 millions de fichiers vidéo. Le moteur Blinkx,  qui permet de chercher dans des fichiers issus de la télévision, des films ou des clips, annonce de son côté répertorier plus de 35 milllions d’heures de vidéo et utilise des technologies de reconnaissance vocale avancée permettant d’analyser les contenus (www.blinkx.tv).
             
Egalement racheté par AOL, le moteur audio et vidéo Singingfish utilise des technologies “speech to text” de conversion de la voix en texte.
             
Même principe chez Pluggd, qui se distingue du précédent en indiquant l’emplacement d’un terme sur la bande son, et permet de se positionner à l’endroit même où ce terme est prononcé (www.pluggd.com)
             
A tester, l’interface de recherche très riche du moteur Open Video Project, qui donne accès à des fichiers issus d’organismes gouvernementaux américains comme la Nasa. De nombreux filtres sont proposés sur la description ou la transcription du contenu, mais aussi selon des critères de langue, durée, genre, format… (www.open-video.org/).
           
En février dernier, Microsoft lançait la nouvelle version de son moteur Live Search Video, avec pour objectif d’offrir des contenus localisés et personnalisés, en collaboration avec des partenaires locaux (par exemple, Dailymotion et Allociné pour la France).
             
Conséquence directe de la prolifération des plates-formes de partage de vidéos : l’apparition de nombreux méta-moteurs de recherche simultanée sur ces plates-formes américaines et européennes.
Parmi ces nombreux outils, beaucoup n’offrent guère de valeur ajoutée. On distinguera               
Exalead Video, puissant et riche en contenus, et bénéficiant des technologies Exalead (catégorisation automatique, extraction de tags…) (voir Netsources n°67), ainsi que VideoRonk, disponible sous forme de plugins pour les principaux navigateurs.
             
Le moteur d’images ou vidéos Pixsy se concentre, lui, sur les contenus les plus récents en explorant des milliers de flux RSS.
             
Les podcasts, ces fichiers sonores ou vidéos diffusés via la technologie RSS pour une écoute ultérieure, ont également explosé sur le Web et les moteurs suivent cette tendance, avec par exemple http://podemus.com, www.podscope.com, www.podcastdirectory.com...
             
Bien entendu, cette évolution pose la question des droits de diffusion et le cadre juridique est loin d’être encore défini à l’heure actuelle.
             
LA RECHERCHE DANS LES FICHIERS AUDIO
             
Mais la recherche d’information ne se limite pas à l’image fixe ou animée. Dans le domaine du son, on assiste également à une déferlante de technologies innovantes. La technologie Midomi par exemple (disponible sur iphone), permet de retrouver une chanson, à partir d’un simple extrait chanté ou fredonné…
             
Le  Web regorge de sites d’écoute de musique en streaming comme le célèbre Deezer (qui diffuse également des vidéos), Jiwa ou encore Last.fm. Tous ces sites disposent bien entendu de moteurs de recherche, Last.fm étant le plus avancé en matière de recommandation et filtrage collaboratif.
            
Les technologies de transformation automatique d’un document audio en texte  (speech to text) se sont beaucoup développées depuis les deux dernières années.
             
Il s’agit tout simplement de transformer un texte parlé en texte écrit. On peut citer dans ce domaine, outre les moteurs cités plus haut,  la technologie  EveryZing de reconnaissance vocale temps réel, ou Voxalead, créé par Exalead (http://voxalead.labs.exalead.com).
             
Ce moteur, encore expérimental mais très prometteur, permet actuellement de mener des recherches mots-clés dans des documents d’actualité radio ou télévisées. A l’instar de son grand frère Exalead, il offre la possibilité d’affiner sa recherche à partir de suggestions de mots-clés générées automatiquement.
            
 Google mène également des expérimentations dans le domaine des technologies “speech to text”, à travers  l’application Google Audio Indexing (http://labs.google.com/gaudi), créée durant la campagne électorale américaine en 2008 pour permettre une recherche dans les vidéos politiques…
             
Citons également  une initiative originale : la base de données collaborative Audio-Lingua  (www.audio-lingua.eu), constituée de fichiers audio de courte durée, enregistrés par des locuteurs natifs, libres de droits, pour une utilisation pédagogique ou personnelle.
             
DE NOUVEAUX MOTEURS DE RECHERCHE D’IMAGES
             
Les milliards d’images désormais disponibles sur la toile peuvent provenir de plusieurs types de “réservoirs” : des banques d’images professionnelles, rarement  libres de droits (Getty Images, Corbis, Eyedea, Magnum, AFP…), des plates-formes collaboratives (Flickr, Picasa, Photobucket, Fotolia), voire des réseaux sociaux.
             
Dans ce domaine de la recherche d’images, des moteurs innovants et originaux vont se mesurer aux grands moteurs classiques, qui ne cessent d’enrichir de nouvelles fonctionnalités leurs options de recherche. Google Images a ainsi ajouté  de nouveaux critères de tri : contenu de l'actualité, portrait, contenu photo, clipart, dessins, ainsi que la possibilité de chercher selon la taille exacte de l’image. Tout récemment, le moteur a annoncé la disponibilité de recherche d’images par couleur : on peut ainsi affiner une requête en choisissant une couleur dominante parmi 12 proposées. Par exemple, rechercher une photo représentant une fleur à dominante de couleur rouge…
            
 Yahoo! Images n’est pas en reste avec une nouvelle fonctionnalité très conviviale de prévisualisation, disponible depuis ce mois d’avril. Un clic sur une image extraite des résultats du moteur génère un cadre de visualisation présentant des informations sur l’image, ainsi que des contenus sur des sujets connexes. Des filtres de ciblage par taille ou couleur sont également disponibles.           
             
Mais il existe aussi d’autres solutions moins connues de recherche d’images ; citons, parmi les moteurs les plus originaux apparus récemment :
             
- Picsearch (www.picsearch.fr), pour sa rapidité et sa puissance, qui revendique plus de trois milliards d’images indexées ;
            
- Pixolu (www.pixolu.de), pour son interface en flash, qui mise sur l’interactivité. A partir d’une recherche par tags, l’utilisateur sélectionne les images qui lui semblent les plus intéressantes, et le moteur relance une recherche affinée en fonction de la sélection ;
            
 - Picitup (www.picitup.com), pour son option d’affinage de la recherche selon des filtres visuels (visage, paysage…) ou par similarité ;
             
- Cydral (www.cydral.fr),  pour ses options de recherche par similarité : on pourra rechercher non pas à partir de mots-clés, mais d’une image que l’on aura choisie ;
             
- Search22 (www.search-22.com/downloads/ puis onglet Image Search), pour ses fonctions de méta-recherche dans plusieurs moteurs d’images ;
            
- Ginipic (www.ginipic.com), autre méta-moteur, pour son ergonomie et le nombre de banques d’images prises en compte.
            
Certains moteurs, comme Retrievr (http://labs.systemone.at/retrievr), permettent même de rechercher sur la plate-forme Flickr, à partir d’un dessin réalisé par l’internaute !
            
Dans un même ordre d’idée, Xcavator (www.wcavator.net), moteur de recherche sur les réservoirs Fotolia et Istockphoto, offre la possibilité de dessiner sur une image afin d’affiner une recherche.
             
DU TAG A LA RECONNAISSANCE GRAPHIQUE AUTOMATIQUE
            
 La pratique du tagging a accompagné l’essor des plates-formes de partage d’images comme Flickr (Yahoo!) ou Picasa (Google), ou encore les plates-formes de mutualisation de vidéos citées plus haut.
             
En l’occurrence, les tags peuvent être extraits automatiquement du titre ou de la description, ou encore apposés par les internautes eux-mêmes.
             
Sur Flickr, on peut “geotagger” des photos, c'est-à-dire les relier au pays d’origine.
             
La recherche s’effectuera à la fois via des tags classiques et via une carte géographique basée sur… Yahoo! Maps. Le grand concurrent de Flickr, Picasa, offre la possibilité d’appliquer un geotag à des photos grâce à Google Earth.
             
La recherche d’images basée sur la description textuelle du fichier, ou même via les tags, donnera satisfaction pour des requêtes simples, telles qu’un nom de personne, ou de lieu. Cependant, dès lors que la requête se complexifie, il convient d’utiliser des moyens plus sophistiqués.
            
 La recherche d'images par le contenu – en anglais : Content Based Image Retrieval (CBIR) –, est une technique visant à effectuer des recherches d'images à l'aide de requêtes portant sur les caractéristiques visuelles d'une image : texture, couleur, forme...
           
Le moteur Exalead a été un pionnier dans le domaine des technologies de reconnaissance de forme, grâce à un partenariat avec la société LTU Technologies.
             
Le moteur est ainsi capable d’identifier les images qui contiennent des visages (voir Netsources n°67). Cette option est aussi disponible chez Google, qui a d’ailleurs acheté la société Neven Vision, spécialisée dans la reconnaissance d’images (voir Netsources n°68). Live Search propose également d’affiner sa recherche sur un critère “visage”, ou même “tête et épaules” !.
            
L’une des technologies les plus étonnantes dans ce domaine reste le service de reconnaissance de formes Riya, intégré au moteur de recherche visuelle Like.com, destiné au commerce électronique. A partir d’un produit sélectionné (par exemple, des chaussures rouges), le moteur peut lancer une recherche sur des images ressemblantes en terme de modèle, forme ou couleur. `
            
La technologie Riya peut également s’appliquer à la reconnaissance de visages, à partir de photos mises en lignes et taggées par les internautes eux-mêmes (www.riya.com/groundTruth).
            
Le moteur Tineye (http://tineye.com) propose une option intéressante de recherche inversée : à partir d’une photo choisie par l’internaute, le moteur recherchera les sites qui contiennent une image similaire ou identique, offrant ainsi des applications de détection de photos utilisées sans respecter les droits d’auteur…
            
On retrouve cette technique de recherche par similarité, mais adaptée à la recherche par couleurs,  sur le moteur expérimental Idee Multicolour Search Labs 
(http://labs. ideeinc.com/). On pourra ainsi rechercher des images extraites de Flickr contenant à la fois par exemple du bleu clair, du vert foncé et du jaune…
             
Mais la palme de l’originalité revient peut être à Moodstream (http://moodstream.gettyimages.com), véritable “générateur d’ambiances personnalisées”.
           
A l’aide de curseurs, l’internaute va définir son humeur du moment (à moduler entre joyeux et triste, calme et excité, comique et sérieux, nostalgique et contemporain, chaleureux et cool...), et le site va générer des images, vidéos ou ambiances sonores adaptées. Une façon originale et pertinente de rechercher dans le catalogue Getty, d’où est issu le service Moodstream.
             
Dans un même ordre d’idée, on peut citer également Musicovery (www.musicovery.com), web radio que l’on programme selon son émotion du moment.
            
DE NOMBREUX PROJETS EN COURS

La technologie Exalead a été retenue dans le cadre du projet de moteur multimédia Quaero, qui a reçu l’approbation de la Commission Européenne en 2008.
             
Un autre projet européen a été lancé en 2007 sous le nom de SAPIR, et “intégrera des technologies telles que la reconnaissance vocale, le traitement d'images, des algorithmes d'indexation, des mécanismes de classement sophistiqués et une recherche réelle dans les contenus audiovisuels”.
           
De nombreux autres projets sont en cours de développement en ce printemps 2009, notamment chez Orange, où l’on met au point “une solution qui retrouve des vidéos en fonction des sous-titres, d'une voix, ou même de la forme du visage”.
            
Orange devrait lancer prochainement un agrégateur d’actualités plurimédia, sous le nom de 24/24 actu, qui réunira les contenus textuels, audio ou vidéo issus de 20 médias partenaires. 
            
Ainsi, une pléiade de nouveaux producteurs, diffuseurs ou outils de recherche viennent enrichir le monde complexe du multimédia, où convergent de plus en plus les usages grand public et professionnels.
             
Communication, enseignement, marketing, culture, sciences, médecine…, autant de domaines où le multimédia s’impose comme un élément incontournable.
           
Avec l’avènement de l’internet mobile et le développement d’appareils numériques toujours plus simples et abordables, gageons que la production et la recherche de données multimédias va encore évoluer vers de nouveaux horizons.
            
TELECHARGER DES VIDEOS ?
            
Plusieurs solutions permettent de télécharger des vidéos depuis des sites de partage comme YouTube ou Dailymotion. Keepvid (www.keepvid.com) figure parmi les solutions les plus utilisées : il suffit d'entrer l'adresse de la vidéo pour récupérer un lien vers son fichier FLV, que l’on peut ensuite lire à partir de tout lecteur.
             
Le service est compatible avec la plupart des plates-formes. Il existe également plusieurs extensions Firefox proposant des services équivalents.
             
L’INCONTOURNABLE QUESTION DE LA PROPRIETE ARTISTIQUE
             
La recherche de contenus multimédias est indissociable de la question des droits : droits des auteurs, mais aussi droits des personnes représentées sur les images ou vidéos.            

Le principe des licences Creative Commons permet de réutiliser des créations graphiques sous certaines conditions, choisies par l'auteur. De nombreux textes juridiques définissent les droits attachés au multimédia. Pour se retrouver dans ce domaine complexe, et éviter tout risque, mieux vaut se reporter aux fiches du ministère de la Culture (www.droitsdauteur.culture.gouv.fr), ou encore au portail de la Sacem (www.sacem.fr).




Véronique Mesguich
Publié dans le n° 79 de Netsources (Mars/Avril 2009)

Aucun commentaire:

Enregistrer un commentaire