Outils de recherche d’images : vers la reconnaissance de texte, objet et visage

Carole Tisserand-Barthole
Netsources no
143
publié en
2019.12
1313
Acheter ce no
Tags
recherche visuelle
Outils de recherche d’images : vers la reconnaissance de ... Image 1
Outils de recherche d’images : vers la reconnaissance de ... Image 1

Intéressons-nous maintenant à la recherche d’images. Nous avons choisi ici de nous focaliser sur la recherche d’images pour trouver des informations ou répondre à une question dans un cadre professionnel.

Nous n’aborderons pas la question des images libres de droits ou photos de stocks pour illustrer ses livrables.

La recherche d’images est plus complexe qu’elle n’y paraît au premier abord, car il coexiste différentes façons de rechercher :

il y a tout d’abord la recherche classique par mot-clé où la recherche porte sur des métadonnées ou - c’est encore très rare - sur du contenu textuel présent dans des images ;

la recherche inversée par l’image où le point de départ est une image et non du texte et où l’on recherche des images identiques ou similaires.


Lire aussi :

La révolution multimédia bouscule la veille
Outils de recherche de vidéos : des métadonnées au speech to text
Outils de recherche sur les contenus audios : un segment encore pauvre
Mettre en place une veille sur les contenus multimédias
Comment valoriser les contenus multimédias dans un livrable de veille ?


Rechercher des images grâce à une recherche par mot-clé

Les moteurs d’images développés par les moteurs classiques

Parmi les moteurs d’images, on retrouve les moteurs classiques comme Google Images, Bing Images, Qwant images, DuckDuckGo images, Yandex Images.

On trouve également des moteurs comme Creative Commons Search (https://search.creativecommons.org) ou Flickr mais ils sont tout de même rarement utiles pour trouver des informations dans un cadre professionnel, car il s’agit souvent de photos personnelles. Néanmoins, on gardera en tête que certaines entreprises, associations, organisations utilisent Flickr pour stocker les photos de leurs événements et on pourra s’en servir dans certains cas précis.

Nous avons repris notre exemple sur le marché des chèques cadeaux en France pour tester ces différents moteurs et leurs forces et faiblesses dans un contexte de recherche professionnel.

Nous avons entré sur tous ces moteurs la requête marché des chèques cadeaux en France (voir figure 1.)

Figure 1. Performance des différents moteurs d’images concernant la requête « Wedoogift »

Moteur Pertinence des résultats Fonctionnalités de recherche
Google Images +++ +++
Bing Images + +++
Yandex Images 0 +++
Qwant Images ++ ++
DuckDuckGo Images ++ ++

Sur notre exemple, la recherche d’images s’avère intéressante, car elle permet de faire ressortir des infographies, tableaux et graphiques sur le marché des chèques cadeaux en France.

Google est celui qui comprend le mieux notre requête et fait ressortir le plus d’infographies, tableaux et graphiques.

Petit plus, il nous propose une liste de tags au-dessus des résultats pour nous aider à affiner la recherche dont tickets kadeos, incentive, tir groupé, sodexo, etc. Si on clique sur le terme Incentive, c’est-à-dire le marché des systèmes de motivation par la récompense pécuniaire ou en nature qui englobe, entre autres, les chèques cadeaux, Google fait alors apparaître encore plus d’infographies et graphiques.

Tous les moteurs proposent des fonctionnalités de recherche similaires :

  • taille ;
  • couleur ;
  • droits d’usage ;
  • types d’image ;
  • période.

Mais Google permet également d’afficher des images depuis une source donnée src:

Une requête chèque cadeau src:fr.statista.com dans le moteur de Google Images permettra donc de faire ressortir des images uniquement issues du site de statistiques Statista.

Bing comprend la notion de chèque cadeau, mais pas celle de marché et n’affiche que des images de chèques cadeaux. Nous avons également tenté une requête booléenne plus traditionnelle comme : (marché OR tendances OR infographie OR statistiques) AND ("chèque cadeaux" OR "chèques cadeaux"). Mais les résultats sont encore moins pertinents...

Enfin Yandex ne comprend que la notion de marché et affiche uniquement des photos de marché aux fruits et légumes... Comme on sait que Yandex est peu adapté aux requêtes en français, nous avons relancé une requête en anglais incentive market. Mais là encore, il n’affiche que des photos de marché et supermarchés avec des fruits et légumes.

Notre conseil

Les résultats proposés diffèrent grandement d’un moteur à l’autre.

On conseillera donc d’interroger plusieurs moteurs d’images.

Si Bing a été peu concluant pour l’exemple que nous avions choisi, de nombreux tests sur des questions plus « grands publics » montrent qu’il comprend de mieux en mieux la question de l’internaute et est souvent bien meilleur que Google.

Les fonctionnalités de recherche d’images sur les médias sociaux

Les médias sociaux regorgent également d’images qui n’apparaissent pas forcément lors de recherche sur les moteurs d’images cités précédemment. Il est donc nécessaire de se rendre sur les réseaux sociaux pour y effectuer des recherches.

On ne recherchera ici que sur les métadonnées des images et photos.

Sur Twitter, on peut choisir l’onglet photos pour ne visualiser que les tweets contenant des images ou alors utiliser l’opérateur filter: dans l’interface générale en entrant filter:image.

On citera également Twipho, un moteur de recherche spécialisé sur les images présentes dans Twitter.

Facebook propose un onglet photos pour limiter les résultats à ce type de contenus.

On citera également un moteur personnalisé Google développé par un internaute qui permet de rechercher uniquement sur les photos et images de Facebook : http://bit.ly/33jJEqE

Instagram et Pinterest ne proposent que des images et on pourra donc utiliser leurs moteurs qui restent malheureusement très simplistes. Mais il faut bien garder en tête qu’on ne recherche que sur des hashtags.

Rechercher du texte, un logo ou un objet sur des images

Autre aspect intéressant de la recherche d’images dans un contexte professionnel : retrouver du texte contenu dans des images.

Pour le moment, il n’y a pas à proprement parler d’outil de recherche grand public et gratuit permettant de retrouver des images incluant tel ou tel contenu textuel.

Il existe depuis un moment déjà des solutions de catégorisation automatique des images à partir de leur analyse comme sur l’iPhone par exemple où il suffit de taper sapin de Noël pour voir apparaître les images de sa bibliothèque contenant des sapins de Noël. Mais cela s’applique uniquement à sa propre collection d’images.

Il existe surtout des acteurs qui développent des solutions de reconnaissance de logos, d’objets, de personnes, de texte, etc. et vendent ces technologies à des acteurs de la recherche et de la veille (nous verrons par la suite que plusieurs plateformes de veille incluent ces technologies) ou développent leurs propres solutions de recherche payantes. On pourra citer des outils comme Amazon Rekognition, Clarifai, GumGum, Logograb, IBM Watson Visual Recognition ou encore Trademark Recognition. Mais ces outils supposent de disposer d’une bibliothèque ou collection d’images sur lesquelles faire porter la recherche. On ne peut pas faire porter la recherche sur les images présentes dans Google Images, Flickr, etc.

Néanmoins, Google développe la reconnaissance de contenu au sein des images. De plus en plus d’internautes ont ainsi remarqué que sur Google Images, on peut entrer le numéro de plaque d’immatriculation d’un véhicule (voiture d’un président, ambulance, voiture en vente sur le Bon Coin, etc.) et retrouver des images où le véhicule est également présent. La seule explication possible, c’est que Google utilise la reconnaissance de texte pour indexer les images dans son moteur.

Cela fonctionnerait même sur des éléments chiffrés autres que les plaques d’immatriculation.

La recherche de plaques d’immatriculation fonctionnerait d’ailleurs également sur Facebook.

On est encore très loin d’une océrisation complète des images, mais dans certains cas, cela mérite d’être testé.

A suivre donc !

La recherche inversée par l’image

Les moteurs de recherche inversée peuvent également s’avérer très utiles. Il s’agit de rechercher des images dans l’index d’un ou plusieurs moteurs, non pas à partir d’un mot-clé, mais d’une image trouvée sur le Web ou uploadée depuis un disque dur ou un smartphone. La recherche est effectuée à partir du contexte de l’image, par extraction des métadonnées, et des images similaires, par comparaison des contenus.

Dans notre exemple, nous sommes partis de l’image d’une infographie sur le marché des chèques cadeaux que l’on peut retrouver sur plusieurs sites, réalisée par l’association des opérateurs de chèque cadeau. Certains sites publient tous les éléments de l’infographie alors que d’autres n’utilisent qu’une seule partie seulement.

  • Sur Google images, si les images similaires proposées sont peu pertinentes ce qui n’a rien d’étonnant (le moteur retrouve en effet de nombreuses infographies avec des couleurs et mises en pages similaires), le moteur fait ressortir une vingtaine de résultats qui utilisent la même image. Après vérification, il n’y en a que 10 qui utilisent exactement la même image.
  • Sur Bing Images, le problème est le même avec les images similaires qui ne portent absolument pas sur le même sujet. Et pour les images identiques, il n’en retrouve que 3 ;
  • Sur Yandex, le problème est le même avec des images similaires. Et pour les images identiques, il n’en retrouve que 2 ;
  • Sur le nouveau moteur de recherche inversée de Qwant, le résultat est complètement hors sujet ;
  • Tineye quant à lui retrouve 4 images identiques.

Sur d’autres sujets, il nous est arrivé de retrouver sur Yandex, Bing ou Tineye des images similaires ou identiques non retrouvées sur Google.

Nous avons retranscrit ici un comparatif des différents moteurs de recherche inversée d’images publié sur le site domaintools.com qui permet de mettre en évidence les points forts et points faibles de chaque outil (voir figure 1.) On y voit bien que, selon ce que l’on cherche, il ne faut pas nécessairement se tourner vers les mêmes outils.

Figure 2. Comparatif des moteurs de recherche d’images inversée (source : https://blog.domaintools.com/2019/09/a-brief-comparison-of-reverse-image-searching-platforms)

Qualité des moteurs de recherche d’images inversée Google Yandex Bing Tineye
Objets identifiés + ++ +++ +
Visages + +++ ++ +
Bâtiments/monuments +++ +++ ++ +
Lieux +++ +++ ++ +
Logos +++ ++ ++ +++
Images de taille différentes ++ ++ + +++
Images inversées ou modifiées + ++ +++ ++

Le cas particulier de la recherche de personnes et de visages

La recherche de personnes et visages à travers les images est une problématique récurrente pour les professionnels de l’information. Il peut s’agir aussi bien d’identifier des experts, personnalités à partir de mots-clés dans des moteurs d’images, mais également, à partir de la photo d’une personne, de retrouver des pages qui utilisent la même photo.

Dans le premier cas, Google, Bing et Yandex permettent de rechercher spécifiquement des visages et des personnes. Bing va même plus loin en permettant de rechercher sur les visages uniquement ou la tête et épaules uniquement.

On pourra également penser à utiliser LinkedIn pour identifier des photos de profils.

La recherche inversée d’images à partir d’un visage fonctionne globalement assez mal sur les moteurs d’images. Yandex est ici meilleur que ses concurrents.

On citera également Pictriev (http://www.pictriev.com/), un moteur de recherche sur les visages qui permet d’entrer la photo d’une personne et de visualiser les célébrités (cinéma, télé, politique, etc.) qui ressemblent à cette même photo. Cela ne fonctionnera donc que pour des personnalités publiques.

La recherche d’images inversée appliquée aux personnes s’aventure sur le terrain de la reconnaissance faciale et pose un problème éthique. Il est peu probable que l’on voie se développer de véritables moteurs de reconnaissance de visages grand public. En revanche, ces technologies vont très probablement continuer à se développer dans le secteur militaire et celui de la défense et, mais ne seront jamais accessibles aux internautes lambda.

Astuce pour le filtre visage de Google

Attention, Google a récemment retiré son filtre visage depuis l’interface principale de Google images.

Mais on peut toujours y accéder dans l’interface de recherche avancée en choisissant le filtre «visages» dans «type d’images» ou en rajoutant &imgtype=face dans l’url des résultats de recherche de Google images.

Par exemple, si l’on recherche des experts en cybersécurité sur Google Images, on pourra entrer la requête suivante : expert cybersécurité.

En rajoutant &imgtype=face à la fin de l’url, on cible spécifiquement les images avec des visages :

https://www.google.com/search?q=expert+cybersécurité&safe=active&sxsrf=ACYBGNRktY3PMvKj_5j1AkYh0Gk96PZ2Gg:1575889606374&source=lnms&tbm=isch&sa=X&ved=2ahUKEwiauMWhtqjmAhWuQUEAHXoNC2UQ_AUoAXoECGYQAw&biw=1280&bih=611&imgtype=face