Bases & Netsources - Accueil

L’intelligence économique commence par une veille intelligente

Qwant peut-il devenir le moteur par défaut des professionnels de l’information ?

Netsources no
136
publié en
2018.09
925
Qwant peut-il devenir le moteur par défaut des ... Image 1
Qwant peut-il devenir le moteur par défaut des ... Image 1

Il y a quelques mois, Eric Léandri, PDG de Qwant avait annoncé que 2018 serait une année déterminante pour le moteur français qui mise sur le respect de la vie privée. Au regard des dernières actualités, cela semble plutôt bien parti...

Le ministère des Armées, la ville d’Issy-les-Moulineaux, la région Ile-de-France, la région Normandie, France Télévision ou encore l’Assemblée Nationale ont récemment annoncé qu’ils allaient ou avaient déjà adopté le moteur de recherche Qwant « par défaut ».

Mais Qwant pourrait-il aussi devenir le futur « moteur par défaut » des professionnels de l’information ?

Lire aussi :

Google et la « recherche personnalisée » : quel impact pour les professionnels de l’information ?

Il est certain qu’en quelques années le moteur s’est beaucoup amélioré mais est-ce suffisant pour une pratique professionnelle et des questions et problématiques parfois complexes ?

Et, comme nous avons eu l’occasion de le montrer à plusieurs reprises récemment dans NETSOURCES et sur notre blog, Google répond de moins en moins aux problématiques des professionnels de l’information et il est nécessaire d’envisager des alternatives sur le long terme.

Sur le même sujet, lire ou relire sur notre blog :

Malgré tout, le géant américain a toujours le don de nous surprendre en lançant de nouveaux produits loin d’être parfaits mais répondants à un réel besoin dans un cadre professionnel comme le montrent le nouveau moteur de datasets1 ou encore Fact Check Explorer, un moteur dédié au fact-checking.

Sylvain Peyronnet, Chief Scientist  et Chief AI & AdTech Officer chez Qwant a bien voulu répondre à nos questions afin de comprendre le fonctionnement actuel du moteur et son éventuelle adéquation avec les besoins des professionnels de l’information.

Les réponses obtenues ont suscité de nouvelles interrogations que nous avons choisi de retranscrire dans cet article.

Nous avons ensuite réalisé des tests si­multanément sur Google et Qwant pour voir ce que Qwant avait concrètement à nous offrir.

Fonctionnement et spécificités de Qwant par rapport à la concurrence

Avant toute chose, il est important de rappeler les principes de base des moteurs de recherche pour comprendre sur quels aspects Qwant se démarque des géants du Web comme Google et Bing.

Et le mieux placé pour nous en parler est Sylvain Peyronnet, Chief AI & Adtech Officer chez Qwant.

Quel est le principe de fonctionnement d’un moteur et quelles sont les différences majeures entre Google et Qwant au niveau technique ? Et quelle est la place de l’IA (Intelligence Artificielle) chez Qwant aujourd’hui ?

Sylvain Peyronnet : « Le principe général est le même pour tous les moteurs :

  • crawl du web pour indexer le contenu des pages et les liens entre les pages ;
  • compréhension de la requête utilisée par l’utilisateur pour interagir avec le moteur ;
  • classement de l’index pour renvoyer, parmi les pages les plus pertinentes pour une requête, celles qui sont également parmi les plus populaires et les plus qualitatives ;
  • filtrage permanent de l’index pour diminuer la part de « spam » (résultats de mauvaise qualité) dans les résultats fournis aux internautes.

Pour le reste, la différence principale entre les algorithmes que nous mettons au point actuellement chez Qwant et ceux de nos compétiteurs est que nous nous interdisons d’utiliser des données explicites de personnalisation : nous ne pratiquons par le tracking utilisateur, ce qui nous interdit les méthodes de personnalisation standards utilisées par les autres moteurs.

L’IA est présente partout, enfin plutôt le machine learning, c’est-à-dire l’automa­tisation des prises de décisions humaines.

Nous avons donc des algorithmes d’IA :

  • pour le traitement de la langue
  • pour le filtrage des contenus (spam et contenus adultes qui sont filtrés au niveau de Qwant Junior)
  • pour l’amélioration de la qualité des résultats, etc.
Quels sont les principaux critères pris en compte pour le classement par pertinence des résultats ?

« Comme tous les autres moteurs nous avons trois critères très importants :

  1. la pertinence du contenu par rapport à l’intention de recherche de la requête ;
  2. l’autorité globale du site qui porte le contenu ;
  3. et enfin la qualité supposée pour les visiteurs de la réponse à la requête.

Il y a ensuite de très nombreux autres « signaux », dont une large partie sert à détecter les sites qui essayent de manipuler les trois critères principaux. »

Eric Léandri a annoncé récemment que l’index de Qwant était passé en quelques années de 5 millions de pages à 2 milliards. Pourtant on constate qu’il y a encore souvent des similitudes entre les résultats de Qwant et ceux de Bing. Comment cela s’explique t-il ?

« Il faut comprendre que compte-tenu de l’attente légitime de pertinence des résultats, il n’est plus possible aujourd’hui de lancer un moteur de recherche ex nihilo, sans aucune base pour savoir ce qui intéresse globalement les internautes, sur quels résultats ils cliquent, etc.

Un peu comme un nouvel opérateur mobile doit se reposer pendant quelques temps sur le réseau d’antennes cellulaires d’un autre, le temps de déployer son propre réseau, le lancement d’un moteur de recherche exige désormais une phase d’apprentissage et de montée en puissance pour, progressivement, bas­culer sur notre index et nos algorithmes. »

Notre avis

Globalement, on a le sentiment donc que Qwant a un mode de fonctionnement similaire aux autres moteurs de recherche Web. Sa principale spécificité se situe donc au niveau de la non-collecte des données personnelles et par là-même la non personnalisation des résultats de recherche.

On a cependant encore du mal à comprendre quel index est utilisé. Et si c’est encore principalement l’index de Bing, ne devrait-on pas plutôt parler de métamoteur ?

Pas de collecte de données personnelles = pas de personnalisation ?

Tous les moteurs de recherche, Qwant inclus, se financent en partie grâce à la publicité. Comment cela fonctionne sans collecte des données personnelles ?

Sylvain Peyronnet :

« Concernant la publicité, on oppose con­textualisation et personnalisation/tar­geting. On peut tout à fait contextualiser un peu avec simplement l’information de la requête tapée et des sites qui sont les mieux classés pour cette requête.

Aujourd’hui, on pense que connaître le visiteur est nécessaire pour lui proposer les meilleurs produits, alors qu’en fait c’est le contexte qui permet cela.

Un exemple très simple : si vous êtes dans un centre commercial et que vous avez souffert dans la chaleur toute la journée pour trouver des chaussures de jogging, en vain, est-ce que vous trouvez plus adapté que le café dans lequel vous faites une halte vous propose une boisson fraîche (contexte) ou une paire de chaussure de running (personnalisation) ? Pour la publicité en ligne c’est la même idée… »

Sur Qwant, deux personnes à deux endroits différents effectuant une recherche strictement identique dans la même langue obtiendront-elles exactement les mêmes résultats ?

« Si c’est au même moment oui, s’il y a 10 minutes d’écart pas nécessairement car les algorithmes de machine learning modifient les classements très vite au fur et à mesure de l’arrivée de nouveaux contenus et d’autres facteurs liés aux sites classés par le moteur. »

Il y a quelques mois, Eric Léandri a annoncé le lancement de Masq, un agent de gestion de données personnelles permettant une meilleure contextualisation des requêtes et des résultats « sans avoir à entrer dans la vie privée des utilisateurs ».

Pourriez-vous nous en dire un peu plus sur ce service et ce que cela peut apporter en termes de qualité des résultats ?

« Masq est une brique technologique open-source que nous développons pour stocker localement, c’est-à-dire sur la machine de l’utilisateur, les données qui le concernent et qui peuvent servir à personnaliser (localement, donc sans communiquer d’informations à des tiers) les services que Qwant lui rend.

Nous ne communiquons pas encore sur ses applications concrètes en terme de pertinence des résultats mais l’idée est de permettre par exemple de désambiguïser des requêtes sans avoir à collecter de données personnelles, avec une sélection des résultats opérée pour partie au niveau local. »

Notre avis

Si Qwant refuse toute collecte de données personnelles à des fins publicitaires et de personnalisation, il ne dit pas pour autant que la personnalisation des résultats est un processus mauvais en soi. Cela pourrait dans certains cas améliorer la pertinence des résultats comme le montre le développement de la brique technologique « Masq », à condition de garder la main sur ses données personnelles.

Qwant et les professionnels de l’information

Maintenant que nous y voyons un peu plus clair sur le fonctionnement du moteur Qwant et ses spécificités techniques, peut-il devenir un outil de recherche indispensable pour les professionnels de l’information ?

Tour d’horizon de la recherche sur Qwant

Commençons tout d’abord par rappeler quelles sont les fonctionnalités de recherche offertes par Qwant.

Qwant se décline sous la forme de plusieurs produits parmi lesquels on citera les plus intéressants pour le professionnel de l’information :

  • le moteur Web bien sûr ;
  • un moteur d’actualités ;
  • un moteur social qui permet d’interroger Twitter ;
  • un moteur d’images ;
  • un moteur de vidéos.

En termes de fonctionnalités de recherche, Qwant propose :

  • les opérateurs booléens classiques AND (par défaut), OR et NOT (sous la forme du tiret) ;
  • les guillemets pour la recherche d’expression exacte ;
  • l’opérateur site:pour faire une recherche sur un site spécifique ;
  • filetype:pour rechercher un format de fichier spécifique ;
  • intitle:pour rechercher dans le titre de la page uniquement.

On recommandera également l’utilisation des parenthèses dans le moteur pour mieux expliciter le sens de sa requête.

Car si Google ne tient pas compte des parenthèses, cela fonctionne sur Bing et par extension sur Qwant qui utilise toujours en partie son index.

On sait également que Qwant a recours à la recherche sémantique en élargissant automatiquement la recherche aux différentes formes d’un mot (singulier/pluriel), synonymes mais on ne sait pas dans quelle mesure.

On dispose ensuite :

  • de filtres par date (dernières 24h, dernière semaine, dernier mois) pour le moteur Web ;
  • de la possibilité de classer par pertinence ou date et de filtrer par date et sources dans le moteur d’actualités uniquement ;
  • de filtres par taille, licence, période, couleur, type, source dans le moteur d’images.

Si les fonctionnalités ressemblent beaucoup à celles de Google, on constatera qu’elles sont cependant beaucoup moins nombreuses.

  • pas d’opérateur inurl:pour re­chercher un terme dans l’url uniquement ;
  • pas de filtres par date « moins d’un an » ou « personnalisés » qui sont pourtant très utiles pour de nombreuses recherches ;
  • pas d’opérateur pour retrouver des pages et sites similaires comme related:urlsur Google ;
  • Pas d’affichage de la date de publication d’une page sur la liste des résultats. Même si ce n’est pas toujours exact, cela permet néanmoins de voir d’un seul coup d’oeil si le résultat est récent ou ancien et permet un gain de temps certain ;
  • pas de possibilité d’entrer un intervalle de chiffres/dates comme le double point (2010..2018) sur Google. Cependant cet opérateur fonctionne de moins en moins bien sur Google ;
  • Pas d’opérateur de proximité comme le AROUND(X) sur Google. On écrit par exemple veille AROUND(3) stratégiquepour retrouver les deux termes à 3 mots maximum l’un de l’autre ce qui permet d’obtenir des pages avec « veille concurrentielle et stratégique » par exemple - Attention, cet opérateur existe mais fonctionne mal sur Google ;

On notera également que Qwant n’affiche qu’en tout et pour tout qu’une cinquantaine de résultats, ce qui est très peu dès que l’on cherche autre chose qu’une réponse simple ou unique.

Et surtout, il manque chez Qwant tout cet écosystème autour du moteur Web très utile dans un contexte professionnel avec notamment tous ces moteurs thématiques :

  • Google Scholar pour la littérature scientifique ;
  • Google Patents pour les brevets ;
  • Google Books pour les ouvrages ;
  • Google CSE pour construire des moteurs personnalisés ;
  • Google Talk to books pour trouver des réponses dans les livres présents sur Google Books ;
  • et les petits nouveaux Google Datasets Search et Google Fact Check Explorer.

Et comme nous avions eu l’occasion de le montrer dans un article paru dans BASES n°351 (septembre 2017), « L’avenir de la recherche sera t-il thématique ? », face à la multiplication des contenus sur le Web, on assiste à une résurgence des outils de recherche thématiques.

Nous avons donc demandé à Sylvain Peyronnet si ce type de moteurs thématiques faisait parti de la stratégie de Qwant pour l’avenir mais il semble malheureusement qu’il s’agisse essentiellement de développements pour des produits et services très grand public.

« Nous avons déjà quelques verticales comme Qwant Junior pour les enfants, qui permet d’écarter les résultats inappropriés pour eux, et au contraire de faire remonter des résultats plus intéressants à leur âge. Nous avons aussi Qwant Music qui rassemble beaucoup d’informations musicales pour les rendre plus facilement accessibles. Les verticales font partie de notre stratégie et vous pouvez vous attendre à en voir d’autres arriver, mais nous restons concentrés sur le moteur de recherche global. »

Nos tests

Nous avons donc ensuite réalisé quelques tests pour voir si Qwant pouvait être satisfaisant pour des recherches d’infor­mations et veilles professionnelles.

Nous avons réalisé des requêtes simultanément sur Qwant et Google sur des sujets que nous connaissons ou que nous avons déjà utilisés pour des articles de BASES ou NETSOURCES.

Nous avons ensuite attribué un score à chaque moteur qui se base sur la capacité à trouver l’information rapidement, la pertinence des résultats et leur « fraîcheur » .

Recherche d’une information précise

Date de naissance de Geoff Emerick, ingénieur du son des Beatles mort récemment

Pour cette requête, Qwant comme Google nous fournissent immédiatement un snippet (un encadré) issu de Wikipédia avec la date de naissance exacte de cette personne.

Des articles de presse sur une entreprise dont nous avons déjà les noms « Rafaut change de dimension », « La cohabitation avec les humains, prochain défi de la voiture autonome »

Sur Qwant et Google, nous retrouvons les deux articles en première position.

Des articles académiques ou scientifiques dont nous avons déjà les noms comme « Measuring Personalization of Web Search » (2013) et « Ein klinischer Beitrag zur Kenntnis der Strüktur der Iris » (1902)

Pour le premier document, Qwant et Google nous donnent immédiatement accès en première position au document en texte intégral mais la source n’est pas la même.

Pour Google, c’est arxiv.org (qui n’arrive qu’en 5e position chez Qwant) et pour Qwant, c’est le site mislove.org, le site personnel d’un des chercheurs ayant participé à cet article. Ce résultat n’apparaît absolument pas sur Google dans la liste des résultats qui sont pourtant au nombre de 154. Qwant prend ici l’avantage sur Google.

Pour l’article scientifique « Ein klinischer Beitrag zur Kenntnis der Strüktur der Iris » paru en 1902, Qwant ne nous fournit par contre aucun résultat.

Google ne nous permet pas d’accéder directement à l’article mais nous fournit quelques pistes notamment grâce à des résultats issus de Google Scholar et Google Books, qui, après un certain nombre d’étapes nous per­mettaient d’identifier des organismes susceptibles d’en avoir une copie.

Voir notre article « Rechercher des articles scientifiques anciens : entre intuition et méthodologie » - NETSOURCES n°134 - Mai/Juin 2018.

Des salons et conférences dédiés à la veille en 2018 ou 2019

Autre problème pour les salons et conférences dédiés à la veille en 2018 ou 2019.

La requête Salon OR conference veille 2018 OR 2019nous fournit des résultats pertinents sur Google, du moins pour la première page de résultats alors que sur Qwant, ils sont tous hors sujets et concerne l’aménagement et la décoration du salon...

Mais en réécrivant la requête en utilisant des parenthèses (Salon OR conference) veille (2018 OR 2019), les résultats sont un peu plus pertinents mais cependant pas autant que sur Google. Le salon i-expo apparaît tout de même en première position.

On constate donc qu’on n’interroge pas Google comme on interroge Qwant ou Bing. Google n’est pas un moteur de recherche booléen dans le sens où il ne tient pas compte des parenthèses alors que Bing et par extension Qwant le permettent.

Recherche de listes et jeux de données

Liste d’outils de social media monitoring gratuits

Nous avons entré la requête suivante sur les deux moteurs : free social media monitoring tools.

Même s’il y a quelques résultats communs, on constate de grosses différences sur les 10/20 premiers résultats des deux moteurs.

Dans les deux cas, les résultats sont pertinents à première vue.

Cependant, pour Qwant, les résultats sont pour certains assez anciens et le moteur ne nous permet pas de restreindre la requête aux résultats de moins d’un an ni de voir d’un seul coup d’oeil la date de publication des pages et articles.

Liste et localisation des gares de fret en France

Nous avons entré la requête suivante sur les deux moteurs : liste gares de fret france.

On trouve l’information recherchée sur les deux moteurs mais le résultat le plus pertinent est en première position sur Google alors qu’il n’est qu’en 7e position sur Qwant.

Recherche d’actualités

Rachat de Scoop.it par Linkfluence

Nous avons entré la requête suivante sur les deux moteurs : Scoop.it Linkfluence

En passant par le moteur d’actualités de Google et de Qwant, on obtient des résultats intéressants.

Seule différence, Google nous propose des résultats dans différentes langues là où Qwant ne ne nous propose que du français car nous sommes dans l’interface en français.

Mais on trouve pratiquement le même nombre d’actualités en français sur le sujet sur Qwant Actualités et Google Actualités.

Fusion entre Crimson Hexagon et Brandwatch

Nous avons entré la requête suivante sur les deux moteurs : Crimson Brandwatch

Ni Google ni Qwant ne fournissent grand chose dans leur moteur d’actualités (0 pour Qwant, deux articles pour Google).

Mais on retrouve des informations intéressantes sur le moteur Web que ce soit sur Qwant ou Google.

Recherche d’informations diverses afin d’avoir une vision d’ensemble d’un sujet

  • Le marché automobile en Indonésie
  • la marche de l’assurance automobile en Europe
  • Informations sur l’usine de Whirlpool à Wroclaw en Pologne
On constate que, pour ce genre de questions, Google reste tout de même bien meilleur que Qwant.

Qwant propose quelques résultats a priori pertinents mais pas toujours très récents. Et comme, il n’y a pas de mention de la date de publication ou de mise à jour et qu’il n’est pas possible de limiter aux résultats de moins d’un an ou d’entrer une période de recherche personnalisée, cela complique et allonge le processus de recherche.

Le fait qu’il n’y ait qu’une cinquantaine de résultats représente également un problème.

Nos conclusions

Au final, non, Qwant ne peut pas encore devenir le moteur par défaut des professionnels de l’information.

Il peut probablement le devenir dans la vie quotidienne, surtout si on privilégie le respect de la vie privée et la non-collecte des données personnelles face à la puissance et la pertinence d’un moteur comme Google.

Mais il manque des fonctionnalités cruciales pour qu’il le devienne dans un contexte de recherche et de veille professionnelle.

On reconnaîtra néanmoins que la pertinence des résultats s’est améliorée et on peut généralement retrouver une information précise, un article, un site ou un document précis.

On appréciera le fait de pouvoir utiliser les parenthèses pour mieux expliciter ses requêtes, ce qui est très probablement hérité de Bing.

On appréciera également le moteur Social qui permet d’obtenir des résultats sur Twitter là où Google ne fait ressortir que très peu de résultats issus des réseaux sociaux. Cependant, le moteur de Twitter lui-même est très performant et gratuit et offre des fonctionnalités de recherche bien plus avancées.

En revanche, Qwant est peu adapté aux requêtes plus complexes quand on cherche une compilation d’informations, une vision synthétique d’un sujet ou pour les recherches d’information liées à l’information scientifique et technique.

Le nombre de résultats limité à une cinquantaine, l’absence de dates dans les résultats et de filtres par dates personnalisés représente à notre avis un obstacle important à son utilisation par les professionnels de l’information aujourd’hui.

Alors pourquoi ne pas proposer les mêmes fonctionnalités que Google et même aller plus loin en tirant parti de ce que les bases de données professionnelles et plus récemment les outils de veille proposent : opérateur de proximité, recherche d’un terme plusieurs fois dans le texte, respect de la casse (bien utile sur les noms de société ambigus comme Orange, Total, Apple, etc.), recherche des pages ou sites pointant vers une url précise, etc.

Car il y a un véritable besoin d’outils de recherche performants et pointus pour la recherche Web.

D’autre part, comme nous le mentionnions plus haut, l’avenir de la recherche d’information professionnelle sur le Web est de plus en plus thématique. Il serait donc intéressant de proposer plusieurs moteurs thématiques à l’image de Google Scholar, Google datasets, etc. Et comme nous sommes conscients que Qwant n’a pas les mêmes moyens ni la même force de frappe que Google, pourquoi ne pas envisager des partenariats avec des outils et moteurs qui fonctionnent déjà plutôt bien comme 1Findr ou Dimensions pour la recherche d’information scientifique ou académique, Deepl pour la traduction, etc ?

Mais Qwant, comme les autres moteurs de recherche d’ailleurs, ont-ils tout simplement envie de répondre aux besoins des professionnels de l’information ? Professionnels, qui rappelons-le, ont des attentes très spécifiques, sont très minoritaires par rapport aux autres utilisateurs/consommateurs des moteurs et surtout ne rapportent pas d’argent car ils ne sont pas là pour cliquer sur des publicités ou pour acheter des produits...

  • 1 Depuis le développement de l’Open Data, de nombreux organismes publics mettent à disposition des jeux de données librement accessibles tels que les horaires ou la ponctualité des trains, l’emplacement des lampadaires et bancs dans une ville, le Cadastre, la liste des organismes de formation, etc. Et du côté de l’information scientifique et technique, on voit également se développer la mise à disposition des données de la recherche par les chercheurs sous la forme de jeux de données librement accessibles sur le Web

Les abonnés peuvent poster des commentaires ! N'hésitez pas à vous abonner à Bases et Netsources...