Rappel : Ce que Google & Co peuvent faire ou ne pas faire
Il est toujours bon de rappeler que chercher sur le Web ne se résume pas à une recherche sur Google, et encore plus dans un contexte professionnel où l’on a besoin de beaucoup plus que la simple adresse d’un restaurant, les horaires d’une séance de cinéma ou les coordonnées d’un plombier.
On rappellera que le Web se décompose en 3 couches distinctes et toutes ne sont pas accessibles depuis Google et autres moteurs généralistes :
- Le « Surface Web » (Web de surface ou Web surfacique en français) et que l’on appelait Web visible par le passé qui correspond aux pages auxquelles on peut accéder via les moteurs de recherche Web comme Google, Bing, Qwant, Yandex, DuckDuckGo, etc. Et même si ces moteurs disposent d’index qui peuvent paraître titanesques (plus de 100 milliards de pages pour Google par exemple même si personne n’est en mesure de connaître le chiffre exact), ils n’indexent en réalité qu’une infime partie du Web. Le chiffre de 4% revient souvent, mais il est cependant difficile de l’évaluer précisément. On trouve ici aussi bien des contenus gratuits que payants (par exemple un article de presse indexé dans Google dont seuls le titre et les premières lignes sont librement accessibles, le reste nécessitant l’achat de l’article ou un abonnement).
- Le « Deep Web » (Web profond) que l’on appelait auparavant le Web invisible et qui correspond à tout ce qu’on ne peut pas trouver ou qui n’est pas indexé par les moteurs de recherche traditionnels comme par exemple des bases de données, serveurs, bibliothèque numériques, datasets, repositories, livres, vidéos, documents, rapports, contenus dynamiques comme des dashboards, etc. Là encore on trouve des contenus payants (agrégateurs de presse, serveurs brevets, etc.), mais aussi gratuits. Certaines pages des sites hébergeant ces contenus peuvent être indexées par les moteurs (notamment la page d’accueil), mais pas l’intégralité des contenus qui y sont hébergés. De nombreuses estimations l’évaluent à 90% du Web environ, mais là encore, il est impossible de le vérifier précisément.
- Enfin, on trouve le « Dark Web », source de nombreux mythes et légendes où on trouve des contenus plus ou moins recommandables (trafic et vente de produits illégaux, communications privées, etc.). Il représenterait aux alentours de 5 à 6% du Web. Encore une fois ce chiffre est difficilement vérifiable.
Chercher sur Google et autres moteurs généralistes, c’est donc n’interroger qu’une partie du Web, au risque de passer à côté d’autres sources et contenus pertinents.
Geotrend, Google version premium et dataviz
Des trois outils, Geotrend est de loin celui qui est aujourd’hui le plus médiatiquement visible.
À l’origine de ce projet, on trouve deux ingénieurs d’Airbus qui ont commencé à développer un outil pour répondre à « une problématique de recherche d’informations fiables, et à jour au sein du service marketing d’Airbus ».
Bien comprendre le fonctionnement du produit
Pour faire simple, Geotrend paye pour avoir accès aux API de Google qui inclue également Google Scholar, Google News, Google Books, etc. ainsi que de Bing et Qwant. On notera que l’utilisation de Google est rare et intéressante, car la majeure partie des outils de recherche alternatifs reposent sur Bing.
La recherche effectuée dans l’outil portera donc sur tous ces index qui sont interrogés en navigation privée (ou mode Incognito). Cela fait beaucoup de pages et contenus certes, mais on reste donc au niveau du Web de surface.
L’utilisateur saisit sa recherche, qui peut-être plus ou moins perfectionnée. On y retrouve la possibilité d’utiliser les opérateurs classiques AND, OR, NOT, le + pour donner plus d’importance à un terme, intitle:, site:, etc.
Geotrend nous a également indiqué qu’il était possible d’utiliser les parenthèses pour structurer ses requêtes, mais il ne nous a pas été possible de vérifier si cela fonctionnait correctement. Si cela est bien le cas, c’est un plus par rapport à Google qui ne tient pas compte des parenthèses. On pourrait donc en principe entrer des requêtes plus complexes et structurées sur Geotrend que sur Google.
Il est important de noter que Geotrend ne permet pour l’instant que d’entrer des requêtes avec des termes en français ou en anglais. Et les deux langues ne peuvent être entrées en même temps dans la même requête. De fait, les résultats et contenus analysés ne seront également que dans ces deux langues, ce qui exclut tout contenu dans d’autres langues, ce qui est pourtant souvent crucial dans toute recherche à l’international.
Une fois la requête lancée, c’est là que l’IA ou plutôt le machine learning et le NLP (Natural Language Processing) vont jouer en rôle :
- tout d’abord, au niveau du crawl et de la sélection en analysant les résultats remontés via les API et en déterminant un score de pertinence pour chaque résultat afin de créer un corpus de documents pour la question posée. L’utilisateur a la possibilité de déterminer le degré de pertinence qu’il souhaite appliquer afin de faire varier le curseur volume d’information/pertinence;
- ensuite au niveau de l’indexation et analyse des documents/résultats en détectant notamment les noms d’acteurs/entreprises, les pays cités, le type d’informations, les liens entre les acteurs (partenaires, concurrents, fournisseurs, etc.).
L’utilisateur visualise ensuite les résultats sous forme de datavisualisation avec différentes formes possibles :
- les relations entre les différents acteurs identifiés (partenaires, concurrents, etc.) ;
- un planisphère pour voir quels sont les pays les plus représentés ; on rappellera tout de même que la génération de cette carte se base uniquement sur des résultats en français ou en anglais, ce qui peut bien évidemment biaiser les résultats ;
- un nuage de mots-clés jugés importants ;
- des chiffres-clés (montants financiers par exemple) extraits des résultats ;
- les documents/résultats eux-mêmes avec mise en évidence des passages jugés les plus pertinents. Quand il s’agit de contenus payants (articles de presse payant par exemple), l’analyse ne porte que sur ce qui est disponible gratuitement c’est-à-dire juste le titre et premières lignes ce qui rend pratiquement impossible toute analyse intéressante ;
- les noms de domaines qui reviennent le plus avec le nombre de documents sur le sujet par année.
Quel que soit le type de visualisation, l’utilisateur à la possibilité d’affiner sa dataviz en cliquant sur le nom d’un acteur, d’un pays, d’un nom de domaine, etc. Il peut également comparer et combiner des requêtes entre elles (au maximum 5) ou relancer des requêtes plus précises sur un élément seulement pour obtenir des résultats plus ciblés.
Un outil qui pourrait trouver sa place en amont des recherches d’information et veilles
Pour les veilleurs et professionnels de l’information, l’outil Geotrend vient se positionner sur un créneau où la concurrence est quasi-inexistante et où il y a un réel besoin. Le seul autre outil à avoir exploré ce créneau est Ixxo avec sa solution de Web mining.
Car comme nous le mentionnions en début d’article, la recherche d’information ou le sourcing sur Google est de plus en plus difficile à réaliser notamment en raison de la baisse du nombre de résultats. À titre d’exemple, une requête sur voiture autonome permet d’accéder à 760 documents sur Geotrend là où Google n’en affiche réellement que 179...
De même, la détection de nouvelles sources d’information en pratiquant ce que certains comme Christophe Deschamps appellent la « veille radar » (soit la surveillance large du Web avec des mots-clés, complémentaire à la veille cible qui est la surveillance précise des sites et pages Web) est devenue de plus en plus difficile via les moteurs. Google Alertes est devenu pratiquement inutilisable, Talkwalker Alertes est un peu meilleur, mais on est encore loin du compte et les médias sociaux restreignent toujours plus leurs accès à des plateformes extérieures.
Geotrend pourrait donc avoir sa place en amont de la recherche d’information ou de la veille pour le sourcing ou pour les compléter :
- pour explorer un nouveau sujet en identifiant plus facilement et de façon plus panoramique que sur Google et les autres moteurs le nom des principaux acteurs, des concepts et mots-clés, des angles d’attaques, des sources-clés, etc.
- pour faire de la « veille radar » et détecter des sources pour compléter sa veille.
Mais uniquement pour cela ! Il ne peut nullement se substituer aux outils qui explorent le Web profond, aux serveurs et bases de données pas plus qu’aux outils et plateformes de veille. Et on ne peut certainement pas lui déléguer complètement sa recherche d’information et sa veille afin de pouvoir se consacrer uniquement à l’analyse...
Attention au décalage entre le discours commercial et la réalité du produit
Et c’est bien là le problème. Même si le produit est techniquement intéressant, le discours commercial notamment véhiculé sur leur site Web et dans les médias ne colle pas du tout avec la réalité du produit.
A la lecture de leur site Web, on serait presque tenté de jouer au Bingo de l’information : « intelligent data », « veille réactive », « intelligence économique innovante », « intelligence collective », « analyse conceptuelle », « signaux faibles », « capitalisation des connaissances », « expérience unique de veille pour l’intelligence économique », tout y est ou presque ! Bingo !
Et pire encore, ils surfent sur le mythe de la recherche d’information exhaustive accessible en un clic et sans effort, tout ça grâce aux miracles de l’IA : « diviser par 8 votre temps de recherche », « résultats prêts à l’analyse », « one click for intelligent data », « résultats exhaustifs sous forme de data visualisation », etc.
Et malheureusement, nombreuses sont les entreprises qui ont envie d’y croire...
Si l’on considère que la recherche d’information ne passe que par Google, alors oui, on peut très probablement le remplacer par Geotrend et obtenir plus rapidement des résultats visuels, pertinents pour la plupart, mais néanmoins incomplets. Et encore, Google peut fournir des résultats dans d’autres langues, là où Geotrend ne propose pour l’instant que le français et l’anglais. Et il faut aussi être prêt à débourser plus de 5 000 euros par an.
En revanche, si on souhaite réaliser des recherches d’information de qualité et derrière des analyses fiables qui repose sur un corpus pas nécessairement exhaustif, mais représentatif et qualifié, on ne pourra se reposer les yeux fermés sur les jolies datavisualisations proposées par l’outil. On risque alors d’avoir des analyses biaisées et faussées, car il va manquer tout un pan de l’information utile (information payante, information du Web profond non accessible depuis les moteurs, informations dans des langues autres que l’anglais ou le français, etc.).
On se rappellera que les plateformes de veille traditionnelles à leur début avaient fait la même erreur en occultant complètement les sources d’information payantes. Ils ont pratiquement tous fait machine arrière et cherchent à intégrer le maximum de contenus différents (sources payantes, bases de données, médias sociaux, dark Web pour certains, informations internes, etc.).
De plus, il ne faut pas oublier non plus que les solutions à base d’IA ne sont jamais parfaites ni 100% fiables. Même si globalement, le résultat tient la route, l’outil n’est pas à l’abri d’avoir mal classifié un document, d’avoir établi la mauvaise relation entre deux acteurs ou de ne pas avoir sélectionné un document qui était pourtant pertinent. Les solutions à base de machine learning et NLP peuvent très certainement apporter une aide précieuse et une valeur ajoutée aux recherches d’information humaines, mais tout leur déléguer pour se consacrer uniquement à l’analyse est à notre sens extrêmement risqué.
Au final, ce parti-pris est très dommage, car l’outil a une valeur ajoutée indéniable pour certaines étapes de la recherche ou de la veille : il est performant pour le web visible, pour repérer des concepts, des acteurs, des sources-clés, éventuellement quelques tendances, quelques documents intéressants. C’est un très bon moyen de commencer sa recherche ou sa veille, et d’avoir une première image d’un sujet ou d’un marché. Mais il ne faut certainement pas s’arrêter là et baser son analyse sur ces seuls contenus et dataviz.
En ce qui concerne leur stratégie à plus long terme, iI semblerait que Geotrend veuille se positionner de plus en plus comme une plateforme de veille en intégrant notamment courant 2020 plus de fonctionnalités de monitoring. Malheureusement, ce n’est peut-être pas si stratégique.
Le marché des plateformes de veille en France est aujourd’hui saturé. La majorité des grandes entreprises en sont équipées et les petites entreprises ou collectivités publiques n’ont souvent pas du tout les moyens d’investir dans ce type d’outils. Il suffit d’analyser tous les efforts menés en ce moment par les éditeurs de veille en matière de communication et marketing (billets de blogs, petit-déjeuner, livre blanc, etc.) pour se rendre compte qu’il n’est plus si facile d’attirer de nouveaux clients.
En revanche, là où Geotrend gagnerait en puissance et en valeur, c’est à s’associer avec des outils de recherche spécialisés sur d’autres contenus que ceux du Web visible (agrégateurs de presse, serveurs scientifiques, bases de données d’études, etc.) afin de proposer des corpus de documents plus diversifiés pour ensuite réaliser des analyses moins biaisés. Ou en s’associant avec des plateformes de veille pour enrichir le volet « veille radar » (ce qu’ils appellent chez Geotrend « veille horizontale » en opposition à la « veille verticale ») où elles ont bien souvent des lacunes.
A leur décharge, on admettra que « one click for intelligent data » est beaucoup plus vendeur que « chercher mieux sur Google avec de jolies dataviz »mais en français et anglais seulement et c’est aussi à nous, professionnels de l’information de bien faire la part des choses entre le discours commercial des éditeurs et la réalité des outils et leur adéquation à nos problématiques. Et pour cela, rien de mieux que de mettre les « mains dans le cambouis » et de prendre le temps de tester dans le détail les produits sur ses propres problématiques.
Needle, la recherche humaine et collaborative
Needle est un outil de recherche aux antipodes de Geotrend, car l’idée ici est de sortir des algorithmes des moteurs et des médias sociaux, et remettre l’humain au cours de la recherche et de la navigation sur le Web. Ce que son fondateur Julien Falgas appelle la « navigation collective ».
« Notre extension dote chaque internaute d'un fil qu'il va passer dans les aiguilles des pages qui l'ont inspiré. En partageant ce fil, vous permettez aux autres internautes de regarder par-dessus votre épaule et de voir les contenus qui comptent pour vous…, et réciproquement. Vous ne dépendez plus des algorithmes des moteurs de recherche ou des réseaux sociaux. » (Julien Falgas dans un article des Echos intitulé « Needle, le moteur de recommandations humain »).
Le fonctionnement est simple : on installe une extension Chrome ou Firefox. Quand on se trouve sur une page intéressante, il suffit de cliquer sur l’extension pour ajouter la page à son fil Needle et éventuellement rajouter une légende.
Jusque-là rien de révolutionnaire, cela ressemble à un outil de bookmarking ou de curation classique comme Diigo, Pocket et les autres.
Mais lorsqu’on se trouve sur une page également présente dans le fil d’autres internautes, l’icône Needle en haut de l’écran se met à indiquer combien d’autres utilisateurs ont cette page dans leur fil et on peut alors aller consulter les autres fils en question et par là même découvrir d’autres contenus intéressants.
Si l’idée est intéressante et peut permettre de diversifier les résultats d’une veille ou recherche et faire des découvertes sur le Web invisible, son utilisation dans un contexte professionnel risque de se heurter à plusieurs problèmes et limites.
Tout d’abord, cela pourra surtout avoir un intérêt dans le cas de pages très spécialisées ou thématiques. En effet, savoir qu’une autre personne a également la page d’accueil du Monde ou de Twitter dans son fil a peu de chance de nous dire quoi que ce soit sur les goûts et centre d’intérêt de cette personne et on risque de perdre un temps fou à explorer des fils qui n’ont que très peu d’intérêt par rapport à ses propres problématiques.
De plus, l’outil n’est pas encore abouti au niveau ergonomique (pas d’image, un outil de recherche interne très simple, etc.), ce qui risque pour le moment de décourager un certain nombre d’internautes.
D’autant qu’il implique un fonctionnement similaire aux outils de bookmarking ou de curation que les professionnels de l’information utilisent déjà souvent pour conserver certains résultats intéressants. Il faut en effet manuellement ajouter la page à son fil et éventuellement ajouter des hashtags ou des commentaires. Cela peut vite devenir chronophage et risque de faire doublons avec ces outils de curation déjà utilisés. Or Needle est encore loin de proposer toutes les fonctionnalités de ces outils (sauvegarde d’une copie de la page, possibilité d’annotation, moteur de recherche un peu évolué, prise de note, contenus multimédias, système de classification par tags ou catégories, récupération de flux RSS, etc.) et il est peu probable que les internautes abandonnent leurs outils de bookmarking au profit de Needle.
Le nombre d’utilisateurs est pour le moment limité et le nombre de contenus ajoutés également, ce qui limite les possibilités de découvrir des contenus intéressants. Et on peut également se demander si, en entreprise, les professionnels vont s’amuser à sauvegarder publiquement des contenus pertinents issus de recherches ou veilles stratégiques.
Pour le moment donc, Needle pourra surtout servir dans le cadre d’une veille métier plutôt que pour des recherches et veilles stratégiques, concurrentielles, scientifiques ou techniques. Il faudra surveiller son développement et voir s’il propose à l’avenir une ergonomie améliorée, une version entreprise où les contenus ne sont pas publics, la possibilité d’ajouter des contenus payants, la possibilité d’enregistrer automatiquement une partie de sa navigation ainsi des fonctionnalités aussi avancées que celles des principaux outils de curation et de bookmarking du marché.
Netguide : un moteur hybride qui combine moteur et annuaire
Comme nous avons eu l’occasion de le mentionner à plusieurs reprises, on note depuis quelques années un nouveau besoin de structuration pour l’information sur le Web. Il y a sûrement une prise de conscience que Google ne fournit pas la liste des sources pertinentes pour un sujet donné, car il est de plus en plus un moteur de réponses et non plus un moteur de recherche.
Or les annuaires thématiques ou généralistes ont pratiquement tous disparu ou ne sont plus mis à jour, les blogrolls où des blogueurs listaient d’autres blogs sur les mêmes sujets ont bien souvent disparu également. Mais on en voit réapparaître quelques-unes et surtout on voit de plus en plus de billets qui listent des sources sur un thème donné (les 10 meilleures sources pour suivre l’actualité des startups, les 30 meilleurs newsletters dans le secteur du marketing, etc.).
Et c’est donc sur ce créneau-là que vient se positionner Netguide, un nouvel outil de recherche français.
Concrètement, l’outil couple un moteur de recherche (en l’occurrence Bing) avec un guide d’Internet (35000 sources pour le moment) et indique respecter la vie privée et les données de ses utilisateurs. En fonction des requêtes, l’outil va donc proposer des résultats issus de Bing ou orienter l’utilisateur vers des sources susceptibles de répondre à son besoin. Les fondateurs décrivent leur outil de la manière suivante: « La puissance des algorithmes alliée à l’expertise humaine. »
L’idée est intéressante, car comme nous l’expliquions précédemment, les moteurs ne donnent habituellement accès qu’au Web de surface. Et pour effectuer une recherche performante, il faut également réfléchir et rechercher les sources susceptibles de traiter de la question pour ensuite les explorer (on entre alors dans le Web profond). Netguide fait donc la promesse de coupler les deux.
« Environ 20% des recherches effectuées sur Netguide (par exemple “high-tech”, “automobile”, “recettes”, etc.) conduisent ainsi automatiquement l’internaute vers le guide d’Internet où plus de 35 000 sites sont classés dans près de 4 000 rubriques. » indiquent les fondateurs de Netguide dans un article sponsorisé publié sur le site Presse-Citron le 4 septembre dernier.
Nous avons fait quelques tests sur le moteur (qui ne fonctionne pour l’instant que pour des internautes basés en France - à moins d’utiliser un VPN) et nous avons été agréablement surpris par la pertinence des résultats. Même si Netguide indique utiliser Bing, les résultats ne sont pas exactement les mêmes que lorsqu’on fait une recherche directement sur Bing.
On appréciera également le fait de pouvoir accéder à plusieurs centaines de résultats (sur les tests que nous avons faits, nous avons été en mesure de consulter 700/800 résultats, soit sensiblement le même volume que ce que propose Bing pour la même requête. On rappellera que Google limite généralement à 200 résultats et Qwant uniquement à 50 !
On appréciera également de pouvoir utiliser les opérateurs de Bing (comme filetype:, site:, etc.). Et comme la majorité des moteurs, il propose également un moteur d’actualités, d’images et de vidéos.
En revanche, un des gros freins à son utilisation est pour l’instant l’absence de filtres notamment par date. Une recherche sur marché voiture autonome
par exemple fait ressortir des résultats a priori pertinents, mais, en y regardant de plus près, on constate que le nombre de résultats de moins d’un an est faible (notamment par rapport à Google sur le même sujet). On trouve notamment un certain nombre de résultats datant de 2016/2017. Or à la vitesse à laquelle le marché de la voiture autonome évolue, ces articles sont trop datés pour être véritablement utiles sauf dans une perspective historique...
De même, si l’idée de coupler un moteur à un annuaire est intéressante en soi, l’annuaire reste pour le moment trop généraliste et trop centré sur des thématiques grand public pour avoir un véritable intérêt dans un contexte de recherche et de veille professionnelle.
Netguide ne va certainement pas remplacer l’utilisation de Google dans un contexte professionnel.
Mais lorsqu’une recherche sur Google ne fournit pas les résultats escomptés et nécessite plus d’investigations ou plus d’exhaustivité, Netguide peut représenter un complément intéressant.
On suivra donc de près l’évolution de ce nouvel outil en espérant l’ajout de fonctionnalités de filtres ainsi qu’un enrichissement de l’annuaire de sources.