Cela fait 20 ans que de nouveaux moteurs apparaissent avec pour ambition de concurrencer voire détrôner Google. Et pratiquement tous ont le même créneau : le respect de la vie privée, domaine où il est clair que Google n’excelle pas.
Quand on recherche de l’information dans un contexte professionnel, le respect de la vie privée est certes important, mais il faut aussi pouvoir obtenir des résultats pertinents et de qualité et avoir à disposition des fonctionnalités de recherche dignes de ce nom. Et c’est malheureusement rarement le cas des différents moteurs que nous avons pu tester ces dernières années tels que Qwant, DuckDuckGo, Yep.com ou encore You.
Un nouvel entrant pourrait bien venir changer les règles du jeu dans le monde des moteurs grâce à sa bonne compréhension des requêtes et la qualité de ses résultats.
Il s’agit du moteur Neeva qui arrive enfin en Europe après avoir été lancé aux États-Unis en 2021. Et le moins que l’on puisse dire, c’est que ce moteur a de très nombreuses qualités, allant de la longue expérience de ses fondateurs chez Google à des fonctionnalités qui servent vraiment les professionnels de l’information.
Dans cet article, nous présentons tout ce qu’il y a à savoir sur Neeva et les résultats de nos différents tests pour comprendre le positionnement du moteur, ses forces, faiblesses et la place qu’il pourrait avoir dans le quotidien du professionnel de l’information.
Il est important de noter que Neeva se positionne avant tout comme un produit où la recherche d’information est clé. Le but étant que l’utilisateur y trouve les informations qu’il cherche sans être pollué par la publicité.
Cela peut paraître une évidence pour un moteur de recherche, mais cela reste finalement assez rare de nos jours avec d’un côté Google qui est avant tout préoccupé par sa rentabilité et de l’autre des moteurs qui misent tout sur le respect de la vie privée et le fait de replanter des arbres, mais qui s’intéressent finalement assez peu à la pertinence et la qualité des résultats.
Comprendre Neeva, c’est d’abord s’intéresser aux profils de ses fondateurs.
Les deux fondateurs ont occupé des postes prestigieux chez Google pendant des années : L’un d’eux Sridhar Ramaswany a été à la tête de la division publicité (« Ad ») pendant près de 15 ans tandis que Vivek Raghunathan a travaillé sur Google Search et YouTube.
Ils ont été à bonne école, mais ont fini par ne plus se reconnaître dans le système proposé par Google qui allait finalement toujours plus à l’encontre de leurs valeurs.
La lecture des nombreuses interviews des fondateurs dans la presse anglo-saxonne permet de bien comprendre les motivations à l’origine de Neeva et d’en savoir un peu plus sur le Google d’aujourd’hui.
Neeva, c’est finalement un retour aux valeurs de Google à ses débuts.
Dans un article de recherche publié en 1998, les deux fondateurs de Google alors doctorants à l’université de Stanford, Larry Page et Sergey Brin, écrivaient alors que « les revenus publicitaires incitent souvent à fournir des résultats de recherche de mauvaise qualité » . Or c’est exactement ce que fait Google aujourd’hui…
On apprend également dans certaines interviews des fondateurs de Neeva que chez Google le nombre de personnes travaillant sur Google Search n’est pas si important. Il y a proportionnellement plus de personnes travaillant dans le département Publicité.
Les fondateurs de Neeva, quant à eux, ne veulent pas reproduire la même erreur. Ils sont en effet convaincus que les moteurs soutenus par la publicité font invariablement reculer et disparaître les résultats de qualité au profit de contenus publicitaires et que cela contraint les entreprises à prioriser les profits au détriment du respect de la vie privée.
On retiendra donc des différentes interviews des fondateurs que Neeva a deux grandes ambitions :
En 2022, Neeva a annoncé développer son propre index avec son crawler Neevabot.
Déjà abonné ? Connectez-vous...
Le moteur Brave fait partie des moteurs prometteurs à avoir dans sa boîte à outils de recherche.
Il a récemment introduit une fonctionnalité intéressante appelée « Goggles », permettant à tout internaute de créer un moteur pour rechercher sur des corpus de sources personnalisés.
Les moteurs personnalisés sont une véritable aubaine pour les professionnels de l’information et de la veille et on note d’ailleurs un regain d’intérêt pour ces outils, comme en témoigne le lancement de cette fonctionnalité chez Brave, les possibilités de personnalisation chez Neeva ou encore le lancement de l’Atlas.pro
Voir nos articles « Nous avons testé Neeva, le moteur qui pourrait remplacer Google chez les pros de l’info » et « Nous avons testé Latlas.pro, un nouveau moteur de recherche thématique personnalisable », Bases N° 402 - avril 2022.
Tous ces outils et fonctionnalités ne sont d’ailleurs pas sans rappeler le moteur personnalisé proposé par Google appelé Google CSE, qui existe toujours et qui vient d’ailleurs de rajeunir son interface. Créer un moteur personnalisé sur Brave n’est malheureusement pas aussi simple que la création du moteur CSE sur Google, mais ce n’est pas insurmontable.
Dans cet article, nous vous expliquons pas à pas comment créer vos propres corpus de recherche sur Brave et nous évaluons la valeur ajoutée de ces moteurs personnalisés par rapport à Google CSE.
Lire aussi :
Brave Search, You et Presearch : les nouveaux moteurs passés au crible (Bases N° 397 - nov 2021)
Nous avons testé Yep.com, un nouveau moteur de recherche à l’index maison (Bases N° 405 - juil- août 2022)
Nous avons testé Latlas.pro, un nouveau moteur de recherche thématique personnalisable (Bases N° 402- avril 2022)
Faut-il préférer l’opérateur site: de Google ou la création d’un moteur CSE ? (Bases N° 390 - mars 2022)
Cela faisait un moment que Brave évoquait la mise en place de filtres permettant de ne faire porter sa recherche que sur une sélection de sources. La fonctionnalité est finalement sortie en version bêta au printemps dernier.
Elle s’appelle Goggles, ce qui n’est pas sans créer une certaine confusion avec le célèbre moteur américain. Peut-être est-ce d’ailleurs fait à dessein, mais en tout cas Goggles signifie surtout lunettes de protection en anglais ce qui transcrit bien cette image de filtrage des résultats.
Concrètement, l’utilisateur va classiquement lancer sa recherche dans le moteur puis va sélectionner l’onglet Goggles et choisir sur quel corpus faire porter sa requête :
Déjà abonné ? Connectez-vous...
Zendy est un moteur académique qui a été lancé il y a quelques années, mais qui reste méconnu en France (cf. figure 1. Interface de Zendy).
L’idée de départ est de rendre plus accessible la littérature académique notamment dans les pays et régions où il est difficile de souscrire à des bases de données et serveurs payants.
Développé par Knowledge E, une société basée à Dubaï qui propose des solutions de bibliothèques numériques, Zendy a donc noué des partenariats avec de grands acteurs de l’édition académique pour indexer leurs contenus et en mettre une partie gratuitement à disposition de ses utilisateurs.
Lire aussi :
Elicit, un nouveau moteur scientifique au banc d’essai (06/2022)
On compte des acteurs comme Emerald Publishing, SAGE Publishing, Taylor & Francis, Wiley ou encore Ebsco.
Figure 1. Interface de Zendy
Déjà abonné ? Connectez-vous...
Pendant longtemps, on a considéré que pour faire une recherche raisonnablement exhaustive de références bibliographiques scientifiques, il fallait, pour peu que l’on en ait les moyens, utiliser les serveurs ou agrégateurs payants tels que STN, Dialog, Scopus, ou encore Web of Science.
Mais à côté de ces puissants outils traditionnels, se sont développés de nombreux sites web gratuits, proposant, avec différentes interfaces user-friendly des références bibliographiques, de littérature scientifique et de brevets.
La question que se posent maintenant de nombreux de professionnels de l’information est de savoir s’il est raisonnable de limiter ses recherches aux grands serveurs/agrégateurs ou s’il est devenu utile, voire indispensable, de compléter ses recherches par l’interrogation de nombreux sites web en accès gratuit, dont on ne peut ignorer qu’ils ont aujourd’hui des contenus significatifs.
Lire aussi :
Comment faire évoluer sa recherche d’information scientifique avec les nouveautés de Google Scholar ? (Bases N° 404 - juin 2022)
Elicit, un nouveau moteur scientifique au banc d’essai (Bases N° 404 - juin 2022)
The Lens pour la littérature scientifique : des contenus mal valorisés (Bases N° 393 - juin 2022)
À l’inverse, on peut se demander si une recherche dans les sites gratuits peut remplacer, au moins partiellement, une recherche dans les sites payants, même si la première sera plus laborieuse pour ces professionnels. En effet, on peut être a priori rebuté par les possibilités de recherche limitées, ainsi que par la multiplicité de sites à interroger pour tenter d’arriver au fameux sentiment d’exhaustivité qui fait partie de la culture des professionnels.
Nous avons voulu ici apporter notre point de vue de spécialistes en intelligence scientifique et technologique en comparant deux serveurs traditionnels, Dialog, STN et Scopus, avec un ensemble d’outils de recherche scientifique en accès libre. Et témoigner ainsi de notre expérience de longue date pour trouver la bonne formule d’une recherche bibliographique optimale.
Dans le monde de l’information scientifique, la création et le développement dès les années 70-80 de serveurs, américains dans un premier temps, a rendu de plus en plus facile la recherche de références d’articles scientifiques qui, auparavant, se faisait à la main.
Ces références sont donc passées en format électronique constituant des banques de données bibliographiques.
Cela s’est, bien sûr, fait progressivement, en commençant par les références sans abstract puis avec abstract. Il est maintenant courant d’avoir un lien vers le texte lui-même, que son accès soit gratuit ou payant.
On dispose aussi désormais d’autres types d’informations tels que des essais cliniques ou des molécules chimiques sous forme graphique, des données de recherche, etc.
Pendant de nombreuses années, les serveurs pionniers tels que Dialog ou SDC (devenu Orbit puis racheté quelques années plus tard par Questel) étaient la seule voie pour accéder à ces références bibliographiques tandis que le nombre et le volume de ces banques de données ne cessaient de croître tant par les mises à jour que par les remontées dans le temps.
L’avantage était que tout était bien cadré, les banques de données avaient et ont toujours des thématiques bien identifiées (métallurgie, agriculture, médecine…) et les serveurs qui les hébergeaient y donnaient accès par des langages de requête sophistiqués, réservés aux professionnels de l’information qui s’y étaient formés.
Aujourd’hui, après une période de concentration, les grands serveurs de littérature scientifique existent toujours tels que Dialog (qui a absorbé DataStar) et STN, rejoints quelques années plus tard par de grands agrégateurs de presse scientifique tels que Scopus et Web of Science.
Le développement de moteurs gratuits et de l’open access a bousculé les schémas en place, rendant une part non négligeable de ces références bibliographiques beaucoup plus facilement accessibles et gratuitement. De plus, le développement de l’outil gratuit Google Scholar a eu comme conséquence de faire croire, à tort, à de nombreux chercheurs et décideurs, qu’une recherche dans Google Scholar pouvait être considérée comme exhaustive et qu’il n’était point besoin d’aller chercher ailleurs.
Il faut préciser ici que le libre accès aux références ne signifie pas que l’article correspondant soit en open access c’est-à-dire lui aussi gratuit. On trouve les deux cas de figure : référence payante dans un serveur payant, mais article correspondant gratuit, ou l’inverse, c’est-à-dire site en libre accès et article payant, comme par exemple souvent dans Google Scholar. Bien sûr, les possibilités de recherche sont moins sophistiquées dans ces nouveaux sites. En particulier on ne peut, parfois, limiter sa recherche au titre du document, ou combiner des étapes de recherche. Il n’est donc pas évident de traiter une question complexe.
Toute la question qui se pose aujourd’hui est de savoir comment réaliser la meilleure recherche d’information scientifique sans avoir nécessairement besoin d’interroger les dizaines et dizaines d’outils gratuits et payants sur le marché, mais tout en ayant identifié une majorité raisonnable de documents clés. Et ce n’est pas une mince affaire.
Déjà abonné ? Connectez-vous...
L’entreprise spécialisée dans le SEO Ahrefs, basée à Singapour, mais fondée par l’Ukrainien Dmytro Gerasymenko, vient de dévoiler son propre moteur de recherche, Yep.com, qui se veut un émule du moteur Brave et ambitionne de prendre quelque part de marché au mastodonte Google et, dans une moindre mesure, à Bing.
À la différence des moteurs tels qu’Ecosia et DuckDuckGo, Yep.com dit utiliser pour son moteur un index développé en interne, à l’instar de Brave Search (voir notre article « Brave Search, You et Presearch : les nouveaux moteurs passés au crible », Bases N° 397 - nov 2021), et non sur des API dérivant ou s’appuyant sur les index de Google et Bing.
L’index s’appuie donc pour l’instant sur AhrefsBot, un crawler « fait maison » pour indexer le Web, au rythme de 8 milliards de pages web toutes les 24 heures, selon la société.
La prochaine étape prévue sera de créer un YepBot indépendant des algorithmes d’Ahrefs.
Lire aussi :
Brave Search, You et Presearch : les nouveaux moteurs passés au crible (Bases N° 397 - nov 2021)
Le site Abondance indique que l’index « est mis à jour toutes les 15 à 30 minutes » et que « la société ajoute 30 millions de pages web et en supprime 20 millions » par jour, sans que l’on connaisse les critères de sélection (liens morts, pages trop anciennes et non actualisées, etc.).
« Yep » est le mot anglais pour « yes » dans un contexte familier. L’interface est particulièrement épurée et aisée à comprendre et utiliser (cf. Figure 1. Interface d’accueil de Yep et Figure 2. page des résultats de Yep.com)
Figure 1. Interface d’accueil de Yep
Figure 2. Page des résultats de Yep.com
Rien de renversant dans sa présentation, ce qui est aussi bien, afin de ne pas déstabiliser l’utilisateur, très (trop ?) habitué à la présentation Google/Bing.
Ce qui va nous intéresser, c’est son positionnement, le business model que le moteur indique mettre en place et la place de ce moteur dans la boîte à outils du veilleur.
Déjà abonné ? Connectez-vous...
La conférence AI-SDV revient essentiellement en présentiel, cette année, à Vienne, les 10 et 11 octobre prochains.
Les sujets traités par les 22 conférenciers concerneront la recherche avancée, le text mining, les techniques de visualisation, etc..
Un aperçu du pré-programme paraît très engageant : https://haxel.com/ai-sdv
Alors que ces dernières années, l’interface de Google Actualités n’avait pratiquement plus aucun un intérêt pour la veille et la recherche et qu’il valait mieux passer par l’onglet « Actualités » du moteur web de Google, Google Actualités (ou Google News) a récemment introduit des fonctionnalités inédites.
Plusieurs d’entre elles découlent d’une utilisation accrue de l’IA et sont particulièrement prometteuses pour la veille et la recherche d’information, à tel point qu’elles pourraient bien amener le professionnel de l’info à reconsidérer l’interface pour ses recherches, en plus du moteur web classique.
Google Actualités a récemment lancé une nouvelle interface pour Google Actualités. Cette nouvelle version reste dans la droite ligne des dernières évolutions de Google sur l’ensemble de ses produits et Google cherche à collecter le plus d’informations possible sur le profil et les habitudes de ses usagers.
Google précise d’ailleurs sans détour son parti pris concernant sa politique de contenu dans le court disclaimer suivant :
« Ces articles sont classés en fonction de leur qualité, de l’originalité et de l’actualité de leur contenu, de votre activité et de vos achats précédents dans Google Actualités, ainsi que de votre activité dans d’autres produits Google. Google peut avoir un contrat de licence avec certains éditeurs, mais cela n’a aucun impact sur le classement des résultats. »
Cet update est donc naturellement une invitation à la personnalisation avec plus de filtres, du contenu spécial Fact Checking, des sujets proposés en fonction des recherches Google faites précédemment et de la recommandation de contenus boostée par l’IA.
Cet article vise à présenter les récentes évolutions et nouveautés et proposer des pistes sur la manière de se les approprier et de réintégrer Google Actualités dans ses démarches de recherche ou de veille.
Figure 1 : Capture d’écran de la nouvelle interface Google Actualité
L’internaute arrive donc sur une interface découpée
Contrairement à la précédente interface, l’accent est beaucoup plus mis sur l’actualité locale et la recommandation de contenus.
Déjà abonné ? Connectez-vous...
Malgré l’existence d’outils de recherche scientifiques, professionnels, payants et performants comme STN, Proquest Dialog, Scopus ou encore Web of Science, on constate au quotidien que Google Scholar et quelques autres moteurs académiques gratuits sont, et restent, des piliers de la recherche d’articles scientifiques. Soit en complément des serveurs et bases de données professionnelles soit comme point d’accès unique à la littérature scientifique.
Les différents moteurs académiques qui composent le marché - dont Google Scholar - ont récemment évolué aussi bien en termes de fonctionnalités proposées que de positionnement pour répondre aux besoins des utilisateurs, mais aussi pour trouver des modèles économiques viables.
Quand on fait de la veille scientifique, technique ou innovation, il faut donc embrasser ces changements et évolutions et les inclure à ses pratiques de veille et de recherche d’information.
Mais ce n’est pas si simple...
Dans cet article, nous faisons donc le point sur tout ce tout ce qu’il y a aujourd’hui à connaître à propos des moteurs scientifiques et académiques quand on recherche de l’information ou quand on fait de la veille.
Précisons que nous nous intéressons exclusivement aux moteurs académiques au sens strict du terme et non aux outils de recommandations automatiques scientifiques, aux outils de recherche par réseaux de citations, etc. qui connaissent également des développements intéressants. Mais cela fera l’objet d’autres articles à venir.
Lire aussi :
Les données de la recherche : un nouveau pan de la recherche d’information scientifique et technique - Dossier spécial Data (Bases N° 364 - nov 2018)
De nouveaux moteurs gratuits pour concurrencer Google Scholar (septembre 2018)
Rechercher des articles scientifiques anciens : entre intuition et méthodologie (Netsources N° 134 - mai 2018)
Les nouveaux outils de recommandation pour l’IST (Bases N° 379 - mars 2020)
Lors de son lancement en 2004, Google Scholar a véritablement révolutionné la recherche d’information scientifique et l’accès à la littérature académique avec un outil de recherche gratuit, une couverture très large et internationale et la capacité à indexer et à rechercher sur le texte intégral des articles scientifiques (même s’il ne donne pas ensuite accès au texte intégral de tous les articles).
S’en est suivie une longue période où l’outil a peu évolué et n’a fait l’objet que de très peu de communication du côté de Google. Il n’y a qu’à se rendre sur le blog officiel de Google Scholar pour s’en convaincre avec à peine 2 ou 3 articles et annonces par an au cours des dernières années. Annonces qui sont même parfois anecdotiques et n’apportent rien aux internautes qui recherchent de l’information ou font de la veille.
Le contraste avec le moteur Web de Google, qui ne cesse d’innover et de communiquer sur son intégration de l’IA est criant… On notera d’ailleurs que certains professionnels à la recherche d’articles scientifiques préfèrent passer par le moteur Web de Google que par Google Scholar.
Depuis quelque temps cependant, Google semble accorder un peu plus d’importance à Google Scholar avec l’ajout de nouvelles fonctionnalités. Et ce qui est étonnant, c’est que Google Scholar communique sur certaines de ces nouveautés, mais une petite partie seulement. Les autres nouveautés sont découvertes un peu par hasard par des professionnels de l’information experts ou des chercheurs au gré de leurs tests et de leurs recherches. Nous allons donc nous intéresser à toutes les nouveautés de Google Scholar qu’il faut retenir, qu’elles soient annoncées officiellement par Google ou non.
Déjà abonné ? Connectez-vous...
Tout le monde connaît Google Scholar pour rechercher dans la littérature académique (articles de revues scientifiques et académiques, thèses, preprints, comptes-rendus de conférences, etc.). On connaît moins les autres moteurs académiques qui composent le paysage et pourtant ils ont toute leur place dans la panoplie d’outils pour les chercheurs, les ingénieurs et les professionnels de l’information.
Dans cet article, nous avons choisi de tester un nouveau moteur académique : Elicit.
Comment vient-il se positionner dans l’univers des moteurs académiques et quelle est sa valeur ajoutée par rapport à des outils comme Google Scholar, Lens, Dimensions quand on a besoin de rechercher de l’information scientifique et technique ?
Lire aussi :
De nouveaux moteurs gratuits pour concurrencer Google Scholar (sept 2018)
Les nouveaux outils de recommandation pour l’IST (Bases N° 379 - mars 2020)
L’outil de veille scientifique Meta sacrifié sur l’autel de Facebook (july 2022)
De la référence bibliographique au texte intégral des articles scientifiques, il n’y a pas toujours qu’un pas (Netsources N° 149 - nov/dec 2020)
Elicit est un nouveau moteur académique entièrement gratuit lancé en 2021 qui ne ressemble à aucun autre (cf. Figure 1. Interface d’Elicit).
Il a été créé par Ought, un laboratoire de recherche à but non lucratif localisé aux États-Unis qui reçoit des subventions d’organismes comme l’Open Philanthropy, Jaan Tallin, le Future of Life Institute, etc.
Figure 1. Interface d’Elicit
Le parti pris d’Elicit est de se positionner comme assistant de recherche dopé à l’IA, un choix audacieux quand on sait à quel point les outils IST à base d’IA ont aujourd’hui du mal à trouver leur place. Au départ construit comme un moteur mixte mêlant recherche sémantique et recherche par mot-clé classique, Elicit est aujourd’hui uniquement un moteur sémantique.
Voir notre article : Comment faire évoluer sa recherche d’information scientifique avec les nouveautés de Google Scholar et les autres ? , (Bases N° 404 - juin 2022)
L’outil vise avant tout le chercheur qui a besoin de réaliser des revues de littérature dans le domaine scientifique, mais par extension il peut intéresser toute personne qui a besoin d’explorer la littérature scientifique et académique.
A l’image du moteur Web de Google aujourd’hui, Elicit est un assistant et n’a pas donc pas vocation à comprendre des requêtes traditionnelles par mots-clés. Nous avons fait le test et il n’est effectivement pas conçu pour cela.
Déjà abonné ? Connectez-vous...
Rechercher des experts est une problématique courante de la recherche d’information scientifique et technique.
Quand on dispose de bases de données et serveurs scientifiques payants tels que Scopus, Web of Science, STN ou encore Dialog Solutions, l’exercice présente relativement peu de difficultés. Ces outils ont en effet développé avec les années des fonctionnalités, notamment de datavisualisation, qui permettent l’identification d’experts en faisant ressortir les auteurs les plus prolifiques et les plus cités sur une thématique donnée. Certains ont également développé des outils de recherche d’experts ou ont racheté des outils dédiés existant sur le marché. De plus, ces outils ont l’avantage de proposer des langages de recherche sophistiqués qui permettent d’avoir une approche très fine et donc d’identifier les spécialistes de n’importe quel sujet, aussi précis soit-il.
Mais quand on ne dispose pas d’accès à ces outils payants et qu’il faut réussir à identifier des experts en n’utilisant que des outils gratuits, cela s’avère nettement plus chronophage et compliqué.
Dans cet article, nous explorons le nouveau moteur du CEA dédié à la recherche d’experts et nous revenons ensuite sur les autres solutions gratuites qui existent aujourd’hui sur le marché pour identifier des experts scientifiques.
Lire aussi :
Search Lab : 3 méthodologies de recherche clé-en main (Netsources N° 139 - mars/avril 2019)
Identifier experts, influenceurs ou talents : sources et méthodologie (Netsources N° 129 - juil/août 2017)
Comment trouver les meilleurs experts (Netsources N° 129 - juil/août 2017)
Tout au long de cet article, nous prendrons un exemple de recherche d’experts pour illustrer la méthodologie : il s’agira d’essayer d’identifier des experts/spécialistes des microalgues en France. La recherche se fera en français et en anglais, car il ne faut pas oublier que la grande majorité des articles de recherche sont en anglais même quand il s’agit de chercheurs français.
Le CEA (Commissariat à l’Énergie Atomique) vient tout juste de lancer un moteur, CEA360 dont l’ambition est de permettre la découverte des activités de recherche du CEA.
L’idée est intéressante, car le CEA est un organisme gigantesque qui est loin de se limiter à la seule thématique de l’énergie atomique et dont les entités sont réparties aux quatre coins de la France.
Parmi les thématiques couvertes par le CEA, on trouve également l’assainissement, la défense et la sécurité, les différentes énergies, l’environnement, le numérique et les nouvelles technologies ou encore la santé et la science du vivant.
Jusqu’à présent, il n’était pas évident pour quelqu’un d’extérieur au CEA de se repérer dans cet immense organigramme et de réussir à repérer les bonnes entités en lien avec ses thématiques de recherche.
Déjà abonné ? Connectez-vous...