Comment trouver des outils de recherche d’information thématiques ?

Carole Tisserand-Barthole
Netsources no
144
publié en
2020.01
2632
Acheter ce no
Tags
méthodologie | outils de recherche
Comment trouver des outils de recherche d’information ... Image 1
Comment trouver des outils de recherche d’information ... Image 1

Il y a un besoin croissant d’outils de recherche thématiques pour la recherche d’information professionnelle. Et fort heureusement, de nombreux outils thématiques se développent depuis quelques années. Dans un article paru en 2017 dans BASES « L’avenir de la recherche sera-t-il thématique ? » - BASES n°351, septembre 2017, nous avions évoqué cette tendance.

Deux ans et demi après, elle se confirme et de nouveaux outils de recherche thématiques continuent de voir le jour. Pour autant, identifier ces outils n’est pas toujours évident, car ils n’ont pas la même visibilité ni la même force de frappe que les grands outils de recherche sur le marché.

Dans cet article, nous proposerons une méthodologie pour identifier des outils de recherche thématiques sur un sujet donné.

Lire aussi :

L’avenir de la recherche sera-t-il thématique ?
Open data : les outils de recherche issus des données de data.gouv.fr
Veille et recherche : le retour de la sélectivité face à la quantité
Ces nouveaux outils qui surfent sur la sélectivité des sources
Comment construire ses propres outils de recherche d'information thématiques ?


Nous nous intéresserons aussi plus spécifiquement à 3 aspects qui prennent de plus en plus d’ampleur :

  • l’open data, matière première de nouveaux outils de recherche thématiques,
  • les cartes et dataviz, nouveaux annuaires thématiques,
  • les bases de données interrogeables en ligne, nouveau produit journalistique.

Google comme point de départ

Les outils de recherche thématiques et spécialisés se divisent en deux catégories :

  1. ceux qui se focalisent sur un type de documents et contenus (PDF, présentations, rapports, études de marché, statistiques, appels d’offres, images, vidéos, etc.)
  2. ceux qui se focalisent sur un secteur d’activité ou une thématique précise (secteur pharma, recherche sur les entreprises, agroalimentaire, juridique, etc.)

Dans cet article, nous nous intéresserons surtout à la deuxième catégorie.

Pour illustrer cette méthodologie, nous prendrons l’exemple suivant : « l’identification de projets de construction dans plusieurs pays ».

On pourrait bien sûr utiliser la presse, les appels d’offres ou encore la mise à disposition des données concernant la délivrance des permis de construire, mais ce processus est bien évidemment très chronophage. On peut alors se demander s’il n’existe pas des moteurs de recherche, bases de données ou cartographies dynamiques qui permettraient d’identifier ces projets de construction et d’avoir une vision panoramique du sujet.

Comme toujours, Google est un très bon point de départ pour identifier ces sources que l’on a peu de chances de connaître.

Pour la requête, on aura donc intérêt à croiser :

  • des termes faisant référence à la notion d’outil de recherche comme moteur, moteur de recherche, base de données, search engine, database, portail…etc;
  • avec des termes faisant référence à son sujet de recherchecomme : projets de construction, construction projects, permis de construire, construction permits ou plus largement, au secteur de la construction.

Et cette démarche s’avère payante puisqu’on identifie rapidement des moteurs et bases de données qui recensent des projets de construction dans le monde ou dans un pays en particulier à l’image de :

  • Building Radar - https://buildingradar.com/ qui se présente comme l’outil de recherche de référence sur les projets de construction à travers le monde. Il s’agit d’un acteur allemand qui scanne des dizaines de milliers de sources qui fournissent de l’information sur des projets de construction (sites d’architectes, sites de presse, appels d’offres, données sur les permis de construire, etc.) et propose un moteur de recherche qui combine algorithmes de recherche, NLP (Natural Language Processing) et algorithme de data mining. Dans un second temps, Building Radar vérifie l’état d’avancement du projet et la taille de la construction grâce à l’imagerie satellite fournie par son partenaire l’Agence spatiale européenne. L’outil est payant;
  • Construction Wire spécialisé sur les projets de construction aux Etats-Unis - https://www.constructionwire.com/;
  • Planning Pipe https://www.planningpipe.co.uk au Royaume-uni qui agrège toutes demandes de permis de construire et d’extension, etc., et fournit un moteur de recherche avec de nombreux filtres (payant);
  • BidClerk spécialisé sur le Canada et les États-Unis - https://www.bidclerk.com/ ;
  • Vigibati.fr, une cartographie des permis de construire dans toute la France avec moteur de recherche simple et différents filtres. L’outil a été lancé fin 2019 et est gratuit;
  • etc.

Pour enrichir cette liste, on pourra adopter la méthodologie suivante :

  • Réinterroger Google avec 2, 3 noms d’outils de recherche déjà identifiés comme « Building Radar » « Construction wire » pour identifier des pages qui listent des outils de recherche sur la construction ;
  • Entrer le nom d’un outil comme « Building Radar » suivi de termes comme competitors, concurrents, alternatives, etc.

Tester d’autres moteurs

On pourra ensuite tester d’autres moteurs de recherche généralistes comme Bing, Qwant, DuckDuckGo, etc. pour compléter sa liste d’outils de recherche thématiques et spécialisés.

On pourra ici utiliser les méthodes citées précédemment :

  • croiser des termes faisant référence à la notion d’outil de recherche avec des termes liés au secteur d’activité ;
  • entrer 2/3 noms d’outils déjà repérés .

Avec cette stratégie, nous avons réussi à identifier des pages que nous n’avions pas visualisées sur Google qui recensent des outils de recherche dédiés à la construction.

Cependant tous les outils pertinents avaient déjà été repérés.

Tirer parti de la presse spécialisée

Quand un nouvel outil de recherche thématique se lance sur le marché, les créateurs vont bien évidemment chercher à le faire connaître. La presse spécialisée est une cible de choix et permet d’atteindre directement un public qualifié.

On aura intérêt à interroger la presse professionnelle via les agrégateurs de presse gratuits (Google Actualités) ou payants (Factiva, NexisNewsdesk, Press’edd, Europresse, etc.) si on dispose d’un accès, en utilisant toujours la même stratégie de recherche.

Et comme aucun de ces agrégateurs ne dispose d’une couverture parfaite, notamment pour la presse spécialisée et professionnelle, on conseillera également de passer par une phase de sourcing minutieux sur le web pour identifier les grands titres de presse du secteur (ici BTP) et de les interroger séparément sur leurs sites web respectifs.

Forums : média privilégié des informaticiens

Une autre source à ne pas négliger : les forums et sites spécialisés où les développeurs Web aiment discuter et annoncer leurs projets. Pour le cas de Vigibati.fr, la cartographie des permis de construire en France, on constate ainsi que le créateur a annoncé le lancement de son produit sur plusieurs de ces sites :

  • Un forum Linux ;
  • Un forum de Next Impact ;
  • Github qui est un service en ligne qui permet d’héberger ses repositories de code ;
  • Reddit, qui est « un site web communautaire d’actualités sociales fonctionnant via le partage de signets permettant aux utilisateurs de soumettre leurs liens et de voter pour les liens proposés par les autres utilisateurs. » ;
  • Un forum d’architecte ;
  • Un forum hardware .

Pour rechercher spécifiquement sur ce type de contenu, on conseillera donc :

  •  d’identifier quelques forums de référence et de les interroger directement via leur moteur interne;
  •  d’utiliser l’opérateur site: de Google avec par exemple site:https://forum.nextinpact.com OR site:reddit.com moteur permis de construire
  •  d’utiliser l’opérateur inurl: car la majorité des forums utilisent le terme forum dans leurs urls, par exemple: inurl:forum cartographie « permis de construire » France.

Tirer parti de l’intelligence collective sur Twitter

Twitter est également une source intéressante pour identifier des outils, car nombreux sont les internautes qui y partagent les sources qu’ils trouvent intéressantes.

Et contrairement aux autres médias sociaux, Twitter dispose d’un moteur de recherche plutôt sophistiqué avec de nombreux opérateurs et n’effectue pas une sélection de résultats.

On entrera par exemple une requête du type : «permis de construire» cartographie OR carte.

On découvre alors une cartographie dynamique similaire à Vigibati créée par le site Koumoul et qui se base elle aussi sur les données en open data de la base Sitadel : https://koumoul.com/reuses/permis-de-construire-de-locaux-et-logements-en-france-metropolitaine.

Nous ne l’avions pas identifié avec les autres méthodes.

Tirer parti des réutilisations des plateformes d’open data

Comme nous pouvons le voir, de nombreux outils de recherche récents utilisent les données publiques pour créer des outils de recherche (moteur, base de données ou cartographie) à valeur ajoutée. Certains de ces outils sont gratuits, mais les plus évolués fonctionnent généralement sur un modèle freemium ou complètement payant.

Sur les plateformes d’open data, il est fréquent de trouver une rubrique « Réutilisations » qui liste les réutilisations qui ont été faites des données et propose un petit outil de recherche.

  • C’est le cas sur la plateforme data.gouv.fr par exemple.

Sous chaque jeu de données, la plateforme liste les réutilisations qui ont été faites. Il existe également une rubrique dédiée « Réutilisations » avec un moteur de recherche.

Pour notre exemple, nous avons donc regardé quelles étaient les réutilisations de la base Sitadel qui est la base des permis de construire en France. Seul Koumoul y était référencé comme réutilisation. Une recherche dans le moteur sur « permis de construire » a permis de faire ressortir celui de Vigibati.

Comme l’identification de ces moteurs issus de l’open data peut vite devenir chronophage, nous avons réalisé une sélection d’outils de recherche qui nous ont paru intéressants pour les professionnels de l’information dans l’article de ce même numéro « Open data : les outils de recherche issus des données de data.gouv.fr ».

Cartes et cartographies : des outils de recherche thématiques ?

Même s’il ne s’agit pas à proprement parler d’outils de recherche, on voit apparaître de plus en plus de cartes, cartographies, infographies ou dataviz pour représenter graphiquement des données et informations.

Dans le cas de notre exemple, Vigibati et Koumoul permettent de visualiser sur une carte les projets de construction en France. Building Radar offre également cette visualisation des projets de construction dans le monde.

Pour identifier ce type de sources, on pourra :

  • lancer des requêtes sur les moteurs généralistes en croisant des termes comme map, carte, cartographie, infographie, etc. avec les termes liés à son sujet ;
  • utiliser inurl:openstreetmap ou croiser sa requête avec le terme Openstreetmap, car nombreux sont les outils qui utilisent cette base de données géographique du monde ;
  • tirer parti des moteurs d’images comme Google Images ;
  • tirer parti de Twitter ;
  • tirer parti des réutilisations en Open Data.

Cartes et cartographies : les nouveaux annuaires thématiques ?

Les outils de recherche généralistes n’ont jamais été très adaptés pour identifier des listes de sources sur un sujet ou thématique. Les annuaires thématiques faisaient cela très bien, mais la très grande majorité a aujourd’hui disparu ou n’est plus mise à jour.

Heureusement, on voit apparaître de plus en plus souvent librement sur le Web des cartes ou cartographies souvent interactives qui recensent des sources d’information ou outils sur une thématique donnée.

Et cela a beaucoup de valeur dans un contexte de veille et de recherche d’information pour la phase de sourcing.

Voici quelques exemples de cartes et cartographies thématiques repérées récemment et pouvant avoir un intérêt pour les professionnels de l’information :

  • ISSN Portal : une carte mondiale interactive qui recense toutes les publications disposant d’un ISSN par pays : https://portal.issn.org - très pratique pour identifier les périodiques, revues, journaux et magazines d’un pays. Fonctionnalités avancées disponibles dans la version payante.
  • Cartographie des médias français « Qui possède quoi » : https://www.acrimed.org/IMG/png/201911_carte-2.png - Cartographie du Monde Diplomatique et Acrimed qui recense « les médias français qui font l’opinion et dépendent d’intérêts industriels ou financiers, de groupes de presse ou de l’État. »
  • Carte de la presse pas pareille : https://lagedefaire-lejournal.fr/carte-de-la-presse-pas-pareille/ - carte de France des « médias libres, indépendants et alternatifs ». Il s’agit de titres qui n’appartiennent à aucun groupe financier ou industriel ou parti politique, mouvement syndical ou religieux, détenus par leurs salariés, lecteurs ou associations, pas plus de 10 % de pub par numéro. Un bon moyen d’identifier des sources que l’on a peu de chance d’identifier sur Google News ou sur les agrégateurs payants.
  • Cartographie du podcast en France : plusieurs acteurs proposent un cartographie du podcast en France : https://medium.com/cosavostra-stories/la-cartographie-ultime-du-podcast-en-france-88c488809595 ou https://fr.calameo.com/read/004363031af77a21d1819. Pratique à avoir sous la main si on doit identifier ou rechercher des podcasts.
  • Newspaper Map : carte interactive qui liste des journaux anglophones à travers le monde ayant existé du 18e siècle jusqu’au début du 21e siècle (2003) - https://www.newspapers.com/map/
  • Carte des médias scolaires https://www.clemi.fr/fr/carte-medias-scolaires.html réalisée par le CLEMI qui recense des initiatives de journaux, webradio, webTv ou blogs réalisés au sein d’établissements scolaires.
  • Observatoire Open Data des territoires - http://umap.openstreetmap.fr/fr/map/observatoire-open-data-des-territoires_239529 carte interactive qui référence les acteurs territoriaux qui, en France, produisent et publient des données publiques ouvertes (au minimum 1 jeu de données publié sur un site web, une plateforme dédiée ou une plateforme mutualisée, y compris sur data.gouv.fr).

Bases de données en ligne : un nouveau produit journalistique

Depuis quelques années, le datajournalisme se développe au sein des rédactions.

Pour rappel, « Il s’agit d’exploiter, à des fins d’information, la masse de données générées par les organisations publiques ou privées et, parfois, de collecter directement ces données, en appliquant les méthodes d’enquête journalistique. » Wikipédia.

Si, bien souvent, le résultat final est un article de presse qui tire des conclusions et analyse les données collectées, il arrive également et de plus en plus souvent, que les journalistes mettent à disposition du public une base de données, un moteur ou une cartographie dynamique pour que le lecteur puisse lui-même explorer les données. Et il s’agit là d’outils de recherche thématiques potentiellement intéressants dans un contexte professionnel.

Ces outils sont généralement liés à de grands sujets d’intérêt public, politique, santé, corruption ou tirent parti des données en open data.

  • On pensera par exemple au Monde qui avait développé en 2013 un moteur de recherche pour explorer les 150 millions de subventions de la réserve parlementaire en 2011 (https://www.lemonde.fr/politique/visuel/2013/07/10/le-montant-de-la-reserve-parlementaire-enfin-devoile_3445469_823448.html) ou en 2014 un outil d’exploration des déclarations d’intérêts des parlementaires (https://www.lemonde.fr/les-decodeurs/visuel/2014/08/01/explorer-les-declarations-d-interet-des-parlementaires_4465790_4355770.html).
  • On pensera également aux grandes enquêtes menées par des groupements de journalistes à travers le monde à partir de fuites de données comme les Wikileaks dont les documents sont aujourd’hui accessibles librement via une base de données disposant d’un moteur ou encore l’ICIJ (Internal Consortium of Investigative Journalists - https://www.icij.org/data/) qui met à disposition gratuitement une « international medical devices database » qui recense les rappels, alertes de sécurité, etc. des dispositifs médicaux ainsi qu’une base de données avec les documents des Panama Papers, Paradise Papers et Bahamas leaks ou plus récemment les Luanda Leaks (https://www.icij.org/investigations/luanda-leaks/read-the-luanda-leaks-documents/).

Pour autant, identifier ces moteurs et bases de données n’est pas simple, car ils ne sont pas nécessairement bien référencés.

Comme ces outils de recherche sont souvent liés à des articles de presse, on conseillera d’interroger la presse pour détecter des articles qui parlent de l’enquête ou de l’investigation et de la création d’un outil de recherche associé.

Sur notre sujet sur les projets de construction à travers le monde, nous n’avons malheureusement trouvé aucune source intéressante. Mais rien d’étonnant, car cela reste peu développé et le sujet n’est pas vraiment grand public et d’intérêt général.

Ne pas négliger les Google CSE

Dernière piste à explorer : les moteurs personnalisés de Google (Google CSE).

Rappelons que Google permet depuis des années de créer ses propres moteurs de recherche personnalisés où l’on intègre soi-même les sources à prendre en compte.

Seul problème : il n’existe pas vraiment de méthode pour les repérer directement, car il n’ont généralement pas de nom, pas de descriptif et l’url se compose uniquement de https://cse.google.com suivi d’une liste de chiffres.

Seul moyen de les repérer : essayer de trouver des articles ou pages qui mentionnent ou listent des moteurs CSE.

Pour ce faire, on pourra tester des requêtes telles que list CSE, best custom search google, etc. et des termes faisant référence à notre sujet.

On pourra également interroger les médias sociaux ou forums où les gens sont susceptibles d’annoncer qu’ils ont créé des moteurs personnalisés.

Pour notre exemple, nous n’avons pas identifié de moteur personnalisable spécialisé dans les projets de construction ou plus largement le BTP.

Une sélection de moteurs CSE intéressants pour la recherche d’information

Descriptif url
Recherche de personnes
Rechercher des emails https://huit.re/cse-emails
Rechercher des CVs sur Slideshare https://huit.re/cse-cv-slideshare
Rechercher profil de personnes sur Google Scholar https://huit.re/cse-personnes-google-scholar
Rechercher des personnes sur LinkedIn https://huit.re/cse-personnes-Linkedin
Rechercher des personnes sur meetup https://huit.re/cse-personnes-meetup
Rechercher sur le site about me https://huit.re/cse-about-me
Rechercher des CV de personnes sur Google (sites personnels) https://huit.re/cse-sites-google
Rechercher des emails dans des CVs https://huit.re/cse-emails-cv
Recherche de professionnels de santé https://huit.re/cse-pro-sante
Recherche par format
Rechercher des documents PDF https://huit.re/cse-pdf
Rechercher des documents par format (pdf, xls, doc) https://huit.re/cse-formats
Recherche sur les urls raccourcies https://huit.re/cse-urls-raccourcies https://huit.re/cse-urls-raccourcies-2
Recherche sur des mailing lists https://huit.re/cse-mailing-lists
Recherche de mindmaps https://huit.re/cse-mindmaps
Recherche sur les wikis et sites de partage de fichiers https://huit.re/cse-wikis
Recherche sur les bookmarks publics https://huit.re/cse-bookmarks
Recherche sur des sites wordpress https://huit.re/cse-wordpress
Recherche sur Google Alertes https://huit.re/cse-google-alertes
Recherche sur la Chrome Webstore https://huit.re/cse-chrome-webstore
Recherche sur les médias sociaux
Recherche du Facebook https://huit.re/cse-facebook
Recherche sur Quora https://huit.re/cse-quora
Recherche sur Slideshare https://huit.re/cse-slideshare
Recherche sur plusieurs médias sociaux (Facebook, Twitter, LinkedIn) https://huit.re/cse-medias-sociaux
Recherche sur YouTube et Google Vidéos https://huit.re/cse-videos
Recherche sur les listes Twitter https://huit.re/cse-listes-Twitter
Recherche sur Github https://huit.re/cse-github
Recherche sur TikTok https://huit.re/cse-tik-tok
Recherche sur Trello https://huit.re/cse-trello
Recherche sur Instagram https://huit.re/cse-instagram
Recherche sur Reddit (user, contenu et commentaires) https://huit.re/cse-reddit
Recherche thématique ou géographique
Recherche sur le Web UK https://huit.re/cse-web-uk
Recherche sur la littérature scientifique https://huit.re/cse-litterature-scientifique
Recherche sur les sites de Think Tanks https://huit.re/cse-think-tanks https://huit.re/cse-think-tanks-2
Recherche sur le contenu anglophone de DOAJ https://huit.re/cse-doaj
Recherche sur l’actualité américaine https://huit.re/cse-actualites-americaines
Recherche sur les sites gouvernementaux américains https://huit.re/cse-sites-gouvernementaux-us
Moteurs de journaux et magazines anglophones https://huit.re/cse-magazines-anglophones

Sources : https://sourcingcertification.com/cses/, https://start.me/p/EL84Km/cse-utopia et https://start.me/p/b5ynOQ/sprp77-search-engines.

La valeur ajoutée de ces moteurs personnalisés varie de l’un à l’autre et dépend beaucoup du corpus de sources choisi par le créateur du moteur. Il arrive souvent qu’il n’y ait pas de résultats, ce qui est un peu déstabilisant, Google ne nous ayant plus habitués à cela…

  • Les moteurs thématiques sont ainsi intéressants, car ils permettent d’interroger un corpus sélectif sur un sujet donné ; les moteurs pour Facebook également, car le moteur interne de Facebook est complètement inadapté pour la recherche professionnelle.
  • En revanche, pour les moteurs Twitter, cela est plus discutable, car le moteur interne de Twitter est déjà très puissant et pour les formats de fichier, Google permet déjà de rechercher sur des fichier pdf, word ou excel grâce à l’opérateur filetype:.
  • La force du moteur CSE par rapport au moteur web classique de Google réside dans le fait que l’on peut classer les résultats par date et pas uniquement pas pertinence, ce qui permet en principe d’éviter la sélection automatique des résultats Google et les sites qui se classent en tête des résultats parce qu’ils maîtrisent mieux que d’autres les techniques SEO.