On pourrait bien sûr utiliser la presse, les appels d’offres ou encore la mise à disposition des données concernant la délivrance des permis de construire, mais ce processus est bien évidemment très chronophage. On peut alors se demander s’il n’existe pas des moteurs de recherche, bases de données ou cartographies dynamiques qui permettraient d’identifier ces projets de construction et d’avoir une vision panoramique du sujet.
Comme toujours, Google est un très bon point de départ pour identifier ces sources que l’on a peu de chances de connaître.
Pour la requête, on aura donc intérêt à croiser :
- des termes faisant référence à la notion d’outil de recherche comme
moteur, moteur de recherche, base de données, search engine, database, portail…etc;
- avec des termes faisant référence à son sujet de recherchecomme :
projets de construction, construction projects, permis de construire, construction permits
ou plus largement, au secteur de la construction.
Et cette démarche s’avère payante puisqu’on identifie rapidement des moteurs et bases de données qui recensent des projets de construction dans le monde ou dans un pays en particulier à l’image de :
- Building Radar - https://buildingradar.com/ qui se présente comme l’outil de recherche de référence sur les projets de construction à travers le monde. Il s’agit d’un acteur allemand qui scanne des dizaines de milliers de sources qui fournissent de l’information sur des projets de construction (sites d’architectes, sites de presse, appels d’offres, données sur les permis de construire, etc.) et propose un moteur de recherche qui combine algorithmes de recherche, NLP (Natural Language Processing) et algorithme de data mining. Dans un second temps, Building Radar vérifie l’état d’avancement du projet et la taille de la construction grâce à l’imagerie satellite fournie par son partenaire l’Agence spatiale européenne. L’outil est payant;
- Construction Wire spécialisé sur les projets de construction aux Etats-Unis - https://www.constructionwire.com/;
- Planning Pipe https://www.planningpipe.co.uk au Royaume-uni qui agrège toutes demandes de permis de construire et d’extension, etc., et fournit un moteur de recherche avec de nombreux filtres (payant);
- BidClerk spécialisé sur le Canada et les États-Unis - https://www.bidclerk.com/ ;
- Vigibati.fr, une cartographie des permis de construire dans toute la France avec moteur de recherche simple et différents filtres. L’outil a été lancé fin 2019 et est gratuit;
- etc.
Pour enrichir cette liste, on pourra adopter la méthodologie suivante :
- Réinterroger Google avec 2, 3 noms d’outils de recherche déjà identifiés comme
« Building Radar » « Construction wire »
pour identifier des pages qui listent des outils de recherche sur la construction ; - Entrer le nom d’un outil comme « Building Radar » suivi de termes comme competitors, concurrents, alternatives, etc.
Tester d’autres moteurs
On pourra ensuite tester d’autres moteurs de recherche généralistes comme Bing, Qwant, DuckDuckGo, etc. pour compléter sa liste d’outils de recherche thématiques et spécialisés.
On pourra ici utiliser les méthodes citées précédemment :
- croiser des termes faisant référence à la notion d’outil de recherche avec des termes liés au secteur d’activité ;
- entrer 2/3 noms d’outils déjà repérés .
Avec cette stratégie, nous avons réussi à identifier des pages que nous n’avions pas visualisées sur Google qui recensent des outils de recherche dédiés à la construction.
Cependant tous les outils pertinents avaient déjà été repérés.
Tirer parti de la presse spécialisée
Quand un nouvel outil de recherche thématique se lance sur le marché, les créateurs vont bien évidemment chercher à le faire connaître. La presse spécialisée est une cible de choix et permet d’atteindre directement un public qualifié.
On aura intérêt à interroger la presse professionnelle via les agrégateurs de presse gratuits (Google Actualités) ou payants (Factiva, NexisNewsdesk, Press’edd, Europresse, etc.) si on dispose d’un accès, en utilisant toujours la même stratégie de recherche.
Et comme aucun de ces agrégateurs ne dispose d’une couverture parfaite, notamment pour la presse spécialisée et professionnelle, on conseillera également de passer par une phase de sourcing minutieux sur le web pour identifier les grands titres de presse du secteur (ici BTP) et de les interroger séparément sur leurs sites web respectifs.
Forums : média privilégié des informaticiens
Une autre source à ne pas négliger : les forums et sites spécialisés où les développeurs Web aiment discuter et annoncer leurs projets. Pour le cas de Vigibati.fr, la cartographie des permis de construire en France, on constate ainsi que le créateur a annoncé le lancement de son produit sur plusieurs de ces sites :
- Un forum Linux ;
- Un forum de Next Impact ;
- Github qui est un service en ligne qui permet d’héberger ses repositories de code ;
- Reddit, qui est « un site web communautaire d’actualités sociales fonctionnant via le partage de signets permettant aux utilisateurs de soumettre leurs liens et de voter pour les liens proposés par les autres utilisateurs. » ;
- Un forum d’architecte ;
- Un forum hardware .
Pour rechercher spécifiquement sur ce type de contenu, on conseillera donc :
- d’identifier quelques forums de référence et de les interroger directement via leur moteur interne;
- d’utiliser l’opérateur site: de Google avec par exemple
site:https://forum.nextinpact.com OR site:reddit.com moteur permis de construire
- d’utiliser l’opérateur inurl: car la majorité des forums utilisent le terme forum dans leurs urls, par exemple:
inurl:forum cartographie « permis de construire » France
.
Tirer parti de l’intelligence collective sur Twitter
Twitter est également une source intéressante pour identifier des outils, car nombreux sont les internautes qui y partagent les sources qu’ils trouvent intéressantes.
Et contrairement aux autres médias sociaux, Twitter dispose d’un moteur de recherche plutôt sophistiqué avec de nombreux opérateurs et n’effectue pas une sélection de résultats.
On entrera par exemple une requête du type : «permis de construire» cartographie OR carte.
On découvre alors une cartographie dynamique similaire à Vigibati créée par le site Koumoul et qui se base elle aussi sur les données en open data de la base Sitadel : https://koumoul.com/reuses/permis-de-construire-de-locaux-et-logements-en-france-metropolitaine.
Nous ne l’avions pas identifié avec les autres méthodes.
Tirer parti des réutilisations des plateformes d’open data
Comme nous pouvons le voir, de nombreux outils de recherche récents utilisent les données publiques pour créer des outils de recherche (moteur, base de données ou cartographie) à valeur ajoutée. Certains de ces outils sont gratuits, mais les plus évolués fonctionnent généralement sur un modèle freemium ou complètement payant.
Sur les plateformes d’open data, il est fréquent de trouver une rubrique « Réutilisations » qui liste les réutilisations qui ont été faites des données et propose un petit outil de recherche.
- C’est le cas sur la plateforme data.gouv.fr par exemple.
Sous chaque jeu de données, la plateforme liste les réutilisations qui ont été faites. Il existe également une rubrique dédiée « Réutilisations » avec un moteur de recherche.
Pour notre exemple, nous avons donc regardé quelles étaient les réutilisations de la base Sitadel qui est la base des permis de construire en France. Seul Koumoul y était référencé comme réutilisation. Une recherche dans le moteur sur
« permis de construire »
a permis de faire ressortir celui de Vigibati.
Comme l’identification de ces moteurs issus de l’open data peut vite devenir chronophage, nous avons réalisé une sélection d’outils de recherche qui nous ont paru intéressants pour les professionnels de l’information dans l’article de ce même numéro « Open data : les outils de recherche issus des données de data.gouv.fr ».
Cartes et cartographies : des outils de recherche thématiques ?
Même s’il ne s’agit pas à proprement parler d’outils de recherche, on voit apparaître de plus en plus de cartes, cartographies, infographies ou dataviz pour représenter graphiquement des données et informations.
Dans le cas de notre exemple, Vigibati et Koumoul permettent de visualiser sur une carte les projets de construction en France. Building Radar offre également cette visualisation des projets de construction dans le monde.
Pour identifier ce type de sources, on pourra :
- lancer des requêtes sur les moteurs généralistes en croisant des termes comme
map, carte, cartographie, infographie
, etc. avec les termes liés à son sujet ; - utiliser
inurl:openstreetmap
ou croiser sa requête avec le termeOpenstreetmap
, car nombreux sont les outils qui utilisent cette base de données géographique du monde ; - tirer parti des moteurs d’images comme Google Images ;
- tirer parti de Twitter ;
- tirer parti des réutilisations en Open Data.
Cartes et cartographies : les nouveaux annuaires thématiques ?
Les outils de recherche généralistes n’ont jamais été très adaptés pour identifier des listes de sources sur un sujet ou thématique. Les annuaires thématiques faisaient cela très bien, mais la très grande majorité a aujourd’hui disparu ou n’est plus mise à jour.
Heureusement, on voit apparaître de plus en plus souvent librement sur le Web des cartes ou cartographies souvent interactives qui recensent des sources d’information ou outils sur une thématique donnée.
Et cela a beaucoup de valeur dans un contexte de veille et de recherche d’information pour la phase de sourcing.
Voici quelques exemples de cartes et cartographies thématiques repérées récemment et pouvant avoir un intérêt pour les professionnels de l’information :
- ISSN Portal : une carte mondiale interactive qui recense toutes les publications disposant d’un ISSN par pays : https://portal.issn.org - très pratique pour identifier les périodiques, revues, journaux et magazines d’un pays. Fonctionnalités avancées disponibles dans la version payante.
- Cartographie des médias français « Qui possède quoi » : https://www.acrimed.org/IMG/png/201911_carte-2.png - Cartographie du Monde Diplomatique et Acrimed qui recense « les médias français qui font l’opinion et dépendent d’intérêts industriels ou financiers, de groupes de presse ou de l’État. »
- Carte de la presse pas pareille : https://lagedefaire-lejournal.fr/carte-de-la-presse-pas-pareille/ - carte de France des « médias libres, indépendants et alternatifs ». Il s’agit de titres qui n’appartiennent à aucun groupe financier ou industriel ou parti politique, mouvement syndical ou religieux, détenus par leurs salariés, lecteurs ou associations, pas plus de 10 % de pub par numéro. Un bon moyen d’identifier des sources que l’on a peu de chance d’identifier sur Google News ou sur les agrégateurs payants.
- Cartographie du podcast en France : plusieurs acteurs proposent un cartographie du podcast en France : https://medium.com/cosavostra-stories/la-cartographie-ultime-du-podcast-en-france-88c488809595 ou https://fr.calameo.com/read/004363031af77a21d1819. Pratique à avoir sous la main si on doit identifier ou rechercher des podcasts.
- Newspaper Map : carte interactive qui liste des journaux anglophones à travers le monde ayant existé du 18e siècle jusqu’au début du 21e siècle (2003) - https://www.newspapers.com/map/
- Carte des médias scolaires https://www.clemi.fr/fr/carte-medias-scolaires.html réalisée par le CLEMI qui recense des initiatives de journaux, webradio, webTv ou blogs réalisés au sein d’établissements scolaires.
- Observatoire Open Data des territoires - http://umap.openstreetmap.fr/fr/map/observatoire-open-data-des-territoires_239529 carte interactive qui référence les acteurs territoriaux qui, en France, produisent et publient des données publiques ouvertes (au minimum 1 jeu de données publié sur un site web, une plateforme dédiée ou une plateforme mutualisée, y compris sur data.gouv.fr).
Bases de données en ligne : un nouveau produit journalistique
Depuis quelques années, le datajournalisme se développe au sein des rédactions.
Pour rappel, « Il s’agit d’exploiter, à des fins d’information, la masse de données générées par les organisations publiques ou privées et, parfois, de collecter directement ces données, en appliquant les méthodes d’enquête journalistique. » Wikipédia.
Si, bien souvent, le résultat final est un article de presse qui tire des conclusions et analyse les données collectées, il arrive également et de plus en plus souvent, que les journalistes mettent à disposition du public une base de données, un moteur ou une cartographie dynamique pour que le lecteur puisse lui-même explorer les données. Et il s’agit là d’outils de recherche thématiques potentiellement intéressants dans un contexte professionnel.
Ces outils sont généralement liés à de grands sujets d’intérêt public, politique, santé, corruption ou tirent parti des données en open data.
- On pensera par exemple au Monde qui avait développé en 2013 un moteur de recherche pour explorer les 150 millions de subventions de la réserve parlementaire en 2011 (https://www.lemonde.fr/politique/visuel/2013/07/10/le-montant-de-la-reserve-parlementaire-enfin-devoile_3445469_823448.html) ou en 2014 un outil d’exploration des déclarations d’intérêts des parlementaires (https://www.lemonde.fr/les-decodeurs/visuel/2014/08/01/explorer-les-declarations-d-interet-des-parlementaires_4465790_4355770.html).
- On pensera également aux grandes enquêtes menées par des groupements de journalistes à travers le monde à partir de fuites de données comme les Wikileaks dont les documents sont aujourd’hui accessibles librement via une base de données disposant d’un moteur ou encore l’ICIJ (Internal Consortium of Investigative Journalists - https://www.icij.org/data/) qui met à disposition gratuitement une « international medical devices database » qui recense les rappels, alertes de sécurité, etc. des dispositifs médicaux ainsi qu’une base de données avec les documents des Panama Papers, Paradise Papers et Bahamas leaks ou plus récemment les Luanda Leaks (https://www.icij.org/investigations/luanda-leaks/read-the-luanda-leaks-documents/).
Pour autant, identifier ces moteurs et bases de données n’est pas simple, car ils ne sont pas nécessairement bien référencés.
Comme ces outils de recherche sont souvent liés à des articles de presse, on conseillera d’interroger la presse pour détecter des articles qui parlent de l’enquête ou de l’investigation et de la création d’un outil de recherche associé.
Sur notre sujet sur les projets de construction à travers le monde, nous n’avons malheureusement trouvé aucune source intéressante. Mais rien d’étonnant, car cela reste peu développé et le sujet n’est pas vraiment grand public et d’intérêt général.
Ne pas négliger les Google CSE
Dernière piste à explorer : les moteurs personnalisés de Google (Google CSE).
Rappelons que Google permet depuis des années de créer ses propres moteurs de recherche personnalisés où l’on intègre soi-même les sources à prendre en compte.
Seul problème : il n’existe pas vraiment de méthode pour les repérer directement, car il n’ont généralement pas de nom, pas de descriptif et l’url se compose uniquement de https://cse.google.com suivi d’une liste de chiffres.
Seul moyen de les repérer : essayer de trouver des articles ou pages qui mentionnent ou listent des moteurs CSE.
Pour ce faire, on pourra tester des requêtes telles que list CSE, best custom search google, etc.
et des termes faisant référence à notre sujet.
On pourra également interroger les médias sociaux ou forums où les gens sont susceptibles d’annoncer qu’ils ont créé des moteurs personnalisés.
Pour notre exemple, nous n’avons pas identifié de moteur personnalisable spécialisé dans les projets de construction ou plus largement le BTP.
Une sélection de moteurs CSE intéressants pour la recherche d’information
Descriptif | url |
Recherche de personnes | |
Rechercher des emails | https://huit.re/cse-emails |
Rechercher des CVs sur Slideshare | https://huit.re/cse-cv-slideshare |
Rechercher profil de personnes sur Google Scholar | https://huit.re/cse-personnes-google-scholar |
Rechercher des personnes sur LinkedIn | https://huit.re/cse-personnes-Linkedin |
Rechercher des personnes sur meetup | https://huit.re/cse-personnes-meetup |
Rechercher sur le site about me | https://huit.re/cse-about-me |
Rechercher des CV de personnes sur Google (sites personnels) | https://huit.re/cse-sites-google |
Rechercher des emails dans des CVs | https://huit.re/cse-emails-cv |
Recherche de professionnels de santé | https://huit.re/cse-pro-sante |
Recherche par format | |
Rechercher des documents PDF | https://huit.re/cse-pdf |
Rechercher des documents par format (pdf, xls, doc) | https://huit.re/cse-formats |
Recherche sur les urls raccourcies | https://huit.re/cse-urls-raccourcies https://huit.re/cse-urls-raccourcies-2 |
Recherche sur des mailing lists | https://huit.re/cse-mailing-lists |
Recherche de mindmaps | https://huit.re/cse-mindmaps |
Recherche sur les wikis et sites de partage de fichiers | https://huit.re/cse-wikis |
Recherche sur les bookmarks publics | https://huit.re/cse-bookmarks |
Recherche sur des sites wordpress | https://huit.re/cse-wordpress |
Recherche sur Google Alertes | https://huit.re/cse-google-alertes |
Recherche sur la Chrome Webstore | https://huit.re/cse-chrome-webstore |
Recherche sur les médias sociaux | |
Recherche du Facebook | https://huit.re/cse-facebook |
Recherche sur Quora | https://huit.re/cse-quora |
Recherche sur Slideshare | https://huit.re/cse-slideshare |
Recherche sur plusieurs médias sociaux (Facebook, Twitter, LinkedIn) | https://huit.re/cse-medias-sociaux |
Recherche sur YouTube et Google Vidéos | https://huit.re/cse-videos |
Recherche sur les listes Twitter | https://huit.re/cse-listes-Twitter |
Recherche sur Github | https://huit.re/cse-github |
Recherche sur TikTok | https://huit.re/cse-tik-tok |
Recherche sur Trello | https://huit.re/cse-trello |
Recherche sur Instagram | https://huit.re/cse-instagram |
Recherche sur Reddit (user, contenu et commentaires) | https://huit.re/cse-reddit |
Recherche thématique ou géographique | |
Recherche sur le Web UK | https://huit.re/cse-web-uk |
Recherche sur la littérature scientifique | https://huit.re/cse-litterature-scientifique |
Recherche sur les sites de Think Tanks | https://huit.re/cse-think-tanks https://huit.re/cse-think-tanks-2 |
Recherche sur le contenu anglophone de DOAJ | https://huit.re/cse-doaj |
Recherche sur l’actualité américaine | https://huit.re/cse-actualites-americaines |
Recherche sur les sites gouvernementaux américains | https://huit.re/cse-sites-gouvernementaux-us |
Moteurs de journaux et magazines anglophones | https://huit.re/cse-magazines-anglophones |
Sources : https://sourcingcertification.com/cses/, https://start.me/p/EL84Km/cse-utopia et https://start.me/p/b5ynOQ/sprp77-search-engines.
La valeur ajoutée de ces moteurs personnalisés varie de l’un à l’autre et dépend beaucoup du corpus de sources choisi par le créateur du moteur. Il arrive souvent qu’il n’y ait pas de résultats, ce qui est un peu déstabilisant, Google ne nous ayant plus habitués à cela…
- Les moteurs thématiques sont ainsi intéressants, car ils permettent d’interroger un corpus sélectif sur un sujet donné ; les moteurs pour Facebook également, car le moteur interne de Facebook est complètement inadapté pour la recherche professionnelle.
- En revanche, pour les moteurs Twitter, cela est plus discutable, car le moteur interne de Twitter est déjà très puissant et pour les formats de fichier, Google permet déjà de rechercher sur des fichier pdf, word ou excel grâce à l’opérateur
filetype:
.- La force du moteur CSE par rapport au moteur web classique de Google réside dans le fait que l’on peut classer les résultats par date et pas uniquement pas pertinence, ce qui permet en principe d’éviter la sélection automatique des résultats Google et les sites qui se classent en tête des résultats parce qu’ils maîtrisent mieux que d’autres les techniques SEO.