CHERCHER DIRECTEMENT SUR DES OUTILS DE RECHERCHE GÉNÉRALISTES
Chercher des données chiffrées sur Google
Rechercher des données chiffrées sur des sources et outils qui ne sont pas spécialisés sur ce type de contenus revient à chercher une aiguille dans une botte de foin.
Car on ne recherche pas directement le chiffre lui-même - puisque par principe, on ne le connaît pas et c’est justement ce que l’on souhaite obtenir - mais les mots-clés et termes qui vont l’entourer (comme statistiques, tableau, nombre, années, etc.). Les données chiffrées étant souvent entourées de caractères spéciaux (€, $, %,), il serait évidemment très pratique de pouvoir entrer ces caractères directement dans sa requête. Malheureusement aucun outil de recherche ne les prend en compte.
Google est indéniablement une source intéressante pour rechercher des données chiffrées. Tout d’abord en raison de la taille de son index, de sa capacité à comprendre de mieux en mieux l’intention de l’utilisateur, mais aussi et surtout, parce qu’il propose quelques fonctionnalités de recherche, imparfaites certes, mais utiles, dédiées aux données chiffrées.
Deux opérateurs spécifiques
Google propose deux opérateurs de recherche qui permettent de cibler précisément des chiffres.
1) Opérateur 1: L’une des astuces les plus méconnues consiste à écrire : 0… mot-clé
ou "0… mot-clé"
pour rechercher n’importe quel chiffre.
Si l’on cherche par exemple des données chiffrées sur le marché de la voiture autonome (statistiques, volume de ventes et de production, montant des investissements, parts de marché, etc.), on pourra écrire :
marché 0… voiture autonome
On trouvera alors des résultats contenant des données chiffrées comme « le cabinet Allied Market Research annonce un marché de 54,23 milliards en 2019 », « les voitures connectées et autonomes pourraient représenter un marché de 55 millions de véhicules vendus d’ici …» ou encore « En 2030, on estime qu’environ 80 millions de voitures autonomes circuleront au sein de ces trois marchés majeurs » (voir figure 1).
Attention : Cette astuce ne fait pas apparaître tous les résultats pertinents contenant des chiffres, mais cela permet juste de se focaliser un peu plus sur cet aspect. Il faudra également avoir recours à d’autres stratégies de recherche pour compléter sa recherche.
Figure 1 : recherche sur Google en utilisant un opérateur spécifique aux chiffres
2) Opérateur 2 : L’autre opérateur, plus connu, consiste à utiliser .. (deux points) pour entrer un intervalle de chiffres.
2020..2025
recherchera 2020, 2021, 2022, 2023, 2024 ou 2025.
Attention : comme pour l’autre opérateur, il arrive qu’il cesse de fonctionner pendant plusieurs mois ou années. Nos tests pour ce numéro ont montré qu’il était de nouveau utilisable. Il ne fait pas ressortir non plus tous les documents pertinents, mais une partie seulement.
Tirer parti du champ lexical des chiffres
La stratégie suivante consiste à effectuer sa recherche sur les termes qui vont entourer ces données chiffrées. On utilisera pour cela tout le champ lexical des chiffres, nombres, etc. comme : nombre, chiffres, statistiques, données, data, statistics, numbers, tableau, graphique, table, graph, chart, volume, taille, size, montant, amount, euros, dollars, taux, rate, pourcentage, capacité, combien, how much, how many, etc.
On pourra donc entrer des stratégies qui combinent ce champ lexical des chiffres avec ceux du secteur d’activité sujet comme par exemple :
production capacity « nom d’une usine »
si on cherche à connaître la capacité de production de telle ou telle usinenombre de naissance en Ouzbékistan
- etc.
On rappellera qu’il est de plus en plus déconseillé sur Google d’entrer des longues requêtes booléennes avec de nombreux synonymes séparés par des OR. Google élargit de plus en plus et de mieux en mieux la recherche à des termes et concepts similaires et entrer des OR revient à brider cette fonctionnalité.
Mieux vaut donc entrer plusieurs requêtes à la suite...
Tirer parti des fonctionnalités avancées de Google
Comme cette stratégie peut néanmoins générer du bruit, on pourra tirer parti des autres opérateurs avancés de Google pour limiter les résultats et affiner sa recherche.
On pourra notamment :
- Utiliser l’opérateur
filetype:
pour limiter les résultats aux fichiers pdf, xls ou ppt qui contiennent souvent des données chiffrées ; Attention Google ne recherche pas automatiquement sur xls/xlsx et ppt/pptx et donc il faut entrer les deux formats de fichier ;- Limiter la recherche à des sites gouvernementaux qui sont à même de détenir des données chiffrées fiables comme
site:gouv.fr
, etc.- Utiliser
inurl:
suivi d’un terme faisant référence à des chiffres. Les pages contenant beaucoup de chiffres contiennent souvent les termes data, données ou statistiques dans leur url. On pourra écrireinurl:data
;
On pourra également tester l’opérateur de proximité AROUND.
Chez Google, l’opérateur de proximité a une histoire compliquée : l’opérateur AROUND fonctionne parfois puis cesse de fonctionner puis refonctionne et ainsi de suite depuis des années. Et aux dernières nouvelles, il semblerait qu’il soit de nouveau opérationnel.
On pourra ainsi écrire marché AROUND(15) voiture autonome
pour retrouver des pages qui citent le terme marché ou ses synonymes à 15 mots maximum de voiture autonome ou de ses variantes.
Attention : Comme toujours avec Google, cela ne permet pas de retrouver tous les résultats pertinents répondant à cette requête. Il faut également envisager d’autres requêtes sur le sujet sans recourir à cet opérateur.
On pourra interroger d’autres moteurs généralistes, mais ils n’auront bien souvent que très peu de valeur ajoutée pour les données chiffrées, car ils proposent nettement moins de fonctionnalités de recherche.
Une fois que l’on a trouvé des données intéressantes, il peut être judicieux de relancer la recherche sur les chiffres trouvés. Par exemple, si on a trouvé des informations indiquant qu’il y aurait 55 millions de ventes de voitures autonomes d’ici 2040, on pourra relancer une recherche du type 30..60 millions ventes voitures autonomes 2030..2040
pour voir si les données convergent ou bien s’il existe d’autres données très différentes, voire contradictoires.
Rechercher via les images
Les données chiffrées étant souvent représentées de façon non purement textuelle dans des graphiques, dataviz ou encore rassemblées dans des tableaux, interroger des moteurs d’images comme Google Images est souvent une bonne solution.
On pourra lancer la recherche sur le thème et voir si cela génère des graphiques ou tableaux ou entrer des requêtes utilisant le champ lexical des données chiffrées.
Si l’on recherche des données chiffrées récentes sur la production de pétrole au niveau mondial par exemple, on pourra entrer la requête suivante :
Production pétrole
dans Google Images en limitant aux résultats récents.
On obtient de nombreux graphiques. La source des données est généralement citée et on peut alors aller explorer les données elles-mêmes dans la source initiale.
Chercher des données chiffrées sur les réseaux sociaux
Les réseaux sociaux font de plus en plus souvent partie des sources récurrentes des professionnels de l’information. Cependant, pour les données chiffrées, ce n’est pas l’endroit idéal pour chercher.
Si on tient absolument à explorer cette option, on pourra utiliser des termes caractérisant au mieux le type de données que l’on recherche tout en pensant à rester à un niveau assez général, car les messages publiés sur les réseaux sociaux restent assez brefs. On pourra également limiter la recherche aux images publiées sur les médias sociaux qui sont plus à même de contenir des graphiques.
Chercher des données chiffrées dans les agrégateurs de presse et bases de données
Les articles de presse citent souvent des statistiques et données chiffrées tout en indiquant généralement la source des données.
Là non plus pas de solution miracle, mais on pourra croiser les termes de la recherche avec le champ lexical des chiffres.
- On pourra également recourir aux opérateurs de proximité (souvent disponibles sur les agrégateurs de presse payants comme Factiva, Nexis Newsdesk ou encore Tagaday (ex-Press’edd).
- On pourra également s’appuyer sur l’indexation (l’indexation « recherches des experts de Factiva » propose par exemple une indexation pour les articles traitant des revenus des entreprises et des notions de fiscalité et comptabilité des entreprises).
Sur Nexis Newsdesk, il existe une indexation sujet avec capitalisation boursière, prix, étude de marché, rendement industriel, etc. pour cibler plus précisément des chiffres.
- Dans EBSCO, on a la possibilité de limiter les résultats à ceux contenant des graphiques ou des tableaux.
Il faudra donc regarder au cas par cas, les fonctionnalités de recherche de chaque outil et voir s’il existe des options spécifiques pour rechercher des données chiffrées.
Identifier des sources spécialisées pertinentes
Chercher directement les données est une chose, mais cela n’est pas toujours suffisant, car les sources les plus à même de fournir les données qui nous intéressent ne sont pas nécessairement indexées ou en tout cas pas suffisamment bien indexées dans les moteurs classiques. C’est pour cela qui faut également réfléchir en amont aux sources qui pourraient détenir les données, les identifier et ensuite effectuer des recherches sur leurs sites ou bases de données internes.
- Ainsi, si on cherche des statistiques sur les ventes de voitures en Indonésie, on a tout intérêt à tenter d’identifier une association professionnelle locale et ensuite explorer le site qui propose sûrement des statistiques. Et si le site est rédigé dans une langue que l’on ne maîtrise pas, on pourra toujours s’aider de Google Translate pour traduire le site à la volée.
- Même scénario si on cherche des données sur la consommation d’énergie en Poitou-Charentes : on aura intérêt à chercher un site d’open data régional ou un portail open data mis à disposition par les opérateurs énergétiques en France.
Lors de cette phase d’identification de sources pertinentes, il faudra explorer les pistes suivantes qui peuvent détenir des données chiffrées très riches :
- Organismes gouvernementaux ou collectivités locales ;
- Associations et organisations professionnelles ;
- Presse professionnelle ou spécialisée ;
- Site d’études de marché ;
- Sites de présentations comme Slideshare ;
- Sites des entreprises concernées elles-mêmes, etc. ;
- Portails open data locaux ou spécialisés ;
- etc.
Une fois ces sources identifiées, on les interrogera directement sur leurs sites respectifs. Et quand les fonctionnalités sont vraiment trop pauvres, on pourra passer par Google en utilisant l’opérateur site:url du site
.
On gardera également en tête que ce n’est pas parce que les données ne sont pas mises en ligne qu’elles n’existent pas. On pourra entrer en contact avec les organisations qui devraient en principe produire ce type de données et leur demander si elles pourraient les fournir gracieusement. Cela peut parfois fonctionner notamment dans le cadre de données qui entrent dans la définition des données publiques.