Pour les sources plus spécifiques (liées à un pays ou un secteur d’activité), nous présenterons dans l’article « Comment rechercher des données chiffrées sur Google et moteurs de recherche généralistes ? » dans ce même numéro des éléments méthodologiques pour les repérer.
Les agrégateurs de données hétéroclites
Présents sur le marché depuis déjà plusieurs années, ces sites se présentent comme des portails de statistiques qui agrègent des données très hétéroclites (données économiques, données démographiques, données gouvernementales, résultats d’entreprises, etc.) en provenance de multiples sources (grandes organisations internationales, entreprises, producteurs d’études de marché, cabinets de consultants, organisations professionnelles, etc.) et fonctionnent sur des modèles freemium.
Le volume de données étant très important, on a donc des chances d’y trouver au moins une partie des données que l’on cherche.
Sur ce créneau, les deux principaux acteurs s’appellent :
- Statista (https://fr.statista.com/);
- Knoema (https://knoema.fr/).
Nous consacrerons un article à part à Statista et Knoema dans le prochain numéro de BASES. Nous analyserons dans le détail leurs positionnements respectifs, leurs contenus, leurs sources et verrons lequel répond le mieux aux problématiques et besoins des professionnels de l’information.
Mais ils ne sont pas les seuls. On compte également :
- Nation Master (https://www.nationmaster.com/) ;
- DB Nomics (https://db.nomics.world/) (données surtout économiques) ;
- All that stats (https://www.allthatstats.com) ;
- Quandl (https://www.quandl.com/);
- World Statistics (http://world-statistics.org);
- Statistics Brain Institute (http://statisticbrain.com);
Notre avis :
La majorité de ces outils sont produits par des entreprises privées qui agrègent des données en provenance de multiples sources très hétéroclites.
Leur avantage réside dans le volume de données qu’ils agrègent. Mais les versions gratuites sont généralement limitées et il est souvent nécessaire de souscrire à l’offre payante. Comme la majorité des outils freemium, ils se lancent avec une offre essentiellement gratuite puis mettent avec les années de plus en plus de contenus payants.
Ils offrent un premier niveau d’information que l’on pourra approfondir en se rendant sur les sites des sources citées ou en lançant des recherches complémentaires sur le web.
En termes de fonctionnalités de recherche, elles sont malheureusement souvent très faibles à l’exception de Statista.
LES MOTEURS DE RECHERCHE SPÉCIALISÉS
En dehors de ces gros agrégateurs de données, il existe également des moteurs Web spécialisés sur les données chiffrées.
Malheureusement, ils se font de moins en moins nombreux.
Il existait par le passé un moteur de statistique intéressant appelé Zanran, mais il vient tout juste de fermer ses portes. Ses créateurs ont décidé de recentrer leurs activités sur les outils d’extraction de fichiers pdf (http://www.zanran.com/searchengineclosed.html).
- Un des derniers survivants s’appelle Wolfram Alpha (https://www.wolframalpha.com) et se positionne plutôt comme moteur d’accès à la connaissance même si en réalité la grande majorité des résultats qu’il propose sont des données chiffrées ou des graphiques.
Ce moteur au fonctionnement original combine compréhension du langage naturel, base de connaissances et calcul algorithmique dynamique. À chaque question il compile des données pour proposer une réponse à la question. Il n’y a donc pas que des données chiffrées, mais une proportion tout de même assez importante.
Les données proposées sont encore une fois très hétéroclites allant de la date de naissance de Mozart, au nombre de naissances annuelles au Pérou en passant par le PIB de l’Allemagne. Et quant aux sources, Wolfram Alpha utilise sa propre base de connaissances où il compile des données en provenance de multiples sources et n’indique donc que rarement le nom de la source originale.
- On notera également l’existence d’un moteur Google CSE appelé Statsearch (https://statsearch.org) et qui ambitionne de rendre plus facilement accessibles les statistiques en passant par Google. Les créateurs de ce moteur ont ainsi limité la recherche sur Google à des sources qu’ils jugent plus propices aux statistiques et données chiffrées. Néanmoins, leurs sources restent larges et généralistes et il y a bien souvent des résultats qui ne proposent pas de données chiffrées.
Notre avis :
Ces outils ont l’avantage d’être tous gratuits, mais il faut cependant les utiliser avec précaution.
Wolfram Alpha a tendance à compiler des données qui sont parfois un peu anciennes et Statsearch s’avère plus ou moins performant selon les recherches.
Les offices nationaux de statistiques
Chaque pays produit un important volume de données statistiques via ses offices nationaux de statistiques. Chacun de ses organismes propose tout ou partie de ses données en libre accès.
On trouvera la liste des organismes sur le site de l’organisation mondiale du travail (https://www.wto.org/french/res_f/statis_f/natl_f.pdf) ou sur la page Wikipédia dédiée (https://fr.wikipedia.org/wiki/Liste_des_instituts_officiels_de_statistique).
- Pour l’Europe, on conseillera l’utilisation d’Eurostat (https://ec.europa.eu/eurostat/fr/home) qui agrège les données des différents offices de statistiques de l’Union Européenne. Eurostat permet en plus de comparer directement les données entre les différents pays.
On peut naviguer dans le contenu par thèmes ou nom des datasets ou effectuer des recherches dans le moteur. On peut ensuite filtrer les résultats par « Thèmes », « Collections » ou « Date ». Le moteur est malheureusement très simpliste et ne comprend même pas les opérateurs booléens classiques.
Notre avis :
Ces sources ont l’avantage d’être gratuites et de proposer des données fiables dans les pays démocratiques. Dans les pays non démocratiques, on prendra les données avec précaution, car elles sont souvent manipulées pour aller dans le sens du discours officiel.
Et même si ces sources sont souvent incluses dans les portails et agrégateurs de statistiques, toutes ne le sont pas. De plus, les fonctionnalités de recherche proposer par le site peuvent être intéressantes et apporter une valeur ajoutée à celles proposées par les agrégateurs de statistiques.
Les outils de recherche de l’open data
Le développement de l’open data ces dernières années a permis la mise en ligne et la mise à disposition de nombreuses données publiques. Et il s’agit bien souvent de données chiffrées, mais encore une fois très hétéroclites (données sur la ponctualité des transports, la consommation électrique, le nombre de lampadaires dans une ville, les déclarations de revenus des élus, etc.)
Pour explorer et interroger ces données, on pourra se tourner vers différents outils nationaux ou internationaux qui permettent d’interroger directement ces données ou bien de repérer des portails open data potentiellement intéressants.
- Le moteur de données Google Datasets qui propose des données publiques, mais aussi des données de la recherche (https://datasetsearch.research.google.com/) ;
- Les plateformes open data nationales comme https://data.gouv.fr pour la France, https://www.data.gov/ aux USA, etc ;
- Les portails open data qui agrègent les données à l’échelle d’une région ou d’un continent comme https://www.europeandataportal.eu pour l’Europe ou https://dataportal.opendataforafrica.org/ pour l’Afrique ;
- Open Data Inception qui liste plus de 2 600 portails open data dans le monde - https://opendatainception.io/.
Notre avis :
Ces sources peuvent être très précieuses et se sont beaucoup développées au cours des dernières années.
Elles ne sont pas toujours simples à identifier et les fonctionnalités de recherche ne sont malheureusement pas toujours à la hauteur. D’autre part, les données sont tellement hétéroclites qu’il peut être difficile de s’y frayer un chemin.
Une partie de ces sources peuvent être incluses dans les agrégateurs de statistiques, mais pas la majorité.
Les bases statistiques des grandes organisations internationales
Les grandes organisations internationales mettent également à disposition gratuitement leurs bases de données statistiques. Il s’agit souvent de données macro-économiques.
C’est notamment le cas de :
- La Banque Mondiale avec sa base Databank (https://databank.banquemondiale.org/home.aspx );
- La BCE (Banque Centrale Européenne) (https://www.ecb.europa.eu/stats/html/index.en.html) ;
- Le FMI avec IMF Data (https://www.imf.org/en/Data) ;
- L’OCDE avec son portail de statistiques (https://stats.oecd.org/) ;
- L’ONU avec son portail dédié (https://data.un.org/) ;
- Le portail de l’International Energy Agency (https://www.iea.org/data-and-statistics) ;
- L’Organisation Mondiale du Commerce qui propose une rubrique Statistiques sur son site (https://www.wto.org/english/res_e/statis_e/statis_e.htm ) ;
- L’Organisation Mondiale de la Santé : https://www.who.int/gho/database/en/ ;
- L’Organisation des Nations Unies pour l’alimentation et l’agriculture http://www.fao.org/faostat/fr/#home.
Le site de l’International Statistical Institute (https://www.isi-web.org) propose également une liste d’organismes statistiques à travers le monde (offices nationaux, locaux, grandes organisations, etc.)
Notre avis :
Ces sources sont très précieuses et permettent d’obtenir des données fiables, ce qui n’est pas toujours le cas des autres sources spécialisées. Elles permettent aussi de comparer des données entre pays puisqu’elles sont uniformisées, ce qui n’est pas toujours évident quand on agrège par soi-même des données en provenance de sources très différentes (au risque même de faire des analyses complètement erronées).
Elles sont généralement incluses dans les agrégateurs de données et de statistiques.
Les serveurs et éditeurs classiques
Certains acteurs classiques du monde de l’information comme les serveurs ou bases de données proposent également quelques produits et bases de données liées aux statistiques, mais cela reste rare.
- Proquest propose une base appelée Proquest Statistical Insight qui propose plus d’un million de tableaux, 100 000 rapports et 5 000 sources issus des gouvernements, organisations privées et organisations intergouvernementales. Ces données ne couvrent que les États-Unis.
Proquest proposait également une base appelée ProQuest International Datasets mais elle a été arrêtée en 2018.
- De son côté, l’éditeur SAGE propose une base appelée Data Planet (https://www.data-planet.com/) qui rassemble plus de 12 millions de datasets issus de plus de 500 sources. L’outil accorde plus d’importance à la recherche et aux métadonnées que la plupart des autres acteurs sur ce créneau.
Les sources présentées dans cet article permettent d’accéder et d’identifier un certain nombre de données chiffrées. S’il faut absolument les connaître et les avoir sous la main, il en existe également beaucoup d’autres, très spécialisées ou beaucoup plus locales.
Nous présenterons donc dans la suite de ce numéro une méthodologie pour identifier des données chiffrées sur le Web ou bien des sources à même de détenir ces données.
Panorama des sources et outils spécialisés sur les données chiffrées
Nom | url | Types de sources | Gratuit / Payant |
Portails et agrégateurs de statistiques hétéroclites (freemium) | |||
Statista | https://fr.statista.com/ | Etudes, des publications scientifiques, des communications officielles, des rapports sur le commerce et autres publications statistiques de référence | Freemium |
Knoema | https://knoema.fr/ | Gouvernements, Industrie, médias, banques centrales, organisations internationales, instituts de recherche | Freemium |
Nation Master | https://www.nationmaster.com/ | Sources internationales comme UNDP, UNESCO Institute for Statistics, UNCTAD, WTO, World Bank, World Health Organization, OECD, etc. | Gratuit |
All the stats | https://www.allthatstats.com | Grandes organisations internationales | Freemium |
DB Nomics | https://db.nomics.world/ | Banques centrales, offices de statitiques, insituts de recherche et grandes organisations internationales | Freemium |
Quandl | https://www.quandl.com | Organismes financiers ou organismes de recherche indéendants | Freemium |
World Statistics | http://world-statistics.org | Organisations internationales comme les Banque Mondiales, les Nations-Unis ou encore Eurostat | Gratuit |
Statistics Brain Institute | https://www.statisticbrain.com/ | NA | Payant |
Moteurs de statistiques (gratuits) | |||
Wolfram Alpha | https://www.wolframalpha.com | Réponses issues de leur propre base de connaissances internes qui agrège des données en provenance de très nombreuses sources sur le Web | Gratuit |
Statsearch | https://statsearch.org | Vidéos, cours et tutoriel, livres, peer-review, podcasts et textbooks | Gratuit |
Grandes organisations Internationaes | |||
Eurostat | https://ec.europa.eu/eurostat/ | Données internes et en provenance des offices nationaux de statistiques de chaque pays | Gratuit |
Banque Mondiale | https://databank.banquemondiale.org et https://donnees.banquemondiale.org/ | Données collectées et compilées en interne | gratuit |
BCE | http://sdw.ecb.europa.eu/ | Données collectées et compilées en interne | Gratuit |
IMF Data (FMI) | https://data.imf.org | Données collectées et compilées en interne | Gratuit |
OCDE | https://data.oecd.org/fr/ et https://stats.oecd.org | Données collectées et compilées en interne | Gratuit |
ONU | https://data.un.org/ | Données collectées et compilées en interne | Gratuit |
International Energy Agency | https://www.iea.org/data-and-statistics | Données collectées et compilées en interne | Gratuit |
OMC | https://www.wto.org/english/res_e/statis_e/statis_e.htm | Données collectées et compilées en interne | Gratuit |
OMS | https://www.who.int/gho/database/en | Données collectées et compilées en interne | Gratuit |
FAO Stats | http://www.fao.org/faostat/fr/#home. | Données collectées et compilées en interne | Gratuit |
Serveurs et éditeurs classiques | |||
Proquest Statistical Insight | https://www.proquest.com/products-services/Statistical-Insight.html | Etats-Unis seulement - gouvernements, organisations privées et organisations intergouvernementales | Payant |
Data Planet | https://www.data-planet.com/ | organisations publiques et privées | Payant |