Bases & Netsources - Accueil

L’intelligence économique commence par une veille intelligente

Méthodologie et outils pour la recherche de statistiques

Netsources no
145
publié en
2020.03
2255
Méthodologie et outils pour la recherche de statistiques Image 1
Méthodologie et outils pour la recherche de statistiques Image 1

Les professionnels de l’information sont souvent à la recherche de données chiffrées, qu’il s’agisse de données financières, de tarifs, de statistiques, de données douanières, de taille ou capacité de production d’usines, de données démographiques, de données géographiques, etc.

Ces données souvent cruciales ne sont pas simples à identifier et éparpillées à travers le Web sur une grande diversité de supports.

Dans ce numéro de NETSOURCES, nous avons choisi de nous intéresser exclusivement aux données chiffrées et de faire le point sur ce type de recherche un peu particulier : 

  • Quelles sont les grandes sources proposant des statistiques et données chiffrées qu’il faut impérativement connaître ?
  • Comment rechercher des données directement sur les moteurs de recherche, les médias sociaux, etc. ?
  • Comment identifier les sources les plus à même de détenir les données que l’on souhaite obtenir ?
  • Quelles sont les spécificités de la recherche de données financières ? Quelles sont les principales sources à connaître ?
  • Comment tirer parti des outils d’extraction de données pour gagner du temps face à de gros volumes de chiffres pour la phase d’analyse et de capitalisation des informations ?

Lire aussi :

Comment rechercher des données chiffrées sur Google et moteurs de recherche généralistes ?
Trouver des informations financières : un exercice de recherche coûteux en efforts et en ressources
Economiser du temps grâce aux outils d’extraction de données


Dans ce premier article, nous nous focaliserons sur les grandes sources et outils à connaître pour la recherche de données chiffrées.
  • Quand on cherche des données chiffrées, il est préférable d’aller puiser en premier lieu dans les grandes sources et outils dédiés à ce type de données (statistiques, données financières, etc.). Cela offre souvent un gain de temps certain, car les données chiffrées ne sont alors pas diluées au milieu d’autres informations.
  • Les sources et outils spécialisés sur les données et statistiques sont de plus en plus nombreux. Nous avons donc choisi de présenter ici les principaux moteurs, portails et bases de données de données et statistiques proposant une couverture internationale (voir tableau en fin d’article).

Pour les sources plus spécifiques (liées à un pays ou un secteur d’activité), nous présenterons dans l’article « Comment rechercher des données chiffrées sur Google et moteurs de recherche généralistes ? » dans ce même numéro des éléments méthodologiques pour les repérer.

Les agrégateurs de données hétéroclites

Présents sur le marché depuis déjà plusieurs années, ces sites se présentent comme des portails de statistiques qui agrègent des données très hétéroclites (données économiques, données démographiques, données gouvernementales, résultats d’entreprises, etc.) en provenance de multiples sources (grandes organisations internationales, entreprises, producteurs d’études de marché, cabinets de consultants, organisations professionnelles, etc.) et fonctionnent sur des modèles freemium.

Le volume de données étant très important, on a donc des chances d’y trouver au moins une partie des données que l’on cherche.

Sur ce créneau, les deux principaux acteurs s’appellent :

Nous consacrerons un article à part à Statista et Knoema dans le prochain numéro de BASES. Nous analyserons dans le détail leurs positionnements respectifs, leurs contenus, leurs sources et verrons lequel répond le mieux aux problématiques et besoins des professionnels de l’information.

Mais ils ne sont pas les seuls. On compte également :

Notre avis :

La majorité de ces outils sont produits par des entreprises privées qui agrègent des données en provenance de multiples sources très hétéroclites.

Leur avantage réside dans le volume de données qu’ils agrègent. Mais les versions gratuites sont généralement limitées et il est souvent nécessaire de souscrire à l’offre payante. Comme la majorité des outils freemium, ils se lancent avec une offre essentiellement gratuite puis mettent avec les années de plus en plus de contenus payants.

Ils offrent un premier niveau d’information que l’on pourra approfondir en se rendant sur les sites des sources citées ou en lançant des recherches complémentaires sur le web.

En termes de fonctionnalités de recherche, elles sont malheureusement souvent très faibles à l’exception de Statista.

LES MOTEURS DE RECHERCHE SPÉCIALISÉS

En dehors de ces gros agrégateurs de données, il existe également des moteurs Web spécialisés sur les données chiffrées.

Malheureusement, ils se font de moins en moins nombreux.

Il existait par le passé un moteur de statistique intéressant appelé Zanran, mais il vient tout juste de fermer ses portes. Ses créateurs ont décidé de recentrer leurs activités sur les outils d’extraction de fichiers pdf (http://www.zanran.com/searchengineclosed.html).

  • Un des derniers survivants s’appelle Wolfram Alpha (https://www.wolframalpha.com) et se positionne plutôt comme moteur d’accès à la connaissance même si en réalité la grande majorité des résultats qu’il propose sont des données chiffrées ou des graphiques.
    Ce moteur au fonctionnement original combine compréhension du langage naturel, base de connaissances et calcul algorithmique dynamique. À chaque question il compile des données pour proposer une réponse à la question. Il n’y a donc pas que des données chiffrées, mais une proportion tout de même assez importante.

Les données proposées sont encore une fois très hétéroclites allant de la date de naissance de Mozart, au nombre de naissances annuelles au Pérou en passant par le PIB de l’Allemagne. Et quant aux sources, Wolfram Alpha utilise sa propre base de connaissances où il compile des données en provenance de multiples sources et n’indique donc que rarement le nom de la source originale.

  • On notera également l’existence d’un moteur Google CSE appelé Statsearch (https://statsearch.org) et qui ambitionne de rendre plus facilement accessibles les statistiques en passant par Google. Les créateurs de ce moteur ont ainsi limité la recherche sur Google à des sources qu’ils jugent plus propices aux statistiques et données chiffrées. Néanmoins, leurs sources restent larges et généralistes et il y a bien souvent des résultats qui ne proposent pas de données chiffrées.
Notre avis :

Ces outils ont l’avantage d’être tous gratuits, mais il faut cependant les utiliser avec précaution.

Wolfram Alpha a tendance à compiler des données qui sont parfois un peu anciennes et Statsearch s’avère plus ou moins performant selon les recherches.

Les offices nationaux de statistiques

Chaque pays produit un important volume de données statistiques via ses offices nationaux de statistiques. Chacun de ses organismes propose tout ou partie de ses données en libre accès.

On trouvera la liste des organismes sur le site de l’organisation mondiale du travail (https://www.wto.org/french/res_f/statis_f/natl_f.pdf) ou sur la page Wikipédia dédiée (https://fr.wikipedia.org/wiki/Liste_des_instituts_officiels_de_statistique).

  • Pour l’Europe, on conseillera l’utilisation d’Eurostat (https://ec.europa.eu/eurostat/fr/home) qui agrège les données des différents offices de statistiques de l’Union Européenne. Eurostat permet en plus de comparer directement les données entre les différents pays.

On peut naviguer dans le contenu par thèmes ou nom des datasets ou effectuer des recherches dans le moteur. On peut ensuite filtrer les résultats par « Thèmes », « Collections » ou « Date ». Le moteur est malheureusement très simpliste et ne comprend même pas les opérateurs booléens classiques.

Notre avis :

Ces sources ont l’avantage d’être gratuites et de proposer des données fiables dans les pays démocratiques. Dans les pays non démocratiques, on prendra les données avec précaution, car elles sont souvent manipulées pour aller dans le sens du discours officiel.

Et même si ces sources sont souvent incluses dans les portails et agrégateurs de statistiques, toutes ne le sont pas. De plus, les fonctionnalités de recherche proposer par le site peuvent être intéressantes et apporter une valeur ajoutée à celles proposées par les agrégateurs de statistiques.

Les outils de recherche de l’open data

Le développement de l’open data ces dernières années a permis la mise en ligne et la mise à disposition de nombreuses données publiques. Et il s’agit bien souvent de données chiffrées, mais encore une fois très hétéroclites (données sur la ponctualité des transports, la consommation électrique, le nombre de lampadaires dans une ville, les déclarations de revenus des élus, etc.)

Pour explorer et interroger ces données, on pourra se tourner vers différents outils nationaux ou internationaux qui permettent d’interroger directement ces données ou bien de repérer des portails open data potentiellement intéressants.

Notre avis :

Ces sources peuvent être très précieuses et se sont beaucoup développées au cours des dernières années.

Elles ne sont pas toujours simples à identifier et les fonctionnalités de recherche ne sont malheureusement pas toujours à la hauteur. D’autre part, les données sont tellement hétéroclites qu’il peut être difficile de s’y frayer un chemin.

Une partie de ces sources peuvent être incluses dans les agrégateurs de statistiques, mais pas la majorité.

Les bases statistiques des grandes organisations internationales

Les grandes organisations internationales mettent également à disposition gratuitement leurs bases de données statistiques. Il s’agit souvent de données macro-économiques.

C’est notamment le cas de :

Le site de l’International Statistical Institute (https://www.isi-web.org) propose également une liste d’organismes statistiques à travers le monde (offices nationaux, locaux, grandes organisations, etc.)

Notre avis :

Ces sources sont très précieuses et permettent d’obtenir des données fiables, ce qui n’est pas toujours le cas des autres sources spécialisées. Elles permettent aussi de comparer des données entre pays puisqu’elles sont uniformisées, ce qui n’est pas toujours évident quand on agrège par soi-même des données en provenance de sources très différentes (au risque même de faire des analyses complètement erronées).

Elles sont généralement incluses dans les agrégateurs de données et de statistiques.

Les serveurs et éditeurs classiques

Certains acteurs classiques du monde de l’information comme les serveurs ou bases de données proposent également quelques produits et bases de données liées aux statistiques, mais cela reste rare.

  • Proquest propose une base appelée Proquest Statistical Insight qui propose plus d’un million de tableaux, 100 000 rapports et 5 000 sources issus des gouvernements, organisations privées et organisations intergouvernementales. Ces données ne couvrent que les États-Unis. 

Proquest proposait également une base appelée ProQuest International Datasets mais elle a été arrêtée en 2018.

  • De son côté, l’éditeur SAGE propose une base appelée Data Planet (https://www.data-planet.com/) qui rassemble plus de 12 millions de datasets issus de plus de 500 sources. L’outil accorde plus d’importance à la recherche et aux métadonnées que la plupart des autres acteurs sur ce créneau.

Les sources présentées dans cet article permettent d’accéder et d’identifier un certain nombre de données chiffrées. S’il faut absolument les connaître et les avoir sous la main, il en existe également beaucoup d’autres, très spécialisées ou beaucoup plus locales.

Nous présenterons donc dans la suite de ce numéro une méthodologie pour identifier des données chiffrées sur le Web ou bien des sources à même de détenir ces données.

Panorama des sources et outils spécialisés sur les données chiffrées

Nom url Types de sources Gratuit / Payant
Portails et agrégateurs de statistiques hétéroclites (freemium)
Statista https://fr.statista.com/ Etudes, des publications scientifiques, des communications officielles, des rapports sur le commerce et autres publications statistiques de référence Freemium
Knoema https://knoema.fr/ Gouvernements, Industrie, médias, banques centrales, organisations internationales, instituts de recherche Freemium
Nation Master https://www.nationmaster.com/ Sources internationales comme UNDP, UNESCO Institute for Statistics, UNCTAD, WTO, World Bank, World Health Organization, OECD, etc. Gratuit
All the stats https://www.allthatstats.com Grandes organisations internationales Freemium
DB Nomics https://db.nomics.world/ Banques centrales, offices de statitiques, insituts de recherche et grandes organisations internationales Freemium
Quandl https://www.quandl.com Organismes financiers ou organismes de recherche indéendants Freemium
World Statistics http://world-statistics.org Organisations internationales comme les Banque Mondiales, les Nations-Unis ou encore Eurostat Gratuit
Statistics Brain Institute https://www.statisticbrain.com/ NA Payant
Moteurs de statistiques (gratuits)
Wolfram Alpha https://www.wolframalpha.com Réponses issues de leur propre base de connaissances internes qui agrège des données en provenance de très nombreuses sources sur le Web Gratuit
Statsearch https://statsearch.org Vidéos, cours et tutoriel, livres, peer-review, podcasts et textbooks Gratuit
Grandes organisations Internationaes
Eurostat https://ec.europa.eu/eurostat/ Données internes et en provenance des offices nationaux de statistiques de chaque pays Gratuit
Banque Mondiale https://databank.banquemondiale.org et https://donnees.banquemondiale.org/ Données collectées et compilées en interne gratuit
BCE http://sdw.ecb.europa.eu/ Données collectées et compilées en interne Gratuit
IMF Data (FMI) https://data.imf.org Données collectées et compilées en interne Gratuit
OCDE https://data.oecd.org/fr/ et https://stats.oecd.org Données collectées et compilées en interne Gratuit
ONU https://data.un.org/ Données collectées et compilées en interne Gratuit
International Energy Agency https://www.iea.org/data-and-statistics Données collectées et compilées en interne Gratuit
OMC https://www.wto.org/english/res_e/statis_e/statis_e.htm Données collectées et compilées en interne Gratuit
OMS https://www.who.int/gho/database/en Données collectées et compilées en interne Gratuit
FAO Stats http://www.fao.org/faostat/fr/#home. Données collectées et compilées en interne Gratuit
Serveurs et éditeurs classiques
Proquest Statistical Insight https://www.proquest.com/products-services/Statistical-Insight.html Etats-Unis seulement - gouvernements, organisations privées et organisations intergouvernementales Payant
Data Planet https://www.data-planet.com/ organisations publiques et privées Payant

Les abonnés peuvent poster des commentaires ! N'hésitez pas à vous abonner à Bases et Netsources...

HELIX_CLOSE_MENU