Les outils de Business Intelligence pour créer des analyses visuelles dans un livrable de veille

Mais utiliser la dataviz dans ses livrables, ce n’est pas appuyer sur un bouton pour récupérer en un clic toute une série de représentations graphiques adaptées à ses problématiques. Ce serait trop beau. C’est en réalité beaucoup plus complexe et fastidieux et nous en avons fait l’expérience à partir d’un exemple concret.

Nous avons récupéré un corpus issu d’une veille concurrentielle réalisée sur le thème des bactéries probiotiques. La veille était réalisée à l’échelle internationale dans des sources diverses et dans différentes langues : presse, blogs, réseaux sociaux, contenus multimédias, etc. Les informations pertinentes étaient ensuite intégrées dans une plateforme de diffusion.

Chaque « pièce d’information » présentait la forme suivante : Titre, descriptif ou résumé, source et date de publication et différents tags pour qualifier l’information et la rendre plus facilement « retrouvable » dans le futur. Parmi les tags, on retrouvait le ou les acteurs concernés, la zone géographique ou encore le type d’information dont il s’agissait, etc.

Imaginons maintenant que nous souhaitons ajouter une dimension plus visuelle et un niveau d’analyse supplémentaire au livrable de veille en y intégrant des dataviz.

À partir des milliers d’informations recueillies au cours des années (mine d’informations), on pourrait tout à fait envisager de proposer des analyses à travers le temps et/ou géographiques :

Visualiser les pays qui comptent le plus de lancements de produits probiotiques année après année pour voir s’il y a une évolution du marché et des tendances.
Visualiser acteur par acteur l’évolution de leurs lancements de produits à travers le monde pour déterminer les marchés sur lesquels ils se positionnent.

Pour réaliser ces visualisations de données, nous ne pouvons pas compter sur la plateforme de diffusion utilisée car elle ne propose pas de fonctionnalités de dataviz intégrée, ni de connecteurs.

Deux solutions s’offrent à nous :

Réaliser des dataviz et infographies manuellement à partir de notre lecture et synthèse des informations récoltées au cours des dernières années ;
Extraire et récupérer les données de la veille et utiliser des outils de Business Intelligence ou autres outils proposant des fonctionnalités de dataviz pour réaliser les représentations graphiques adaptées aux besoins précédemment exprimés.

C’est cette deuxième voie que nous avons choisie au regard du volume de données à analyser (plus de 4 000 informations). Nous avons donc décidé de tester plusieurs outils de BI susceptibles de nous aider dans notre démarche : PowerBI (https://powerbi.microsoft.com/fr-fr/), Tableau (https://www.tableau.com/), Zoho Analytics (https://www.zoho.com/fr/analytics/) et Google Data Looker (https://lookerstudio.google.com/u/0/navigation/reporting).

Étape 1 : réussir à récupérer le jeu de données à analyser

Rien ne peut se faire sans la récupération des données dans un format traitable et examinable par les outils de Business Intelligence. L’un des formats d’extraction les plus communément proposés par les outils est le fichier au format CSV ou Excel.

C’est donc ce que nous allons faire avec une extraction des informations collectées sur plusieurs années au format CSV, seul format d’extraction que la plateforme de diffusion nous propose.

Au cours du processus d’extraction, nous rencontrons quelques problèmes et notamment une impossibilité à extraire en une fois les 4 000 informations pertinentes. Après identification du problème (une limite dans le volume de données à extraire qui s'arrête à 1 000), nous finissons par extraire les données année par année pour ne pas dépasser la limite de 1 000 lignes par fichier.

Le terme métadonnées est très important à retenir, car ce que nous réussissons effectivement à récupérer dans ces fichiers, ce ne sont que les titres des informations, les tags, la date d’ajout sur la plateforme, la date de publication des informations, leur source, le nom du veilleur qui a ajouté l’information, etc. Le texte intégral ou dans notre cas, le résumé et récapitulatif de l’information sur le lancement de produit passent complètement à la trappe.

Pour n’avoir qu’un seul fichier, nous avons ensuite utilisé l’outil OpenRefine (https://openrefine.org/), très utile pour nettoyer les données et réunir en quelques clics nos quatre fichiers CSV en un seul.

Pour ne pas avoir un fichier avec toutes les données dans une seule et même colonne (données séparées entre elles par un point-virgule), nous avons ensuite classiquement converti les données directement dans Excel avec une colonne Titre, date, tags, etc. pour que cela soit plus facilement lisible.

Étape 2 : Un temps de réflexion s’impose

On pourrait croire qu’une fois le dataset récupéré, c’est l’outil de dataviz qui s’occupe du reste. Or il n’en est rien. Nous avons fait le test, en injectant notre fichier Excel directement dans les quatre outils de BI que nous avons sélectionnés.

Sans surprise, le résultat est désastreux. Aucun des outils ne nous permet de tirer quoi de que soit de nos données. Le problème ne vient pas des outils, mais bien de nos données qui ne sont pas structurées de manière à faire ressortir quoi que ce soit d’intéressant.

Il va donc falloir replonger dans le fichier de données, nettoyer et formater les données afin de les rendre intelligibles par l’outil de BI ou même n’importe quel outil de dataviz.

C’est là qu’un temps de réflexion sur les données elles-mêmes et ce qu’on souhaite en faire s’impose absolument.

Nous replongeons tout d’abord dans ce que nous souhaitons faire :

Visualiser les pays qui comptent le plus de lancements de produits probiotiques année après année pour voir s’il y a une évolution du marché et des tendances.
Visualiser acteur par acteur l’évolution de leurs lancements de produits à travers le monde pour déterminer les marchés sur lesquels ils se positionnent.

Nous allons tout d’abord nous poser la question de la datavisualisation appropriée. Dans notre cas, il y a plusieurs éléments à mettre en évidence :

La notion géographique qui pourrait être aisément représentée à travers des cartes;
La notion d’évolution dans le temps qui peut être représentée avec un graphique.

Quand nous replongeons dans notre fichier, on se rend vite compte que même si toutes les données utiles pour réaliser nos dataviz sont bien présentes, la façon dont elles sont organisées et structurées ne peut en aucun cas nous permettre d’obtenir le résultat escompté. Car ce qui est le plus utile dans ce fichier, ce sont finalement les tags c’est-à-dire la catégorisation manuelle de l’information par un veilleur et tout particulièrement les tags acteurs et les tags pays. C’est en croisant les données acteurs et pays que nous allons pouvoir découvrir où les concurrents ont lancé leurs produits au cours des dernières années. Or tous les tags se retrouvent mêlés les uns et autres dans une seule et même colonne (ce qui n’est pas de notre fait, mais lié à l’export proposé par la plateforme de diffusion - Cf. Figure 1. Données extraites depuis la plateforme de diffusion). Cet agencement est donc parfaitement inintelligible pour un outil qui fonctionne avec des tableurs et a pour habitude de comparer des lignes et des colonnes.

Figure 1. Données extraites depuis la plateforme de diffusion

L’autre élément intéressant pour nos dataviz, ce sont les dates, mais finalement tous les autres éléments présents dans le fichier n’ont pas vraiment d’importance. Et encore une fois, le format date utilisé dans notre fichier n’était pas intelligible pour d’autres outils (on avait le format suivant : 2019-01-03T10:10:33.449116Z). Il faut donc transformer toutes les dates pour qu’elles puissent être prises en compte correctement.

Par ailleurs, il est nécessaire de dispatcher les différentes données pertinentes dans les bonnes colonnes pour les rendre intelligibles et enfin supprimer tout ce qui ne sert à rien.

Étape 3 : Travailler, nettoyer, formater les données pour les rendre intelligibles par un outil de BI

S’ensuit alors un long travail de nettoyage et de structuration des données à coups de « Rechercher/Remplacer » dans Excel (Cf. figure 2. Reformatage des données) pour obtenir un fichier avec pour chaque actualité/information les caractéristiques suivantes :

Titre de l’actualité
Date
Acteur
Pays

Figure 2. Reformatage des données

Même si la fonction « Rechercher/remplacer » nous a permis d’effectuer des changements multiples en une seule commande, cette étape nous a tout de même pris beaucoup de temps. Certaines informations étaient taguées avec plusieurs noms d’acteurs et plusieurs noms de pays, ce qui a compliqué notre tâche. Nous avons également été obligés de faire quelques changements manuellement faute de trouver une commande/fonctionnalité adaptée, ce qui a donc encore rallongé le temps consacré à la mise en page du fichier.

Il existe très probablement des programmes informatiques ou des scripts susceptibles d’automatiser certaines de ces tâches, mais nous n’avions pas les compétences requises pour les mettre en œuvre.

Étape 4 - Intégrer les données dans les outils de BI et créer des dataviz

Une fois les données préparées, nous les avons intégrées dans les outils de BI sélectionnés :

PowerBI parce qu’il est souvent intégré directement dans les abonnements Microsoft souscrits par les entreprises ;
Google Data Looker parce qu’il est gratuit et performant ;
Tableau parce qu’il est considéré comme l’un des meilleurs outils de BI par Gartner ;
Et Zoho Analytics, acteur un peu plus de niche qui a un argumentaire commercial autour de la veille.

Globalement, les quatre outils nous ont permis d’arriver au résultat escompté et de réaliser des dataviz efficaces et visuellement parlantes. On trouvera quelques exemples de dataviz réalisées dans les figures 3 et 4. Nous n’allons pas réaliser ici un benchmark des différents outils, car tous sont performants, à condition d’avoir de bonnes données bien structurées à injecter.

Le choix d’un outil de BI va surtout dépendre d’autres critères que celui de la performance comme la présence existante d’un outil de BI au sein de son organisation, le budget qu’on est en mesure d’allouer ou tout simplement la facilité de prise en main (qui reste très subjective), la réactivité du service client et de l’assistance, la capacité à pouvoir communiquer avec les équipes dans sa langue maternelle, etc.

Ce qui ressort du test de ces quatre outils, c’est qu’il faut y allouer un temps certain, car les possibilités offertes et les formats de restitution de l’information sont extrêmement nombreux.

Par rapport à notre sujet et à nos données, nous avons eu une préférence pour Tableau qui nous a semblé plus intuitif que les autres, offrait un outil de nettoyage/formatage intégré et permettait des analyses plus poussées afin de mieux mettre en valeur nos différentes données et le croisement de différents critères.

Figure 3. Principaux pays où ont été lancés des probiotiques entre 2018 et 2021 (avec Google Data Looker)

Figure 4. Comparaison année par année des principaux pays où ont été lancés des produits probiotiques entre 2018 et 2021 (avec Tableau)

Conclusion : l’apport des outils de BI pour la dataviz dans ses livrables

Quand on veut intégrer de la dataviz à ses livrables, les outils de BI peuvent indéniablement s’avérer intéressants. Mais ils ne vont avoir un intérêt que pour les gros volumes de données et à condition d’avoir des données bien structurées à injecter dans les outils.

Le choix d’un outil par rapport à un autre dépendra de multiples critères qui varieront d’une organisation à une autre. On ne pourra que conseiller de les tester avec ses propres données pour se faire sa propre opinion et voir comment ils répondent précisément à ses besoins. Ils proposent d’ailleurs tous des essais gratuits variant de 7 à 30 jours. Pour se repérer dans la très longue liste d’outils se revendiquant « outils de business intelligence », on conseillera de regarder le site de Gartner qui publie chaque année une étude comparative des outils d’Analytics et de BI (https://www.gartner.com/reviews/market/analytics-business-intelligence-platforms).

Globalement pour le veilleur, l’idéal en matière de dataviz est d’avoir accès à une plateforme de veille qui propose nativement des fonctionnalités de dataviz ou des connecteurs avec des outils de dataviz ou de BI à condition que les fonctionnalités de dataviz soient suffisamment poussées et personnalisables. L’intégration directe dans la plateforme de veille permet de limiter le temps de formatage des données et de mieux naviguer parmi les données, notamment dans le cas de dataviz dynamiques, c’est-à-dire qui permettent de cliquer sur n’importe quel élément et de voir en un clic les informations et les documents associés. La complémentarité humain/machine y est mieux prise en compte que dans des outils de dataviz externes.

Et quand on débute en matière de dataviz appliquée à la veille et aux livrables ou qu’on ne dispose d’aucun budget, on peut se demander si les fonctionnalités de dataviz intégrées aux tableurs comme Excel ne sont pas suffisantes au départ, le temps de monter en compétences et de se perfectionner. Car les données que l’on récupère sont très souvent au format CSV ou XLS et les représentations graphiques proposées par les tableurs sont loin d’être ridicules.