Sourcing : un indispensable travail en amont
Si à une époque pas si lointaine, il était possible de se limiter à quelques abonnements à des bases de données sur lesquelles on créait des alertes et à un sourcing sur Google réalisé en entrant une longue requête booléenne, force est de constater que cela ne fonctionne plus aujourd’hui.
Le sourcing requiert une habile combinaison de méthodes, d’outils, une bonne connaissance des sources, une touche de créativité et bien évidemment du temps.
Surtout, avant même de se lancer dans la recherche de sources, il convient d’effectuer un important travail en amont.
1. Bien définir le périmètre
Il faut impérativement comprendre les enjeux de la veille sur le secteur qui nous intéresse, les angles pertinents avant de se lancer dans la recherche des sources. Certes, il peut y avoir des sources incontournables et récurrentes quel que soit le client et le destinataire de la veille, mais il ne peut y avoir de corpus 100 % prêt à l’emploi.
- Si on réalise la veille pour soi-même, il faut bien réfléchir en amont à ce que l’on cherche à obtenir et à faire de cette veille.
- Si on réalise cette veille pour le compte d’autres personnes sans être expert du sujet, on commencera par faire des recherches et lire des documents pour mieux appréhender le sujet et le marché en question. On échangera ensuite avec les futurs destinataires de la veille pour bien comprendre leurs attentes, les thèmes qui les intéressent. On n’hésitera pas d’ailleurs à leur demander des éléments de vocabulaire et la liste des sources qu’ils utilisent eux-mêmes ou du moins les sources qu’ils considèrent comme les plus connues ou importantes.
Dans le cas de notre sourcing sur le secteur minier, il faudra donc réfléchir en amont aux angles pertinents :
- S’intéresse-t-on uniquement à l’aspect business, concurrentiel ou bien également à des aspects plus techniques et scientifiques et innovations ?
- Quels aspects du secteur minier : exploration et extraction, transformation des minéraux, etc. ?
- Quels pays nous intéressent particulièrement ?
- Quelles langues suis-je capable de comprendre et traiter ?
- Y a-t-il des acteurs ou des minéraux sur lesquels je dois porter plus d’attention ?
Et si possible, il est toujours intéressant d’essayer d’obtenir une sélection de documents et informations jugées pertinentes par les futurs destinataires de la veille. Ces éléments pourront être une bonne base pour établir une liste de mots-clés, repérer des sources pertinentes et rechercher des documents similaires à ceux fournis.
2. Lister les mots-clés
À partir de cet état des lieux initial, il convient ensuite de dresser le champ lexical du secteur concerné qui servira à lancer des recherches et ainsi à identifier des sources pertinentes.
Il faudra bien penser à traduire les termes dans différentes langues selon les zones géographiques concernées. Mais attention, il ne s’agit pas de traduire le champ lexical de façon abrupte avec la simple utilisation d’un dictionnaire. Il s’agit de bien comprendre comment un concept est utilisé dans d’autres pays et quels sont les termes et expressions les plus utilisés dans le contexte qui nous intéresse.
Parmi les termes à considérer, on pensera bien :
- À ceux du domaine et du sujet (pour notre exemple, il pourra s’agir de mines, minier, mining, industrie extractive, nickel, or, etc.) ;
- Aux noms des acteurs du secteur : Vale, Rio Tinto, Norilsk Nickel, etc. ;
- Aux noms de dirigeants, personnalités politiques de premier plan ;
- Aux noms d’événements significatifs récents : rachat d’un acteur du secteur, scandale, nom de conférence ou salon du domaine, etc.
On pensera à avoir aussi bien des termes grand public (la presse grand public parlera ainsi surtout de « secteur minier » au sens large sans vraiment rentrer dans les détails) que des termes très techniques et spécialisés qui seront plus adaptés pour les sources techniques, scientifiques et professionnelles.
3. Lister les types de sources
Il est ensuite important de lister les types de sources dans lesquelles pourraient se trouver les informations que l’on recherche. Nous avons réalisé une typologie des sources à bien avoir en tête, quelle que soit la thématique du sourcing.
On pourra s’y reporter lors de l’identification des sources (voir figure 1).
Pour notre exemple sur le secteur minier qui mêle à la fois un aspect business / concurrentiel, mais aussi scientifique / innovation, les sources possibles sont nombreuses :
- Presse nationale, locale, spécialisée et professionnelle pour suivre les dernières actualités du domaine, avoir une vision stratégique du marché, mais également des innovations ;
- Les sites des acteurs du domaine pour suivre leurs publications et communiqués ;
- Les associations professionnelles qui peuvent publier des études, données chiffrées et actualités de leurs membres ;
- Des associations et ONG pour l’aspect sociétal / protection de la nature et la détection potentielle de scandales ;
- Des sites d’études de marché qui peuvent traiter spécifiquement du secteur minier ;
- Des organisations internationales pour leurs données chiffrées et d’éventuels rapports ;
Figure 1 : Checklist du sourcing
- Des sites universitaires pour repérer des laboratoires qui travaillent spécifiquement sur des sujets liés au secteur minier, des experts et des thèses sur le sujet ;
- Les réseaux sociaux pour suivre l’actualité des acteurs et éventuellement obtenir quelques informations de niche non disponibles dans la presse ;
- Les publications scientifiques pour l’aspect scientifique et technique ;
- Les brevets pour suivre la stratégie technologique des concurrents ;
- Les bases de données, financières pour suivre l’aspect financier des concurrents, juridiques pour suivre l’évolution de la législation, d’éventuels procès et actions en justice, etc. ;
- Des blogs / forums pour éventuellement détecter des analyses d’expert, des critiques de citoyens, etc. ;
- Des sites d’évaluations (comme Glassdoor par exemple) où les salariés peuvent s’exprimer et noter l’entreprise pour laquelle ils travaillent ;
- Des plateformes multimédias pour l’aspect actualité, mais aussi scandales et parfois commercial, scientifique ou technique.
4. Lister les types d’outils de recherche
Il faut ensuite réfléchir aux outils de recherche à sa disposition pour rechercher et identifier des sources pertinentes.
Nous avons ici réalisé une cartographie des principaux types d’outils de recherche et de veille gratuits et payants qui pourront être utilisés pour identifier des sources (voir figure 2.)
Figure 2 Les outils du sourcing
Finalement, c’est en croisant habilement ces trois dimensions (le champ lexical, les types de sources et les différents outils) que l’on arrive à obtenir le sourcing le plus précis et fiable possible.
Adapter son sourcing à chaque type d’outil
Google, incontournable pour le sourcing
Google est un outil incontournable pour le sourcing, quel que soit le sujet.
Mais il ne suffit pas d’y lancer une seule recherche pour identifier toutes les sources pertinentes.
C’est un processus qui prend du temps et qui nécessite de travailler en entonnoir et de lancer de multiples requêtes.
Pour le comprendre, il suffit de se pencher sur l’index de Google et son fonctionnement. Google possède très probablement l’index le plus large du web même s’il ne communique plus sur sa taille depuis des années. Mais il a beau détenir l’index le plus large, il n’affiche qu’un nombre restreint de résultats à chaque requête (200/300 maximum) pour des raisons d’économies de serveurs, mais également, car la majorité des internautes cherchent juste une réponse rapide à une question simple et ne vont jamais au-delà des 20 premiers résultats.
Ainsi, une requête avec des termes liés au secteur minier ne ramènera pas plus que 300 résultats même s’il y a bien évidemment bien plus de pages sur le web qui citent ces différents mots-clés. Mais Google effectue une sélection.
Il faut avoir conscience qu’il est impossible de repérer toutes les pages web traitant du secteur minier uniquement en interrogeant Google, mais qu’il est possible de « ratisser » plus large et d’avoir une plus grande représentativité en multipliant des requêtes complémentaires.
On rappellera qu’il est déconseillé de lancer de longues requêtes avec des synonymes séparés par un OR et qu’il vaut mieux éviter de mélanger plusieurs langues dans une même requête.
À partir de là, on pourra :
- Entrer des requêtes combinant des éléments du champ lexical déterminé lors de la phase préliminaire (par exemple :
mining industry
,secteur minier
,mining market
, etc.) ; - Relancer des recherches en tirant parti des termes suggérés par Google dans la rubrique « recherches associées » ;
- Rechercher des événements précis du domaine pour voir qui en a parlé. Par exemple : l’annonce récente sur le fait que les sociétés de forages étrangères sont désormais autorisées à s’implanter en Éthiopie, le trader indien Trade World Exim qui se lance dans la bauxite, etc.
- Une fois que l’on a identifié plusieurs sources très pertinentes, rechercher sur plusieurs de ces sources : par exemple
" africa mining intelligence " " mining journal " " engineering and mining journal "
. On a alors toutes les chances de tomber sur des pages qui listent les sources de références du domaine ; - Rechercher des pages de liens en croisant des termes liés au domaine avec des termes comme
links, liens, ressources, blogroll, top sources, best ressources, list
recherchés dans le titre des pages avec l’opérateurintitle:
ou dans l’url avec l’opérateurinurl:
ou même n’importe où dans le texte de la page ; - Rechercher par type de sources déjà listées croisées avec des termes du domaine :
publication mining, association mining africa, database mining
, etc ; - Explorer les différentes verticales de Google avec des stratégies similaires : Google Actualités, Google Books, Google Images, Google Scholar, Google Dataset Search.
On pourra également affiner ces différentes stratégies avec des opérateurs de recherche avancés :
filetype:
pour rechercher sur des types de fichier pdf, xls, doc, etc. ;intitle:
pour rechercher dans les titres des pages ;inurl:
pour rechercher dans les noms d’urls ;" "
pour rechercher des expressions exactes ;site:
pour rechercher sur des sites précis.
Quand on identifie des sources très intéressantes, soit parce qu’elles traitent abondamment du sujet qui nous intéresse, soit parce qu’elles publient des informations que l’on ne retrouve pas ailleurs, on conseillera de naviguer sur ces sites pour repérer d’éventuelles pages de liens, des recommandations de sites ou d’articles, une liste de partenaires, etc.
À titre d’exemple, les sites de conférences spécialisées peuvent être de véritables mines d’or, car ils permettent de repérer des titres de presse partenaires, des entreprises et startups innovantes, des experts et autres organismes.
On pourra ensuite compléter sur d’autres moteurs avec des stratégies similaires (Bing, Qwant, DuckDuckGo, etc.). Bing par exemple affiche beaucoup plus de résultats pour chaque requête, ce qui peut être vraiment intéressant dans un contexte de sourcing.
La richesse des moteurs thématiques ou spécialisés
On peut également repérer des sources pertinentes en interrogeant des moteurs thématiques ou spécialisés.
Il y a d’un côté les moteurs thématiques et donc qui se focalisent uniquement sur un secteur d’activité, un sujet précis.
Ces outils pourront être repérés :
- En passant par Google (
moteur, search engine
croisé avec des termes faisant référence au sujet ou au domaine) ; - En consultant les grandes associations et organisations professionnelles ou salons/conférences ou presse spécialisée qui peuvent en parler ;
- Ou en recherchant sur des comptes Twitter qualifiés.
Dans le cas de notre exemple, il n’y a malheureusement pas d’outil de recherche gratuit vraiment spécialisé sur le sujet.
Leurs fonctionnalités de recherche étant généralement très simplistes, on se contentera de requêtes simples tantôt avec des termes « grand public », tantôt avec des termes techniques et spécialisés.
De l’autre côté, il y a les moteurs spécialisés sur un type d’information : les statistiques par exemple, les contenus multimédia, etc.
Sur notre sujet, quelques moteurs spécialisés s’avèrent intéressants.
Tout d’abord le moteur Millionshort (https://millionshort.com) qui se spécialise sur un créneau particulier : les sites les moins bien référencés. L’internaute effectue ici sa recherche puis peut choisir d’exclure les top 100, 1000, 10k, 100K ou 1 million des sites les plus populaires.
Sur une requête sur mining industry
par exemple, cela permet d’exclure des sites comme Bloomberg, Business Wire, Deloitte, Forbes, energy.gov, Facebook, Wikipedia, etc. En excluant le top 1 million des sites les mieux référencés, cela permet par exemple d’identifier le site Mining in Africa (https://www.miningafrica.net/) qui propose des actualités et des données statistiques sur le secteur minier en Afrique. Avec la même requête mining industry
sur Google, ce site n’apparaît nulle part dans les 240 résultats proposés par Google.
Les moteurs de Q & A comme Quora peuvent également être une piste à explorer, car il n’est pas rare que des internautes demandent quelles sont les sources ou outils de référence sur tel ou tel sujet et que des internautes y répondent (même si les réponses sont souvent biaisées du fait des commerciaux et consultants vantant leurs propres outils et services).
Les moteurs de backlinks, à la base plutôt pour le SEO peuvent également être utilisés pour le sourcing. À partir de quelques pages Web particulièrement pertinentes, on peut repérer les pages qui pointent vers cette même page (voir notre billet de blog «Identifier des sources grâce aux backlinkshttps://www.fla-consultants.com/fr/blog-actualites/identifier-des-sources-grace-aux-backlinks »).
On pensera également aux outils de recherche de pages et sites similaires
Voir notre billet de blog : « Comment trouver des sources et contenus similaires pour enrichir votre veille ? ».
Les moteurs visuels et d’images, et notamment de recherche inversée, permettent également de repérer des pages qui utilisent une image en particulier. On pourra par exemple utiliser la photo d’un dirigeant du secteur minier nouvellement nommé, l’image d’une innovation produit, etc. pour repérer des pages qui utilisent cette même image.
Les moteurs par géolocalisation qui permettent de visualiser les messages sur les médias sociaux publiés aux alentours d’une zone précise peuvent également être un bon moyen de repérer des comptes locaux sur les médias sociaux. Dans des zones isolées (notamment une zone d’exploration minière), ces outils pourront tout à fait avoir leur utilité.
Voir notre article : « La recherche d’information par géolocalisation » - NETSOURCES n°142, septembre/octobre 2020
La puissance des réseaux sociaux
Les réseaux sociaux et surtout Twitter sont une véritable mine d’or pour le sourcing, et ce, quel que soit le secteur d’activité.
Mais mieux vaut éviter de mettre tout Twitter sous surveillance au risque d’être complètement noyé. Il est préférable de repérer des comptes pertinents et de les suivre en intégralité ou bien les filtrer par mots-clés.
Pour repérer ces comptes, il existe plusieurs méthodes :
- Rechercher des comptes Twitter depuis l’interface de Twitter en limitant à l’onglet « Comptes ». La recherche ne porte alors que sur le bref descriptif mis à disposition par l’utilisateur. Pour notre exemple, on pourra entrer des mots-clés liés au secteur minier, nom des acteurs clés, etc. ;
- Lancer des requêtes avec des mots-clés caractéristiques du secteur pour repérer des tweets pertinents et par là même des comptes intéressants ;
- Rechercher des événements précis du secteur (rachat d’une entreprise, scandale, nom d’une innovation, etc.) et voir qui en a parlé et analyser ces comptes pour évaluer leur pertinence sur la thématique ;
- Une fois que l’on a repéré quelques comptes très pertinents, on pourra aller explorer leurs abonnements pour repérer d’autres comptes pertinents.
Lorsque la liste des abonnements d’un compte est très longue (plusieurs centaines ou millier des comptes) et qu’il est impossible de les passer en revue humainement, on conseillera l’utilisation de l’outil Followerwonk (https://followerwonk.com) qui permet de comparer les abonnements communs à plusieurs comptes. Il suffit de choisir et d’indiquer 2 ou 3 comptes très pertinents ; l’outil compare alors leurs abonnements et signale ceux qui sont communs à deux d’entre eux ou aux trois. Ces comptes ont des chances d’être les plus pertinents.
L’utilité des métamoteurs
Même s’il y en a de moins en moins, on pourra compléter son sourcing avec les métamoteurs (comme Carrot search, https://search.carrot2.org/#/web, par exemple) qui interroge simultanément plusieurs moteurs. Cela permettra de faire ressortir les résultats les plus populaires et les mieux indexés dans les différents moteurs de recherche.
La richesse des Libguides
La majorité des annuaires généralistes et spécialisés ont aujourd’hui disparu, mais on trouve encore quelques annuaires de sources clés sur les sites d’associations et organisations professionnelles, quelques annuaires de presse et surtout des guides de sources thématiques (appelés libguides) réalisés par les bibliothèques notamment universitaires.
Après avoir identifié ces types de ressources via un moteur de recherche, il s’agira ici surtout de naviguer dans le contenu pour repérer des sources, liens hypertextes plutôt que de lancer de réelles recherches.
Une recherche sur Google avec la requête
libguide mining
permet ainsi de repérer les libguides réalisés par la bibliothèque de la Colorado school of Mines ou encore des libguides sur la thématique Mining and Minerals Engineering dans différentes universités anglo-saxonnes. On y repère rapidement les bases de données clés du domaine comme The online global mining and minerals library par exemple.
Outils de recommandations : un complément intéressant
Les outils de recommandations automatiques de contenus (à l’image de Flint (https://fr.flint.media) pour l’actualité ou Meta (https://www.meta.org) pour les articles scientifiques) se développent de plus en plus avec l’essor de l’IA. À partir d’un thème, de quelques mots-clés ou d’un document initial pertinent, ces outils parcourent le web à la recherche de contenus similaires pertinents.
Si ces outils sont loin d’être parfaits et que la recherche est déléguée à un algorithme, ce à quoi il faut être attentif, il peut être intéressant de les faire tourner en arrière-plan pour le sourcing. De temps à autre, et à condition d’entraîner régulièrement l’algorithme en lui indiquant ce qui est pertinent et ce qui ne l’est pas, ces outils peuvent faire découvrir quelques sources non détectées jusqu’alors par les autres méthodes.
La richesse des moteurs académiques
Si la veille dispose d’un pan scientifique, technique ou académique, on pourra tirer parti des moteurs académiques comme Lens.org, Dimensions.ai, Google Scholar ou encore 1Findr pour repérer des publications intéressantes, mais également des laboratoires et experts à suivre.
On conseillera d’entrer des requêtes avec des mots-clés liés au domaine ainsi que des requêtes sur des sujets très précis et techniques.
On pourra ensuite repérer les publications qui reviennent le plus et qui répondent le mieux (certains moteurs proposent d’ailleurs des fonctionnalités de filtres et de visualisation qui permettent de visualiser directement les sources et auteurs les plus cités). On pourra également repérer les auteurs qui publient le plus et leurs organismes de rattachement et voir si ces personnes disposent de sites personnels, comptes sur les médias sociaux et si leur laboratoire dispose d’un site Web potentiellement pertinent pour la veille.
Une fois qu’on a identifié quelques articles pertinents, il est possible dans certains cas d’explorer les réseaux de citations (articles qui le citent et articles qu’il cite), ce qui permettra de repérer d’autres publications, d’autres experts et d’autres organisations.
De l’utilité du sourcing sur les outils payants
Même si les outils de recherche payants comme les agrégateurs de presse, bases de données professionnelles, serveurs plateformes de veille, etc. disposent déjà de corpus qualifiés et sélectionnés (plus ou moins selon les outils), ce n’est pas pour autant qu’il faut s’épargner une phase de sourcing dans ces outils, et ce pour plusieurs raisons :
- Parce que ces outils intègrent toujours plus de contenus hétérogènes et que cela génère des volumes d’information de plus en plus importants difficiles à assimiler humainement. Il faut de plus en plus restreindre le corpus ;
- Parce qu’on ne peut pas rechercher et mettre en place des alertes uniques et unifiées sur des sources structurées très différemment : presse / réseaux sociaux, presse généraliste / presse pro ou publications scientifiques
Voir notre article : « Presse, réseaux sociaux, contenus multimédia, littérature scientifique, données, ... : rechercher sur des contenus très disparates » - NETSOURCES n°139, avril 2019
- Parce que la simple indication d’une source au sein d’un outil payant, ne signifie pas pour autant que l’intégralité du contenu est accessible (plateforme de veille ou agrégateur qui surveillent la partie publique d’un site par exemple, mais pas les contenus payants) ;
Pour réaliser un sourcing interne sur chaque outil de recherche payant pour lequel on dispose d’un abonnement, on pourra :
- Lancer des requêtes booléennes classiques par mots-clés sur le champ lexical du secteur ;
- Rechercher des événements précis ;
- Tirer parti de l’indexation sujet (voir les publications classées dans la catégorie Mining par exemple) ;
- Tirer parti des fonctions de dataviz pour repérer les titres qui reviennent le plus ;
- Explorer le catalogue des sources quand il est accessible et recherchable.
On pourra ainsi repérer les sources pertinentes qui ne sont en réalité que partiellement disponibles dans ces outils payants et s’y abonner pour les suivre d’une autre manière. Et surtout créer différentes alertes portant sur différents segments du corpus avec des requêtes adaptées (une requête pour la presse, une requête pour les médias sociaux, etc.) et limiter le volume dans le cas de requêtes qui génèrent beaucoup d’informations non pertinentes.
Le sourcing évolue avec le temps
Une fois que l’on a fait le tour des différents outils et des différents types de sources, il convient d’établir un corpus équilibré qui combine des sources locales, internationales, généralistes, très spécialisées, etc. Il faudra ensuite adapter cette liste de sources à l’usage en explorant des angles qui ramènent peu de résultats à la recherche de nouvelles sources, éliminer les sources qui n’apportent pas de valeur ajoutée, ajouter des nouvelles sources , etc.
La méthodologie que nous avons présentée ici est utilisable, quel que soit le sujet ou le secteur d’activité.
Mais dans un monde toujours plus globalisé, il est de plus en plus fréquent de devoir effectuer son sourcing sur des zones et pays difficiles d’accès d’un point de vue informationnel (soit en raison de la langue, la culture, les codes culturels et informationnels, l’environnement législatif, etc.). Les sources nous sont alors complètement étrangères et ce qui peut paraître évident en France ou dans d’autres pays occidentaux ne fonctionne pas du tout de la même manière dans ces pays.
Comment réussir à réaliser un bon sourcing sur ces zones informationnelles en territoires inconnus et quelles sont les spécificités à prendre en compte pour y parvenir ? C’est ce que nous avons exploré dans les autres articles de ce numéro.