Méthodologie de recherche : comprendre le fonctionnement des moteurs et en tenir compte

Quelle que soit le thème de leur recherche, les internautes – du moins les internautes français – ont comme réflexe de démarrer leurs investigations en interrogeant Google avec quelques mots-clés, puis d’analyser les premières pages de résultats du moteur.
             
Et il est vrai que pour un grand nombre de requêtes, cette «méthode» pour le moins basique s’avère relativement efficace et permet le plus souvent d’obtenir rapidement des informations générales sur le sujet.

            
Mais il arrive que les réponses fournies par Google ne soient pas satisfaisantes.                

C’est le cas notamment lorsque l’on cherche à identifier des entreprises – ou des associations, des fabricants, etc. –, dans un domaine particulier, situées dans un pays donné. Les mots-clés saisis font alors référence à des concepts très différents (la localisation géographique, le secteur d’activité...) et il n’est pas rare que les pages de résultats contiennent – au lieu de la liste d’entreprises espérée – des informations hétérogènes, dans lesquelles on trouve de nombreuses pages traitant, d’une part, d’une actualité du pays cité et, de l’autre, d’informations sur le secteur (dans un autre pays)...
             
Il est généralement inutile dans ce cas de poursuivre sa recherche en ajoutant ou en supprimant des termes. De telles réponses signifient que la requête n’est pas adaptée et qu’il faut explorer d’autres pistes.
             
Nous illustrerons certaines de ces pistes en tentant de répondre à la question : «Comment localiser des associations allemandes dans le domaine de l’énergie ?».
            
Une requête sur Google avec les mots associations énergie allemagne, montre très vite les limites du moteur.
             
L’analyse des premiers résultats permet certes de vérifier que Google a effectué – comme il le fait de plus en plus souvent – une recherche sur les formes voisines des termes (singulier/pluriel, etc.), mais les réponses ne sont pas pour autant pertinentes.
             
On trouve ainsi parmi les premières réponses une page de présentation d’une association allemande pour la promotion de l’énergie ... dont la dernière mise à jour date de 2007, des informations sur une conférence de 2008 du club français Biogaz, des informations et la page Facebook de l’association Energie Franco-Allemande, basée en Bourgogne, etc.
             
La page la plus intéressante arrive au-delà des dix premiers résultats : datée de mars 2010, elle concerne le marché des énergies renouvelables en Allemagne, est produite par le ministère du Développement économique du Québec, et contient des «liens utiles» parmi lequels on repère quelques associations et fédérations du domaine.
             
A cette étape, il est important de ne pas s’entêter et d’être conscient des limites d’un moteur de recherche.
             
Une requête sur un moteur est en effet lancée sur le texte intégral des pages rencontrées par son «crawler», au fil de son indexation du Web.
            
Si les résultats n’apportent pas satisfaction, un temps de réflexion s’impose ; on cherchera à «visualiser» plus précisément les données que l’on aimerait obtenir, pour essayer de définir comment demander spécifiquement au moteur de les retrouver.
            
Dans notre cas, lorsque l’on lance une requête avec les mots associations énergie allemagne, on s’attend en fait à trouver :
             
- dans l’idéal, une liste d’associations du domaine, avec leur coordonnées...                                    
L’idée est séduisante, mais les probabilités sont rares qu’une telle liste existe, qui plus est en français (le fait de saisir des mots en français restreint forcément la recherche aux pages dans cette langue) ; si une telle page existait, on peut penser qu’elle aurait été classée dans les premiers résultats ;
             
- des réponses permettant d’identifier les sites web des associations du domaine... Là encore, le problème de la langue se pose. Les sites des associations n’apparaîtront dans les résultats que s’ils disposent d’une version en français, ce qui n’est sans doute pas le cas le plus fréquent...
             
Une fois que l’on a réfléchi aux types de réponses que l’on souhaite obtenir, et que l’on a pris conscience des difficultés qu’il y a de les repérer avec un moteur, on peut tenter de contourner ces difficultés.
             
TRADUCTION DES RESULTATS, POUR INTERROGER LE WEB EN ALLEMAND
            
Eu égard au développement d’Internet, on peut supposer que de nombreuses associations et institutions allemandes disposent d’un site web, généralement en allemand – et, le cas échéant, en anglais.
             
Pour interroger les sites des associations allemandes et repérer celles qui œuvrent dans le domaine de l’énergie, il faudra donc que la requête soit en allemand.
             
Si l’on ne maîtrise pas la langue de Goethe, on pourra bien sûr traduire en allemand les mots association énergie allemagne et interroger Google avec ces mots. Mais les réponses seront alors en allemand, et difficiles à comprendre pour un non-germanophone.
             
C’est là qu’intervient l’outil «Traduction des résultats» de Google, accessible depuis le lien «Outils linguistiques», situé à droite de la zone de saisie, sur la page d’accueil du moteur (nous avons eu l’occasion d’utiliser cet outil dans l’article «Explorer les sources dans d'autres langues», Netsources n°83, http://goo.gl/XdIfq).
             
Ce lien donne accès à certains outils méconnus de Google, dont «Traduction des résultats», qui est sans doute le plus intéressant.
             
Proposé en haut de la page «Outils linguistiques» – qui permet également de traduire du texte dans les langues sources/cibles de son choix, ou encore de traduire le contenu d’une page web –, «Traduction des résultats» fonctionne en fait en deux temps :
             
- l’utilisateur saisit – dans sa langue – les mots de sa requête (ici association énergie allemagne) puis clique sur le choix «Langues spécifiques», pour choisir la langue des pages qu’il souhaite interroger  (ici allemand) ; cette sélection est importante, car elle se fait autrement automatiquement, le plus souvent sur plusieurs langues...
            
- en cliquant sur le bouton «Traduire et rechercher», on demande à Google de traduire la requête en allemand, d’interroger les pages en allemand avec les termes traduits et de retraduire les réponses en français !
            
La page de résultats affiche alors le titre et les extraits des pages pertinentes traduits en français (la «Langue du texte original» est clairement indiquée) ; on peut afficher le titre et l’extrait en allemand en cliquant sur le lien «Afficher le texte original».
             
En cliquant sur le titre en français, on ouvre la page du site traduite par Google, et l’on peut naviguer dans le site, que Google traduit au fur et à mesure... En cliquant sur le titre en allemand, on se connecte sur le site original.
            
Même si les traductions prêtent quelquefois à sourire et ne peuvent, en tout état de cause, être utilisées telles quelles, l’outil demeure fort utile pour repérer des sources sur un sujet.
           
La lecture des premiers résultats permet ainsi de localiser immédiatement de nombreuses associations, agences et fédérations allemandes œuvrant dans le domaine de l’énergie, qu’il aurait été difficile de repérer autrement.
             
Qui plus est, le quatrième résultat (Energie-Verband Deutschland) est en fait issu de MeinStadt.de, un annuaire généraliste dédié à l’Allemagne qui recense plus de deux millions de sites dans tous les domaines et les classe dans des rubriques comme Sciences et Education, Tourisme, Sports & Fitness, Informatique & Technologies...
             
La page identifiée par Google correspond à l’arborescence Associations & Organisations > Energie et propose une liste de 78 associations allemandes du domaine !
             
Pour chacune, on dispose de son nom et de sa localisation, d’un descriptif de ses missions et objectifs en quelques lignes et de l’URL de son site.
             
Le recensement prend aussi bien en compte des associations fédérales que des regroupements de citoyens, qui peuvent être centrés sur l’énergie au sens large ou sur un type d’énergie particulier (solaire, photovoltaïque, éolienne, hydraulique...).
           
Bref, cette page fait gagner un temps précieux dans l’identification des acteurs et démontre dans le même temps l’intérêt que gardent dans certains cas les annuaires généralistes !
             
Pour une question comme celle-ci, une autre piste pourrait être explorée rapidement : celle des pages de liens.
             
IDENTIFIER DES PAGES DE LIENS SUR LE SUJET
             
Les premières explorations ont montré qu’il existe en Allemagne – et, d’une façon plus générale, en Europe – de nombreuses associations et organisations diverses dans le domaine de l’énergie ; il est donc légitime de penser que des pages de liens peuvent recenser certaines d’entre elles.
            
Si l’on a pu en identifier une par hasard – la page sur le marché allemand de l’énergie renouvelable était pour une part une page de liens –, des méthodes spécifiques peuvent aider à les repérer précisément.
            
La première méthode a plusieurs fois été décrite dans ces colonnes et part du postulat que de nombreuses pages de liens contiennent le mot liens – ou links si elles sont en anglais – dans leur titre ou dans leur URL.
             
Pour les identifier, on cherchera donc, sur Google par exemple, les pages qui contiennent à la fois :
            
- le mot allemagne ;
- le mot association, fédération, institut ou organisation...
- le terme énergie ;
- et le mot liens, dans le titre ou l’URL.
             
Pour que la requête soit posée à la fois sur les pages en français et en anglais, on pourra écrire :
            
german OR germany OR allemagne association OR organisation OR federation  OR institut energy OR energie intitle:links OR intitle:liens OR inurl:links OR inurl:liens.
             
Cette requête identifie de nombreuses pages de liens plus ou moins complètes, dans le domaine de l’énergie ; certaines d’entre elles couvrent spécifiquement l’Allemagne – comme la page «Research in Germany», qui présente une vingtaine d’acteurs du domaine –, mais la plupart ont une couverture européenne ou mondiale, et se limitent par conséquent aux associations allemandes les plus représentatives.
            
Une autre tactique, peut-être plus délicate, consiste à tirer parti de l’opérateur linkdomain:, qui permet sur Yahoo! d’identifier les liens pointant vers une page donnée (autrement dit les backlinks ou liens entrants d’une page).
             
L’une des caractéristiques des pages de liens est en effet de posséder de nombreux liens pointant vers d’autres sites (des liens sortants).
            
Pour identifier spécifiquement ces pages, on peut essayer de «traduire» cette caractéristique en une syntaxe compréhensible par le moteur, grâce à l’opérateur linkdomain:.
            
On demandera donc à Yahoo! de rechercher les pages qui contiennent :
             
- les mots-clés liés au thème de la recherche (associations énergie) ;
- le mot liens n’importe où dans la page (et non seulement dans le titre ou dans l’URL) ;
- et un lien vers une ou deux associations du domaine, préalablement repérées ;
ceci dans l’espoir que de telles pages ne se contentent pas d’un lien, mais en offrent beaucoup plus...
            
Sur Yahoo!, la requête
association OR federation liens OR links energy OR energie linkdomain: solarwirtschaft.de linkdomain:dgs.de
identifie plus de 70 pages, dont la plupart semblent très pertinentes...
             
Au final, ces deux astuces employées sur un moteur de recherche ont permis de localiser rapidement des acteurs d’un domaine dans un pays étranger.
            
Mais d’autres pistes auraient pu être suivies, comme notamment :
           
- l’interrogation d’annuaires généralistes dédiés à l’Allemagne (via Search  Engine Colossus par exemple), pour repérer les sites web des associations du domaine ;





- l’identification d’annuaires et portails thématiques sur l’énergie (via LesAnnuaires.com par exemple), dédiés ou non à l’Allemagne, qui ont une probabilité  raisonnable de recenser les acteurs du domaine...
            
Ces méthodes sont forcément plus longues (il faut identifier les sources puis les interroger), mais elles peuvent donner accès à des informations difficiles à obtenir autrement...



Béatrice Foenix-Riou
Publié dans le n°91 de Netsources (Mars/Avril 2011)

Aucun commentaire:

Enregistrer un commentaire