Créer ses propres moteurs Google CSE
La première option pour créer un moteur thématique consiste simplement à passer par Google CSE.
Une fois que l’on dispose d’un sourcing, il suffit de se rendre sur l’interface de Google CSE et de choisir l’option « nouveau moteur de recherche ».
Après lui avoir donné un nom, il convient de rentrer les urls des sites, de choisir la langue du moteur et le tour est joué.
Google indique qu’il existe une limite de 5 000 urls.
On peut ajouter des pages individuelles, des sites complets, des parties de sites ou domaines entiers. La méthode est alors la suivante :
- Pages individuelles :
www.example.com/page.html
- Site complet :
www.monsite.com/*
- Parties de site :
www.example.com/docs/*
ouwww.example.com/docs/
- Domaine entier :
*.example.com
Dans un second temps, on peut choisir un descriptif et associer des mots-clés au moteur.
On peut activer ou non la recherche d’images, choisir une zone géographique (toutes les zones ou un pays en particulier auquel cas les résultats seront personnalisés selon la région choisie).
On y trouve aussi une fonctionnalité très intéressante : il est possible de libeller les sites Web et d’utiliser cette classification pour filtrer les résultats.
Par exemple, sur notre moteur BTP, nous avons libellé les sites de presse avec le tag « presse », les sites d’entreprise du BTP avec le tag « entreprise » et les sites d’associations professionnelles du BTP avec le tag « association ». De fait, notre moteur CSE nous permet de lancer une recherche sur tous les sites, mais nous propose également 3 onglets pour ne visualiser que les contenus « Presse », « Entreprise » ou « Association ».)
Google CSE permet également d’activer la recherche sur tout le Web. Dans ce cas la recherche ne porte plus uniquement sur les URLs choisies, mais sur tout l’index de Google, ce qui a un intérêt limité. Seul avantage, interroger tout le Web et classer les résultats par date, ce que le moteur Web de Google ne permet pas.
Enfin dernière fonctionnalité ajoutée au mois de juillet dernier et très intéressante : la possibilité de filtrer les résultats à l’aide d’entités du Knowledge Graph (5 maximum)
Pour rappel : « Le Knowledge Graph est une base de connaissance utilisée par Google pour compiler les résultats de son moteur de recherche avec des informations sémantiques issues par ailleurs de sources diverses. L’affichage du Knowledge Graph est ajouté au moteur de recherche de Google en 2012 aux États-Unis après avoir été annoncé le 16 mai 2012. Selon Google, ces informations sont issues de différentes sources, telles que le World Factbook de la CIA (CIA World Factbook), Wikidata, ou encore Wikipédia. » Wikipédia
L’intérêt est ici de pouvoir bénéficier de la recherche sémantique de Google. Cela n’a pas nécessairement grand intérêt pour des sites et sources déjà très spécialisées, mais cela peut s’avérer très intéressant si l’on recherche sur l’intégralité du Web ou encore sur des sources très généralistes.
Par exemple, nous avons créé un moteur CSE qui porte sur tout l’index Google et nous avons ajouté les entités du Knowledge Graph « Bouygues Construction », « Construction », « déchets du BTP », « travaux publics » et « Eiffage » (il est cependant dommage qu’on soit limité à 5 entités). Nous avons ensuite entré la requête Bouygues
dans notre moteur CSE et tous les résultats concernent bien Bouygues Construction et non Bouygues Télécom. En classant les résultats par date, cela permet d’avoir les dernières informations sur Bouygues Construction sans être pollué par des résultats hors sujet. Très pratique pour tous les termes ou noms propres ambigus.
On peut également personnaliser l’apparence en changeant la mise en page, les couleurs, etc.
On peut aussi mettre en avant certains résultats, activer ou non la saisie semi-automatique, définir soi-même des listes de synonymes (on peut ainsi indiquer au moteur que si l’internaute entre le terme BTP, le moteur doit également chercher automatiquement sur « bâtiments et travaux publics », etc.)
Notre avis :
Google CSE n’est pas nouveau, mais il revient sur le devant de la scène. Google, qui l’avait complètement délaissé depuis 2013, recommence, depuis courant 2018, à ajouter quelques fonctionnalités et à faire des améliorations.
L’avantage avec Google CSE, c’est qu’on bénéficie de la puissance de l’index et des fonctionnalités de Google. On peut ainsi interroger toutes les pages des sites que l’on a ajoutées à son moteur CSE à condition qu’elles soient bien indexées par Google (on ne peut évidemment pas interroger celles qui ne le sont pas !).
En revanche, en termes d’ergonomie, Google CSE a encore des progrès à faire et les quelques améliorations apportées restent encore trop timides.
En ce qui concerne l’efficacité de la recherche, ce n’est pas parfait non plus. Le classement par date n’est pas toujours exact et quelques résultats anciens peuvent se glisser dans les résultats récents. Idem pour les filtres où certains résultats d’autres filtres viennent se mélanger.
On est aussi limité à 100 résultats par requête.Mais globalement, on peut réussir à créer quelque chose de satisfaisant. Et surtout, Google n’a pas de concurrence sur le sujet. La quasi-totalité des moteurs « personnalisés » est en fait constituée de moteurs conçus pour s’intégrer à des sites Web et fonctionner comme des moteurs internes.
Le seul concurrent que nous avons pu repérer s’appelle SearchStack (https://searchstack.co/). Il permet de lancer des recherches sur Google en limitant à des corpus de sites précis comme UK News site, Top Machine Learning Ressources, No bullshit medical advices, etc.
En arrière-plan, le créateur utilise en réalité l’opérateur site: de Google et renvoie directement sur le moteur Web de Google.
Si on entre une requête Brexit dans le moteur personnalisé UK News site, l’outil se contente de lancer cette requête dans Google.
brexit site:https://www.bbc.com OR site:https://www.theguardian.com/ OR site:https://www.independent.co.uk OR site:https://www.thetimes.co.uk/ OR site:https://www.telegraph.co.uk/news/
L’idée n’est pas inintéressante, mais il est impossible de créer ses propres corpus.
Autant créer ses requêtes par soi-même sur Google avec l’opérateur
site:
On rappellera tout de même que Google limite les requêtes à 32 termes.
Créer des moteurs thématiques sur Twitter
Comme Google indexe mal les réseaux sociaux, on a également intérêt à tirer parti des réseaux sociaux eux-mêmes.
Nous nous limiterons ici à Twitter qui propose des contenus professionnels pertinents et qui dispose d’un moteur de recherche suffisamment poussé.
Facebook, LinkedIn, Instagram, etc. ne permettent absolument pas de rechercher efficacement.
Pour notre cas sur le BTP, on aura donc préalablement identifié des comptes Twitter spécialisés sur la thématique du BTP.
Il y a ensuite deux possibilités :
- s’y abonner
- ou les ajouter à une liste.
Si votre compte Twitter ne sert qu’à surveiller une thématique, l’abonnement peut suffire. En revanche, si votre compte Twitter sert à suivre plusieurs thématiques : par exemple BTP, mais aussi tout ce qui a trait à la veille, l’infodoc, etc., il est préférable de segmenter le contenu et de créer des listes.
Et quand on aura besoin de d’effectuer de lancer des recherches sur un corpus thématique dans Twitter, il suffira :
- d’utiliser l’opérateur
filter:follows croisé avec les termes de sa recherche
puis en cliquant sur l’onglet « récent » pour avoir accès à tous les tweets et avoir un classement par date ; - soit en utilisant l’opérateur
list:
Attention cet opérateur s’utilise de la manière suivante
list:@nomdutilisateur/nomdelaliste.
Il ne faut pas utiliser le numéro qui s’affiche dans l’url. Ainsi, si votre compte Twitter s’appelle IloveNetsources et votre liste s’appelle Travaux Publics, il faudra écrirelist:@IloveNetsources/Travaux-Publics
. La recherche ne portera alors que sur les contenus publiés depuis 2006 (date de lancement de Twitter) par les comptes ajoutés à la liste.
Transformer Feedly ou Inoreader en moteur thématique
Dernière possibilité : utiliser des lecteurs de RSS comme Feedly ou Inoreader non pas pour faire de la veille, mais des recherches ponctuelles.
- À partir du sourcing initial, il suffit d’ajouter les flux RSS des sites s’ils existent.
- Pour les repérer, on pourra s’aider de l’excellent tutoriel de Serge Courrier : https://rsscircus.com/comment-trouver-les-fils-rss-dun-site-web-1ere-partie-la-check-list/.
- Et s’il n’y en a pas, on pourra en créer grâce aux outils sur le marché, même si cela ne fonctionne pas toujours. On conseillera la lecture de ces deux tutoriels de Serge Courrier et Emmanuel Barthe :
- https://rsscircus.com/transformer-une-page-dactualites-en-fil-rss-un-tutoriel-complet-avec-feed43/
- https://www.precisement.org/blog/Creer-un-flux-RSS-pour-un-site-web-qui-n-en-possede-pas.html
Feedly par exemple propose un moteur de recherche qui permet d’utiliser les opérateurs booléens et les guillemets, de lancer la recherche sur les 7 derniers jours, 30 derniers jours ou sans limite de date, rechercher dans le titre ou nom d’auteur, classer par date ou popularité, limiter aux contenus avec des vidéos, images ou documents ou encore limiter par langue.
Seul problème : quand on ajoute un nouveau flux, on ne dispose pas de toute l’antériorité du flux et il est donc impossible d’effectuer des recherches sur des contenus anciens.
Feedly propose néanmoins une option « Beyond your feedly » qui permet de lancer la recherche sur des sources populaires parmi les utilisateurs de Feedly et ainsi tirer parti de l’intelligence collective.
Inoreader offre lui aussi un moteur de recherche avancé pour rechercher dans ses flux et dans les flux publics entrés par d’autres utilisateurs d’Inoreader.
SE FORMER AU DÉVELOPPEMENT WEB ?
Comme nous avons pu le voir, on peut réussir à se créer des outils de recherche de base avec Google CSE, les médias sociaux ou encore les lecteurs de flux RSS.
Mais on pourrait aller encore plus loin.
À l’image des journalistes qui se sont formés à l’exploration et la gestion de gros corpus de données, au développement Web ou encore au graphisme ou ont appris à travailler avec des experts de ces disciplines pour investir le champ du datajournalisme, on peut se demander s’il ne faudrait pas s’en inspirer dans le monde de la veille et de la recherche d’information.
Pourquoi ne pas se former au développement Web et graphisme afin de créer ses propres outils de recherche à utiliser soi-même ou à mettre à disposition de ses usagers et de ses clients ?
Lors du récent salon ILI (Internet Librarian International) à Londres, on se rappellera qu’une des intervenantes évoquait un rapport de McKinsey paru en 2018 sur les « 3 ensembles de compétences-clés pour les travailleurs de 2030 ».
Voir notre article : "ILI 2019 : une vision anglo-saxonne de l’avenir des professionnels de l’information" - BASES n°375, Novembre 2019
Et selon elle, les professionnels de l’information disposent déjà d’une partie des compétences requises, les principales lacunes se situant généralement au niveau des compétences technologiques avancées (programmation notamment).
Le moment est peut-être venu d’aller à l’assaut de ces compétences technologiques avancées !