Factiva toujours en mouvement

Factiva a annoncé récemment une série de nouveautés, portant notamment sur les interfaces de recherche, l’élimination des doublons et la diffusion des informations, ainsi que le chargement de nouvelles sources, qui se poursuit à un rythme nettement plus élevé que celui de leur disparition.
             
Pour 2008, Factiva annonce ainsi avoir chargé plus de 650 sources, issues pour une part de publications papier et de l’autre de sites web.

TROIS INTERFACES DE RECHERCHE
             
Nous avions parlé de Factiva Search 2.0 (Bases n° 223, janvier 2006) qui était limité, lors de son lancement,  tant sur le plan de la langue que sur celui de l’antériorité.
             
Les deux plates-formes – l’interface traditionnelle et Factiva Search 2.0 – ont été réunies et trois modes de recherche sont aujourd’hui disponibles à partir de l’écran d’accueil.
             
La recherche simple contient une zone de saisie dans laquelle on entre des mots, l’opérateur implicite étant ET.
             
Si l’on veut utiliser l’opérateur OR, il faut le mettre en majuscule comme chez Google ; ce n’est évidemment pas un hasard, car si l’on essaie “ou” ou bien “or” en minuscule, ils sont pris comme des mots de recherche.
             
On peut, sur la même ligne à droite, faire varier l’antériorité, sans néanmoins pouvoir fixer librement des dates et, sur la gauche, on peut sélectionner par grandes catégories de sources.
             
On notera que lors d’une recherche dans les sites web – au moins pour les requêtes que nous avons testées –, le système cherche la chaîne de caractères ; c’est ainsi que “or” retrouve “décorative” ou “for”.
             
L’onglet Création de recherche laisse le choix entre Recherche avancée et Recherche guidée.
             
Dans cette dernière, on trouve les classiques quatre possibilités de ce type d’interface :
             
- tous ces mots ;
- au moins un de ces mots ;
- aucun de ces mots ;
- cette phrase exacte, avec les options de choix de dates et d’élimination de doublons.
           
L’originalité est que l’on peut combiner ces critères avec l’indexation de Factiva (sources, sociétés, sujets, industries, région et langue), dans les arborescences de laquelle on peut naviguer et effectuer des sélections.
             
On trouve enfin la recherche avancée, avec une zone de saisie dans laquelle on peut entrer des stratégies qui peuvent être complexes, et même très complexes (voir les exemples présentés lors des concours de stratégies de recherche, Bases n° 237-238 et n° 248-249, en accès libre pour certains sur notre site web).
             
La requête peut inclure des mots de recherche, des termes de l’indexation avec un préfixe adapté et, éventuellement, être combinée avec des termes choisis dans les arborescences des indexations. Opérateurs booléens et de proximité sont disponibles, de même qu’un opérateur “atleastn”, permettant de sélectionner les documents contenant au moins n fois un même terme.
             
Les résultats peuvent, par ailleurs, être classés en ordre antechronologique, chronologique ou par pertinence décroissante.
            
On regrettera seulement, comme nous l’avions déjà fait au moment du lancement de Factiva, que l’on ne puisse pas combiner d’étapes de recherche, contrairement à ce que permet notamment EDD. Cette fonctionnalité était pourtant offerte par Dow Jones Interactive, l’un des “parents” de Factiva.
             
Sur la gauche de ces trois interfaces, on retrouve la fenêtre de découverte issue de Factiva 2.0, qui analyse les termes des différentes indexations sur les cent premiers documents, classés par pertinence : sociétés, industries, sujets, sources et dates, avec une représentation graphique en forme d’histogramme.
            
On trouve aussi des mots-clés qui sont les termes ou expressions (souvent deux mots) et des “groupes de nouvelles”, traduction pas très heureuse de “news cluster” qui donnent, classées par fréquence décroissante d’occurrence, les associations de termes les plus significatives trouvées dans ces documents.
             
Les “mots-clés” et les “groupes de nouvelles” sont extraits par des technologies de text mining, dont Factiva ne souhaite pas donner le nom du fournisseur.
             
On peut cliquer sur un terme d’indexation, un mot-clé ou un groupe de nouvelles, pour limiter les résultats à ceux qui les incluent. En revanche, on ne peut les exclure, pour supprimer par exemple de nombreux appels d’offres issus de Fedbizzops, qui parasitent les résultats. La seule solution est alors de reformuler sa requête ou d’utiliser l’indexation.
            
MEILLEURE DISPONIBILITE DU DEDOUBLONNAGE
             
Si le dédoublonnage existe depuis longtemps sur des serveurs comme Dialog ou STN, c’est parce qu’ils offrent fréquemment plusieurs banques de données dans un même domaine, produites par des organismes différents.
             
Ces banques de données référencent souvent – pas en totalité heureusement – les mêmes articles. Cela est particulièrement vrai en médecine. Les algorithmes utilisés sont relativement simples puisque, sauf erreur, ils ne vont pas chercher dans les résumés, mais ils ont une assez bonne efficacité.
            
Ce besoin de dédoublonnage n’est apparu que plus récemment pour le contenu des agrégateurs de presse.
             
A cela plusieurs raisons : tout d’abord, le nombre de sources va croissant mais aussi, de plus en plus de publications reprennent les mêmes dépêches.
             
Par ailleurs, certains éditeurs publient de nombreux titres avec une diffusion modeste, et reprennent quelquefois un même article dans plusieurs publications.                                L’éditeur y apporte parfois de légères modifications, ce qui pose un problème pour l’élimination des doublons.
             
C’est pourquoi Factiva – qui est, à notre connaissance, le premier agrégateur de presse à proposer cette fonctionnalité – a défini deux niveaux de dédoublonnage.
            
Le premier n’élimine que les documents presque identiques, c’est-à-dire dont les textes sont identiques à 95 %. Le deuxième, plus complexe, met en œuvre un algorithme linguistique appelé Latent Semantic Analysis (LSA) et considère comme doublons des articles aux contenus semblables, sans être identiques à 95 % comme dans le cas précédent.
             
Initialement disponible seulement en anglais, cette fonctionnalité est maintenant proposée en français, allemand, espagnol et russe.
             
Elle s’applique uniquement aux publications et aux Webnews depuis le 26 juin 2008 pour l’anglais et le 17 décembre 2008 pour les autres langues. Elle ne s’applique ni aux photos ni aux contenus multimédia, ce qui est assez logique.
             
L’option est désactivée par défaut et l’on peut activer l’un ou l’autres des niveaux.
             
Lorsque l’option est activée, la mention du nombre de doublons apparaît le cas échéant dans la liste de résultats et un clic permet de les visualiser.
             
Cette fonctionnalité peut être  activée dans les alertes et, si le doublon d’un article se présente moins de 24 heures après lui, il est éliminé, ce qui est intéressant.
             
Par ailleurs, Factiva a amélioré les options de diffusion, en élargissant les possibilités d’envois des newsletters. Il est aussi possible de créer des podcasts.
            
Enfin, l’ancienne fonctionnalité de “malette” a été rebaptisée “espace de travail”, avec plus d’options d’envoi et de partage, dont les widgets, les podcasts et les flux RSS.
             
Signalons aussi, bien que cela ne soit pas dans les nouveautés du jour, l’intérêt de l’utilisation dans la rubrique “sujet” de l’indexation, du “choix de la rédaction”, soit en général, soit dans un domaine particulier comme “compagnies aériennes” ou “Internet et services en ligne”.
            
Cette sélection, faite par des journalistes en fonction de l’intérêt ou de l’originalité de l’information, est une excellente façon de traiter, au moins en première approche, un sujet général.
             
Cette possibilité, que Factiva est seul à offrir, est une bonne illustration de la “génétique” de Factiva, créée par deux agences de presse internationales, Dow Jones et Reuters (la première ayant racheté ses parts de Factiva à la seconde), à qui l’on n’apprendra évidemment pas ce que signifie “intérêt journalistique.”



François Libmann
Publié dans le n° 258 de Bases (Mars 2009)

Aucun commentaire:

Enregistrer un commentaire