Promenade comparative dans les agrégateurs de la presse française

Lors du traitement de nombreuses questions dans la presse française, il est très fréquent que nous interrogions avec la même stratégie plusieurs des quatre serveurs ayant une offre significative dans ce domaine – voire les quatre –, à savoir EDD, Cedrom SNI (Europresse), LexisNexis et Factiva.

Nous avons remarqué à de nombreuses reprises qu’en interrogeant un ou plusieurs titres donnés avec une même stratégie de recherche, on ne retrouvait pas strictement les même résultats sur les différents serveurs, y compris lorsque la requête ne comprend pas de commande spécifique à un serveur – comme le quorum d’EDD (choix de la présence d’un nombre défini de mots parmi une liste à laquelle ils appartiennent) ou le suffixe + de Cedrom SNI, pour obtenir les déclinaisons lexicales d’un mot (masculin, féminin, singulier, pluriel, conjugaisons d’un verbe) –.

Hormis ces quelques exceptions, les mêmes stratégies peuvent être utilisées sur les quatre serveurs, en combinant éventuellement des étapes dans EDD et en les saisissant en une fois dans les autres.

Précisons que nous ne prétendons pas avoir fait une étude statistique complète : nous avons simplement choisi quelques stratégies, qui mettent en évidence des points intéressants.

Notre première idée était de chercher les articles qui contenaient trois fois au moins le mot SNCF, cette stratégie s’écrivant : SNCF>= 3 ou SNCF>=3 (avec ou sans espace entre = et 3) dans EDD, SNCF>2 dans Europresse, atleast3 (SNCF) dans LexisNexis et atleast3 SNCF dans Factiva.

Les écarts dans les résultats nous ont permis de découvrir que les serveurs interprétaient différement ce type de stratégie de recherche, à savoir que certains d’entre eux cherchaient dans le texte de l’article, mais également dans son indexation :

• dans EDD, il n’existe pas d’indexation rattachée à l’article ;

• dans Factiva, l’indexation n’est pas recherchée, sauf si on le fait explicitement ou si l’on utilise un code spécifique ;

• dans LexisNexis en revanche, le système cherche non seulement dans les articles, mais également dans l’indexation créée par le serveur et aussi, dans certains cas, dans celle du producteur quand elle a été chargée ;

• quant à Europresse, alors que nous avions un doute au vu des résultats, le signe > est bien strict.

SNCF>2 cherchera donc bien des documents dans lesquels le terme SNCF se trouve au moins trois fois.?

Cependant, la recherche se fait dans le texte de l’article, mais aussi dans la rubrique «complément à ce document», dans laquelle on trouve quasi systématiquement, avec cette stratégie, le terme SNCF.

Là où c’est plus subtil, c’est que seuls les cinq premiers termes apparaissent dans les sous-rubriques  de ce complément ;  si le terme est au-delà de la cinquième position, il n’apparaît pas à l’écran mais il est quand même pris en compte.

• Nous avons fait le test dans le quotidien «Aujourd’hui en France» et, sur les 18 réponses d’Europresse, huit proviennent de documents qui contiennent le terme deux fois dans le texte et une fois dans les compléments d’information.

C’est le cas aussi dans LexisNexis, pour deux documents.

Par ailleurs, deux articles manquent dans LexisNexis.

Enfin, un des documents ne se retrouve pas dans EDD avec cette stratégie, alors qu’il est pourtant bien présent dans la base.

Quant à Factiva, l’alimentation d’Aujourd’hui en France a été arrêtée le 2 juillet 2010, et son contenu regroupé avec celui du Parisien, dont il est effectivement très proche.

Mais avec la même stratégie, le nombre de documents est quatre à cinq fois supérieur, compte tenu des éditions locales d’Ile de France du Parisien.

• Dans un deuxième temps, nous avons effectué une autre recherche sur la période du 1er décembre au 26 janvier, avec le mot armoire, qui a peu de chances de se retrouver dans l’indexation.

Nous n’avons pas rencontré de problème dans l’Express et Les Echos, dans lesquels nous avons identifié un document à chaque fois.

Quatre documents ont été repérés dans Aujourd’hui en France, sauf dans Factiva, où les résultats sont intégrés à ceux du Parisien, comme nous l’avons vu plus haut.

En revanche, la comparaison des résultats obtenus dans la Nouvelle République du Centre Ouest est intéressante.

Si l’on veut faire des comparaisons sur la même stratégie, il faut écrire dans LexisNexis singulier(armoire), car cet agrégateur cherche par défaut les singuliers et les pluriels.

Dans ce serveur, on trouve 22 documents, dont un doublon non détecté : un article paru dans des éditions différentes. Dans l’édition d’Indre et Loire cependant, un paragraphe de 57 mots ne figure pas, alors qu’il est présent dans l’édition du Loir et Cher.

De fait, le dédoublonnage était réglé sur «similarité moyenne».

Si l’on passe à «similarité élevée», il est logique de retrouver les deux articles.

Sur Factiva en revanche, le réglage du dédoublonnage avec l’option «similaire»  – qu’on pourrait penser équivalent à la «similitude moyenne» de LexisNexis – enlève un des deux documents et en toute logique, on retrouve bien les deux articles avec le dédoublonnage réglé sur «identique».

Les «presque doublons» ne sont donc pas détectés de la même manière sur LexisNexis et Factiva.

Sur Cedrom SNI et EDD, qui n’offrent pas d’option de dédoublonnage, on trouve respectivement 21 et 22 articles – dont le «presque doublon» ; l’écart est vraisemblablement dû au traitement des articles se trouvant dans plusieurs éditions d’un titre de PQR.

Pour le quotidien Le Monde, les résultats sont plus importants.

La recherche a été faite sur Le Monde et LeMonde.fr.

Sur EDD, on trouve douze documents dont trois doublons et dix sur Europresse, un des articles de cet agrégateur ne se trouvant pas sur EDD.

De la même façon, on trouve douze documents sur Factiva et LexisNexis, dont trois sont éliminés indifféremment par les deux options de dédoublonnage.

En résumé, Europresse a un document supplémentaire et EDD trois doublons.

Nous avons d’autre part fait cette recherche deux fois à quelques jours d’intervalle, et nous nous sommes demandé si Factiva et LexisNexis n’avaient pas eu, lors de notre première interrogation, des problèmes de chargement de certaines éditions du Monde, problèmes réglés quelques jours après.

• Nous avons ensuite effectué une troisième recherche dont les résultats se sont révélés également curieux.

Il s’agissait de rechercher les documents dans lesquels les mots carte ou payement – écrit avec cette orthographe peu usitée – se trouvaient à moins de trois mots de l’expression «sans contact», sur la période du 1er octobre 2011 au 3 février 2012.

Premier point : la formulation de la recherche est différente sur chacun des agrégateurs :

• sur LexisNexis, on écrira (carte de payement) pre/3 (sans contact) ;

• sur Factiva  : (carte or payement) adj3 (sans contact) ;

• sur Europresse : (carte ou payement) adj3 «sans contact» ; si l’on met des parenthèses, le système comprendra le terme sans comme un opérateur ;

• quant à EDD, le système ne supporte l’opérateur de proximité qu’entre deux mots ou expression entre guillemets ; il faudra donc écrire :

            - première étape : carte 3av «sans contact» ;

            - deuxième étape : payement 3av «sans contact»

            - puis réunion des deux étapes : 1 ou 2.

Nous avons effectué cette recherche dans Les Echos et Les Echos.fr d’une part, dans Investir.fr d’autre part.

La différence est spectaculaire. En effet, LexisNexis interprète parfois la requête et dans notre cas, alors que l’on avait saisi le terme payement, il a cherché aussi avec paiement.

Les autres agrégateurs ne le faisant pas, on trouve dans Les Echos sur LexisNexis onze réponses et une seule sur chacun des trois autres agrégateurs. De même, on trouve trois réponses dans Investir.fr sur LexisNexis et aucune dans les autres agrégateurs.

• Notre dernière stratégie a consisté à chercher le mot paiement à trois mots maximum de l’expression «sans contact», du 1er décembre 2011 au 10 février 2012, dans les publications Systèmes de paiement et Ouest France.

Nous avons obtenu 23 réponses dans Systèmes de paiement sur LexisNexis et 21 seulement dans les trois autres agrégateurs.

La différence provient du fait que LexisNexis identifie en plus les articles dans lesquels paiement est écrit au pluriel.

Dans Ouest France, avec le dédoublonnage similaire, on obtient deux documents dans LexisNexis et Factiva, le premier signalant qu’il a éliminé un doublon.

On trouve d’autre part dans EDD trois documents, dont un doublon.

La surprise vient d’Europresse, où l’on obtient quinze réponses. Renseignement pris, ce nombre est dû au terme «sans», qui est un opérateur.

En effet, pour Ouest France notamment et vraisemblablement pour certains autres titres, le terme sans est ignoré lorsqu’il est écrit au début ou à la fin d’une expression entre guillemets.

On identifie donc de nombreux documents dans lesquels une phrase se termine par paiement et la suivante commence par le mot contact, suivi en général d’une adresse ou d’un numéro de téléphone.

Nous arrêterons là nos différents tests, qui nous ont révélé de nombreuses différences entre les agrégateurs.

Rappelons que ces tests ont porté sur un nombre très limité de titres présents sur les quatre agrégateurs.

Nous n’avons pas comparé en revanche l’étendue des titres disponibles.

Il faut préciser à ce sujet qu’EDD a une couverture de la presse française très largement supérieure à celle des trois autres agrégateurs, même s’ils ont chacun quelques titres absents d’EDD.

EDD a en effet une excellente couverture de la presse régionale – notamment quotidienne, hebdomadaire et économique –, de la presse spécialisée dans de nombreux domaines et de la presse féminine et people, avec de nombreuses photos.

Pour revenir sur les comparaisons des stratégies de recherche, on pourra noter que :

• seuls LexisNexis et Factiva proposent une élimination des doublons, avec deux niveaux mais des algorithmes différents ;

• LexisNexis recherche automatiquement sur les formes voisines des termes (singulier/pluriel...), mais l’on peut désactiver cette option.

Bien qu’on ne l’ait pas fait apparaître dans les exemples choisis, on peut exiger dans cet agrégateur que l’initiale du mot ou toutes ses lettres soient en majuscules, ce qui est très pratique lorsque l’on lance, par exemple, une requête sur Total ou Orange ;

• une recherche dans laquelle figure le mot «sans» est de nature à créer des problèmes sur Europresse ;

• si EDD est le seul agrégateur à proposer une recherche par étapes, permettant ainsi de construire facilement des stratégies sophistiquées, ses opérateurs de proximité ne s’appliquent que s’il y a un seul mot ou une seule expression de part et d’autre de cet opérateur ;

• LexisNexis et Europresse proposent une indexation faisant pratiquement partie de l’article et, lorsque l’on cherche sur des occurrences multiples d’un mot, le moteur interroge aussi cette indexation.

Nous ne prétendons pas avoir été exhaustif, mais nous espérons que cette «promenade» aura permis aux lecteurs de mieux connaître les nombreuses possibilités offertes par ces quatre agrégateurs de presse française, indépendamment des questions de coût.

Par ailleurs, les différences observées entre ls agrégateurs pour une même recherche sont bien réels, mais dans une bien moindre proportion que nous ne l’imaginions au départ.



François Libmann
Publié dans le n° 288 de Bases (Décembre 2011)

Aucun commentaire:

Enregistrer un commentaire