Stratégie présentée par Europresse.com

Problématique : Il s’agit d’une veille sur l'économie immatérielle et numérique et les noms de domaine. Elle a pour objectif de faire remonter les grandes lignes d'information sur les bouleversements qui ont lieu en France dans le cadre du Grand Emprunt Numérique et aussi de suivre les débats afférents (comme Hadopi par exemple). Elle est réalisée en français.

Cette stratégie a été conçue par l’équipe de documentation du serveur Europresse.com
LES CLES :
TIT_HEAD=             Recherche dans les surtitres, titres, sous-titres et les noms de sous-rubriques et de dossier.

LEAD=                     Recherche dans l'introduction des documents.
                                 L'introduction comprend le titre, surtitre et sous-titre d'un document, le titre ou le nom d'une sous-rubrique, ainsi que le début du document, de la première ligne à la fin du deuxième paragraphe de plus de 15 mots. Cependant, si on atteint la fin du quatrième paragraphe sans avoir rencontré deux paragraphes de plus de 15 mots, l 'introduction se termine à la fin du quatrième paragraphe. TEXT=Recherche dans l'intégralité des documents, incluant les titres, surtitres, sous-titres, légendes d'infographies et auteurs.
            
LES OPERATEURS LOGIQUES :

En clair                                   En langage machine                                   
                                               
La troncature                                            *    
                             
Définition : La troncature permet de rechercher plusieurs mots commençant par la chaîne de caractères saisie. Elle est très utile pour inclure les variantes d'un mot – genre et nombre – dans  une recherche. On est limité à trois troncatures par clé, ce qui explique la présence de mots au singulier et au pluriel dans la stratégie.
Par exemple, temp* retourne les documents contenant au moins un mot commençant par temp, tels température, tempéré, tempérer, tempérament, temple, temples et même l'anglais temper si la recherche n'est pas limitée aux sources francophones.

La déclinaison                                        +  
           
Définition : L'opérateur de déclinaison lexicale permet de rechercher les mots de même famille et de même "type". Ainsi, si on entre un nom, on recherchera tant le masculin que le féminin, le singulier que le pluriel de ce nom ; avec un verbe, on cherchera les différentes conjugaisons. Le mot saisi doit être entier ; les déclinaisons ne fonctionnent pas avec les racines. Cet opérateur est original ; c’est une spécificité d’Europresse.

Les parenthèses                                   ( )    
                 
Définition : Les parenthèses permettent d'isoler ou de grouper certaines parties d'une équation de parenthèses recherche, pour imposer un ordre de traitement des opérateurs.

La fréquence                                        >n     
           
Définition : L'opérateur de fréquence extrait les documents dans lesquels le ou les mots apparaissent plus de n fois.
Par exemple, "téléphone portable" >3 retourne tous les documents qui contiennent l'expression "téléphone portable" plus de 3 fois.

Les guillemets                                     " "    
                
Définition : Ils permettent de regrouper plusieurs mots afin de les traiter comme une expression exacte. Les termes entre guillemets sont interprétés comme étant joints par l'opérateur d'adjacence stricte.

L'adjacence                                         $n     
                   
Définition : L'opérateur d'adjacence permet d'extraire les documents qui contiennent les mots ou expressions spécifiés dans l'ordre et à une distance d'au plus n mots l'un de l'autre, n étant un chiffre. La différence avec l'opérateur de proximité est qu'ici, l'ordre des mots est  important.
Par exemple, opérateur $10 "téléphonie mobile" retourne tous les documents qui contiennent le mot opérateur suivi de l'expression "téléphonie mobile" séparés par un maximum de dix mots.

La proximité                                        %n     
                             
Définition : L'opérateur de proximité permet d'extraire les documents qui contiennent les mots ou expressions spécifiés sans tenir compte de l'ordre et à une distance d'au plus n mots l'un de l'autre. La différence avec l'opérateur d'adjacence est qu'ici, l'ordre des mots n'a aucune importance.
Par exemple, opérateur %15 "téléphonie mobile" retourne tous les documents qui contiennent le mot opérateur précédé ou suivi de l'expression "téléphonie mobile" et séparés par 15 mots ou moins.

ET                                                           &     
                     
Définition : L'opérateur de coordination « et » permet d'extraire les documents qui contiennent tous les mots et expressions spécifiés, peu importe leur position dans le texte.
Par exemple, réseaux et wifi retourne tous les documents qui contiennent le mot réseaux et le mot wifi.

SANS                                                        !   
                  
Définition : L'opérateur d'exclusion permet d'exclure les documents qui contiennent le mot ou l'expression spécifié.
Par exemple, "salon de l'automobile" sans Genève retourne tous les documents quicontiennent l'expression "salon de l'automobile" mais pas le mot Genève.

OU                                                            |     
                  
Définition : L'opérateur d'union « ou » permet d'extraire les documents qui contiennent au moins un des mots ou expressions spécifiés, peu importe leur position dans le texte.
Par exemple, Bouygues ou Alcatel retournent tous les documents qui contiennent au moins un des mots Bouygues ou Alcatel.

LA REQUETE :
             
TIT_HEAD= logiciel* | software* | internet | brevet | brevets | contrefaçon | contrefaçons
            
| LEAD= (déposer+ | dépôt+) $2 (brevet | brevets) | (droit | droits) $2 (auteur | auteurs) | (copyright | immatériel)  & (législation | loi | droit | droits | problème*) | propriété $2 (industrielle | intellectuelle) | brevet* %15 (innover+ | innovation | chercheur*) | (protection | protéger+ | protections) $3 (œuvres | logiciel* | invention | inventions | données | marques) | pirat* $4 (internet | musique | film | films | dvd | chansons | chanson) | (libres | libre) $2 (droit | droits) | tomber+ $3 "domaine public" | "droits numériques" | "droit numérique" | drm | "digital rights management"
            
| LEAD= (cfc | SACEM | inpi | ompi | Office $3 brevets | OEB |  SACD) %20 (droit | texte | procès)  | (contrefaçon | contrefaçons)>2 | (changer+ | changement | changements) $5 (nom | noms)
            
| TEXT= "accords internationaux sur la protection des droits intellectuels" | "accord international sur la protection des droits intellectuels" | ADPIC | ((accord | accords) & OMC) %20 "propriété intellectuelle" | (agence | agences) $7 ("protection des programmes" | "protections des programmes") | APP & (protection+ & programmes+) | (certificat | certificat) $5 ("complémentaire de protection" | "complémentaires de protection" | utilité) | (creative | creatives) $1 (commons | common) | (déposer+ | dépôt+) $2 (brevet | brevets) | IPSAS |  (marques | marque) $3 (dessins | dessin)  $3 (modèles | modèle) | ((Office | Offices) $5 (marque | marques)) %8 (commun* | "marché intérieur" | dessins | dessin | modèle | modèles | harmonisation+) | OHMI | ((Office | Offices) $5 (europ*)) %10 (Brevets | Brevet) | OEB %10 europ* | "Organisation Mondiale" $4 "Propriété Intellectuelle" | OMPI | "Trade-Related Aspects of intellectual Property Rights" | "Service of Harmonization for the internal market" | "European Patent Organisation" | "World Intellectual Property Organization" |"Droit des marques" | (marque | marques) $2 (commerciale | commerciales | déposée | déposées) | (Nom | Noms) $3 (domaine | domaines)
            
| TEXT= HADOPI | "Haute Autorité pour la diffusion des œuvres et la protection des droits sur Internet" | "logiciel libre"| "logiciels libres" | free $1 (software | softwares) | (logiciel* | software* | internet)>3 | (brevet | brevets) %5 (université | universités) | "Marché unique numérique" | (payer+ | paiements | payements | paiement | payement) $5  "en ligne" | "Technologies de l'Information et de la Communication" | TIC | "Technologies de l'Information et de la Communication" | NTIC | "Direction de l'information légale et administrative" | DILA | (tranferer+ | transfert | transferts) $5 (technologie | technologies) | "Organisation Mondiale de la Propriété Intellectuelle" | OMPI | INRIA | "Institut national de recherche en informatique et automatique" | INRA | "Institut national de la recherche agronomique" | CNRS |  "Centre national de la recherche scientifique" |  INAO | "Institut National des Appellations d'Origine" | INPI | " Institut national de la propriété industrielle"
             
! TEXT= "Asia Pulp and Paper" | "App Store" | Lasseube | "Organisation des Moudjahidine" | "Organisation des Moudjahidines" | mujahid | mujahidin | moudjahidin | moudjahidine | moudjahidine | moudjahidines | "dispositif lorrain d'accompagnement"
            
La logique de cette recherche consiste à prendre des termes larges dans le titre ou des termes un peu plus précis dans le «head», ou des termes précis dans le texte, en terminant par des exclusions qui visent à diminuer le bruit. 


François Libmann

Publié dans le n° 285 de Bases (Septembre 2011)


Aucun commentaire:

Enregistrer un commentaire