La cueillette des cerises


Dans Chronolog, la newsletter mensuelle de Dialog, ressuscitée après différentes tentatives – abandonnées depuis – pour créer d’autres supports d’information, figure régulièrement une rubrique consacrée à la propriété intellectuelle. Elle est écrite par Ron Kaminecki, un “pattent attorney” – l’équivalent de conseil en brevet –, qui est l’un des spécialistes du sujet chez Dialog.
             
Une récente rubrique, qu’il a baptisée “Cherry picking”, nous a paru particulièrement intéressante sur le plan méthodologique. La méthode présentée pouvait en effet être appliquée au traitement d’un sujet flou ou mal défini, ou encore d’un sujet constituant une petite partie – difficile à isoler – d’un thème plus large.
             
Nous avons donc décidé de reprendre cet exemple – en le commentant – dans nos colonnes, et de voir si les autres serveurs ayant une offre en bases brevet (Questel et STN) proposaient des méthodes similaires.
             
LA DEMARCHE DE DIALOG
            
Pour illustrer sa méthodologie, Ron Kaminecki a choisi de s’intéresser aux brevets américains concernant l’emballage des lentilles de contact (contact lens cases), sachant que le mot case a plusieurs significations en anglais.
            
L’objectif de la démarche était d’identifier le code pertinent de la classification américaine des brevets.
             
Cette méthode a été présentée à des examinateurs d’offices de brevets ainsi qu’à des spécialistes de la recherche de brevets, qui l’ont trouvée intéressante.
             
Pour résumer la démarche sur Dialog, on dira qu’il s’agit d’utiliser la commande KEEP, pour optimiser l’utilisation de la commande RANK.
            
Rappelons que la commande KEEP de Dialog permet de transférer dans un ensemble (set) – qui par défaut porte le numéro 0 –, une sélection de documents d’une autre étape. C’est ainsi que la commande K3/2,4,6  copiera les documents 2, 4 et 6 du set 3, pour les mettre dans le set 0, qui contiendra ces trois documents.
             
La démarche est effectuée dans le fichier 340 Claims US Patent qui, depuis des dates variant selon les secteurs (par exemple 1950 pour la chimie, 1963 pour l’électricité et la mécanique), propose les références bibliographiques, des éléments de classification ainsi que, pour les brevets les plus récents (depuis 1971), résumés et revendications (mais pas le texte complet).
             
On trouvera ci-après ce que donne la démarche sur Dialog.
             
Set  Items  Description
            
?_S CONTACT()LENS?                                   
            806861  CONTACT                                
            138727  LENS?                            
            S1      5664  CONTACT()LENS?
             
S         est l’abréviation de Select
( )        est une adjacence stricte
?         est une troncature
            
 ?_S CASE OR STORAGE OR CONTAINER          
            206219  CASE
            497618  STORAGE
            232665  CONTAINER
            S2      874065  CASE OR STORAGE OR CONTAINER
            ?_S S1(15N)S2                                       
            5664  S1                                                     
            874065  S2                                                
            S3      559  S1(15N)S2
           
(15N) signifie que au moins un élément du set 1 se trouve à moins de 15 mots     d’un élément du set 2 dans n’importe quel sens
            
?_T3/6/1-20            
 
Edition des titres des 20 premiers documents (T est l’abréviation de Type, 6 est le format titre)            
          
3/6/1
            12401079   2010-0072082
            M/CONTACT LENS STORAGE CASE

3/6/2
            12374570   2010-0045571
            E/BEAM-SCAN DISPLAY APPARATUS, DISPLAY METHOD, AND VEHICLE
             
3/6/3
            12368619   2010-0039620
            M/CONTACT LENS AND METHODS OF MANUFACTURE AND FITTING SUCH                     LENSES AND COMPUTER  PROGRAM PRODUCT (...)
             
3/6/19
            12185118   2009-0185135
            M/Real image forming eye examination lens utilizing two reflecting surfaces providing 
            upright image
            
 3/6/20
            12179323   2009-0179340   2009-0041328
            C/Lens molds with coating; Biblio Data Only
             
?_K3/1,5,10,12,13,16,17
            S0       7  3/1,5,10,12,13,16,17
            
 On copie 7 documents pertinents dans le set 0
             
?_RANK cl s0
 
On demande au système de classer par ordre décroissant d’occurences les codes présents dans les 7 documents  
             
DIALOG RANK Results 
             
RANK: S0/1-7   Field: CL=  File(s): 340
(Rank fields found in 7 records -- 6 unique terms) Page 1 of 1
RANK No.  Items  Term
            
            1        6   206005100
            2        1   053431000
            3        1   206205000
            4        1   220345300
            5        1   422024000
            6        1   514276000
           ---end of results---
            
Enter desired option(s) or enter RANK number(s) to save terms.
           
?_ 1
            RANK numbers saved: 1
            
?_EXIT
            Temp SearchSave "TD314" stored
            Creating temporary SearchSave ... TD314
            Enter EXS to execute the SearchSave
 
A titre de comparaison on effectue la même opération d’analyse (RANK) sur l’ensemble du set 3.
            
?_RANK cl S3
            Started processing RANK
                       Processing    100 of    559 records
                       (...)                 
                       Processing    500 of    559 records
            Completed Ranking 559 records
            DIALOG RANK Results
           
             
RANK: S3/1-559   Field: CL=  File(s): 340
(Rank fields found in 559 records -- 792 unique terms) Page 1 of 99
    RANK No.  Items  Term
            
            1      240        206005100
            2      123        134901000
            3       45         D03264000
            4       41         206005000
            5       41         422300000
            6       31         422301000
            7       26         510112000
            8       25         134137000
           
Le rapport entre le nombre de documents obtenus avec les deux premiers codes est de 1 à 6 dans le premier cas et de 1 à 2 dans le second. De plus, les codes suivants ne sont pas les mêmes. C’est normal car le résultat  est, logiquement, moins pertinent. Par ailleurs, le coût du RANK dans cette base étant en fonction du nombre de réponses traitées (ce n’est pas le cas général), il est beaucoup plus économique de l’utiliser sur un petit nombre de réponses pertinentes.
           
?_B124
 
On se connecte au fichier des classifications
            
 File 124:CLAIMS/REFERENCE 2001/2007Q1 (c) 2007 IFI/CLAIMS(R) PATENT SERVICES
          
 Set  Items  Description
            
?_EXS
 
EXS (Execute Steps) fait réexécuter la dernière stratégie sauvegardée
             
Executing TD314 
 
            S1       1  CL="206005100"
             
?_T1/9
             
1/9/1
            
 DIALOG(R)File 124:CLAIMS/REFERENCE 2001/2007Q1
 (c) 2007 IFI/CLAIMS(R) PATENT SERVICES. All rts. reserv.
    00156536
U.S. Patent Manual of Classification
    Class Title: Contact lens
    Level: 03  Class Code: 206005100
Hierarchy  Level  Class/Subclass Title
     206000000    01  (IPC B65D) SPECIAL RECEPTACLE OR PACKAGE
     206005000    02  FOR EYEGLASS OR SPECTACLE
     206005100    03  Contact lens
            
B340
  
On retourne dans le fichier 340
             
File 340:CLAIMS(R)/US Patent 1950-2010/Apr 06
      (c) 2010 IFI/CLAIMS(R)
             
      Set  Items  Description
            
?_EXS
Executing TD314
     S1     455  CL="206005100"
            
?_T1/6/1-10
 
Les dix premiers résultats sont pertinents
            
1/6/1
12401079   2010-0072082
M/CONTACT LENS STORAGE CASE
             
1/6/2
12373246   2010-0044247
M/SAFETY KIT FOR CONTACT LENSES
             
1/6/3 
12367263   2010-0038264
M/PACKAGING FOR OPTHALMIC LENS
             
1/6/4
12335455   2010-0006455
M/CONTACT LENS STORAGE CASE
             
1/6/5
12242406   2009-0242431
M/SCREW CAP PACKAGE FOR CONTACT LENS
            
 (...)
            
1/6/8
12211906   2009-0211925
M/CONTACT LENS STORAGE AND CLEANING CASE
             
1/6/9
12200164   2009-0200182
M/PRE-FILLED CONTACT LENS CONTAINER
             
1/6/10
12173627   2009-0173643
M/Packaging Solutions
            
DEUX APPROCHES POUR QUESTEL
            
Pour effectuer une recherché analogue sur Questel, on procédera différemment selon que l’on utilise QWEB et le langage natif ou imagination d’une part ou que l’on utilise la plateforme Orbit.com, nouveau nom de QPAT.

En utilisant QWEB, on choisit la base USPAT qui propose le texte intégral des brevets américains alors que le fichier 340 de Dialog ne contenait que Titre abstract et revendication.
 
La possibilité de chercher sur l’ensemble du brevet ne présente ici aucun intérêt, nous limiterons donc la recherché ou titre, abstract et classe.
             
Dans la base USPAT, l’étape 1 /TI/AB/CLMS CONTACT AV LENS+ donne 3 878 réponses (AV est l’opérateur d’adjacence et + la troncature illimitée).
             
L’étape /TI/AB/CLMS case ou storage ou container donne 569 144 documents.
             
En ce qui concerne les opérateurs de proximité utilisant le nombre de mots Questel est limité à 9 M (signifie que les deux termes doivent se trouver séparés au maximum de 9 mots dans n’importe quel sens), par contre on peut utiliser les opérateurs PHR (phrase) ou PRG (paragraphe).
             
Nous choisirons l’opérateur 9M et entrons donc dans le système la commande 1 9M 2 qui donne 356 réponses, (étape 3)
            
C’est moins que dans Dialog ce qui est logique puisque l’on a resserré l’écart entre les deux concepts.
           
Pour continuer l’opération, l’opérateur Keep de Dialog n’a pas d’équivalent dans Questel, mais on peut, pour arriver au même résultat utiliser la commande FOCUS (FO).
            
Cette commande permet de visualiser ici dans un format Titre, …………….  déposant, context, auteur des mots de recherche un à un les résultats de l’étape précédente en ayant en autre choix la possibilité de passer au suivant ou de le garder.                  On peut bien sûr arrêter ce balayage à tout moment et l’on trouvera les documents gardés dans l‘étape 202 par convention.
            
La commande MEMT/PCLO permet d’extraire le code original de la classification américaine pour les 11 documents que nous avons gardé et VI MEMT permet de voir leur fréquence :
             
206005100 : 6
D032 6400  4
351160000 H 1
             
En faisant la même démarche avec les 356 documents de l’étape 3 on obtient le tableau suivant :
            
206005100 : 19
D03264000 : 3
250 461100 : 2
            
Dans cet exemple, le résultat de la démarche est moins spectaculaire, sans doute parce que nous avons utilisé un écart de 9 mots entre les deux concepts.
             
Dans la plateforme Orbit.com, on fait une recherche « non express » en entrant dans la zone de saisie du haut la stratégie ((contact av lens +) 9M (case ou storage ou container) en limitant au banc index et aux revendications.
             
On limite ensuite aux brevets US.
             
On visualise les 20 premiers et on sélectionne ce qui sont pertinents ; d’un clic on les envoie dans « Ma liste », on les sélectionne tous et on choisit de les analyser par code de la classification américaine le résultat est net : le code 206005100 se retrouve dans 83,33 % des cas et le code 116308000 dans 16,66 % des cas.
             
POUR STN : UNE COMMANDE MECONUE
             
Pour STN nous pensions, en première approche, qu’il n’était pas possible de réaliser une recherche équivalente. Mais en creusant le sujet, les experts de STN ont proposé d’utiliser la commande D BROWSE et ses sous-commandes, comme on va le voir ci-dessous.
            
On effectuera la recherche sur USPAT2, qui est analogue à USPAT de Questel, à ceci près qu’elle remonte moins loin dans le temps (il y a d’autres bases sur les brevets américains dans STN).
             
Comme dans Questel, on se limite aux titres, résumés et revendications.
             
La première étape de recherche s’écrit S (CONTACT()LENS ?)/TI,AB,CLM, ou ( ) est une adjacence stricte et ? une troncature illimitée.
            
Le résultat (L1) est de 776 documents.
           
On écrit ensuite S (Case or storage or container)/TI,AB,CLM – en notant que dans notre profil, la commande Plural ON (pluriel automatique) est activée.
             
Le résultat (L2) est de 156 273 documents.
             
S L1 (15A) L2 – 15A étant l’équivalent de 15N sur Dialog – donne 35 documents ; le nombre plus faible que sur les autres serveurs s’explique par la plus faible couverture de la base USPAT2.
             
On entre ensuite la commande D BROWSE, qui est une commande un peu particulière en ce sens qu’elle ouvre une série de sous-commandes, disponibles uniquement de cette façon.
             
On demande à visualiser les vingt documents les plus récents, avec la commande TRIAL 1-20.
           
=> D BROWSE
:TRIAL 1-20
            
L9           ANSWER 1 OF 20  USPAT2 on STN
AN          2009:93500  USPAT2
TI            Contact lens case with date storing feature
INCL       INCLM: 116/308.000
               INCLS:   116/312.000; 206/005.100; 206/459.100
NCL        NCLM:  116/308.000
               NCLS:  116/312.000; 206/005.100; 206/459.100
IC           IPCI   G09F0009-00 [I,A]
               PCI-2 A45C0011-04 [I,A]; G09F0011-04 [I,A]; G09F0011-00 [I,C*]
               IPCR   G09F0009-00 [I,C]; G09F0009-00 [I,A]
            
L9           ANSWER 2 OF 20  USPAT2 on STN
AN          2008:217558  USPAT2
TI            Method of cleaning contact lenses via sonication
INCL       INCLM: 134/001.000
               INCLS: 134/901.000
               NCL    NCLM:  134/001.000
               NCLS:  134/901.000
IC           IPCI   B08B0003-12 [I,A]
               IPCI-2 B08B0003-12 [I,A]
               IPCR   B08B0003-12 [I,C]; B08B0003-12 [I,A]
             
Puis grâce à la commande TAG on sélectionne ceux qui sont pertinents :
            
:TAG 1 3 4 8 13 14 17 18 19
            
ANSWER 1 TAGGED
ANSWER 3 TAGGED
(...)
ANSWER 17 TAGGED
ANSWER 18 TAGGED
ANSWER 19 TAGGED
:END
            
 => SORT L9
SORT ENTIRE ANSWER SET? (Y)/N:N
ENTER ANSWER NUMBERS OR TAGGED (?):TAGGED
ENTER SORT FIELDS AND SORT DIRECTION (?):AU
PROCESSING COMPLETED FOR L9 
L10     9 SORT L9 TAGGED AU
            
=> ANALYZE L10 1-
ENTER DISPLAY CODE (TI) OR ?:INCLM
L11     ANALYZE L10 1- INCLM :       4 TERMS
            
 => D ENTIRE
L11     ANALYZE L10 1- INCLM :       4 TERMS

TERM #   # OCC  # DOC  % DOC INCLM
            ------ ------- ------ ------ ---------------
            1       6      6  66.67 206005100
            2       1      1  11.11 053329000
            3       1      1  11.11 116308000
            4       1      1  11.11 351160000H
            *********  END OF L11***
             
On utilise la commande SORT pour créer une étape contenant les références taguées.
             
Le champ de tri n’a ici aucune importance.
             
UN PEU DE PHILOSOPHIE
             
Nous avons trouvé cet exercice intéressant à plusieurs titres.
            
C’est d’abord une démarche qui, comme on l’a dit au début, permet dans Dialog d’optimiser la commande RANK, en faisant préalablement un KEEP. Mais chez les autres serveurs, une démarche analogue optimise aussi les classements.
 
La sélection des codes ou des mots-clés se fera donc sur un ensemble de documents jugés pertinents, ce qui améliorera significativement l’intérêt du RANK. Comme le dit Ron Kaminecki, c’est particulièrement utile pour les sujets larges et flous ou lorsqu’il y a des termes ambigus.
 
Par ailleurs, si l’exemple a été choisi sur une base brevet, cette démarche n’est pas du tout limitée aux brevets mais peut s’appliquer à n’importe quelle base ayant une indexation, tant avec des codes que des mots-clés ; c’est donc une démarche de portée générale.
             
Elle est d’autant plus intéressante que sur un sujet nouveau, il peut être long, fastidieux et même aléatoire de trouver le bon code ou le bon mot-clé.
             
Par ailleurs, le fait d’illustrer la méthodologie sur les trois principaux serveurs classiques de banques de données a montré que sur des démarches un peu spécifiques, les outils utilisés pouvaient être différents mais que, dans tous les cas, il existait une solution équivalente.
            
Cela confirme le haut niveau de l’offre de ces trois serveurs en matière de stratégies de recherche, ce qui est réjouissant.

Cet article s’inscrit aussi dans l’esprit du concours de stratégies de recherche, visant à mettre en valeur des stratégies performantes et les spécialistes qui les ont mises au point. Nous avons organisé ce concours trois années consécutives en collaboration avec i-expo, mais il n’a pu malheureusement être reconduit cette année (voir Bases n°268).

Aucun commentaire:

Enregistrer un commentaire