Brevets chinois : enrichissement de l'offre en anglais et en texte intégral


Décidément, les initiatives se multiplient concernant l’accès aux brevets chinois, comme nous l’avions déjà observé dans notre article de janvier 2009 (Bases n° 256), consacré à un panorama général de l’offre dans ce domaine.
             
A l’époque, les bases proposant le texte intégral de brevets chinois étaient relativement peu nombreuses.
             
Cette offre vient de s’élargir avec la mise en ligne par Dialog de la banque de données Chinese Patents Fulltext (fichier n°325).
             
Cette banque de données est produite par Scipat Benelux BV et propose, d’après la fiche technique, la traduction du texte complet des brevets et modèles d’utilité chinois.
             
La traduction est réalisée par Scipat et Matrixware, avec des technologies basées sur les statistiques combinées avec un apport humain.
             
La banque de données est supposée être mise à jour chaque semaine, mais entre le 12 et le 31 mai, la dernière mise à jour est restée celle du 30 mars.
             
Il est prévu que les traductions en anglais soient mises en ligne environ deux semaines après publication par l’office chinois des brevets.
             
On remarque que des “rattrapages” sont effectués, puisque dans la dernière mise à jour, on trouvait quelques modèles d’utilité avec 1988 comme année de demande.
             
Sur les 3,691 millions de documents, seuls 6 281 n’ont que les références bibliographiques et le reste comporte descriptions et revendications, tandis que 83 % ont une image et que la quasi-totalité possède des informations sur le statut légal.
             
Un lien est prévu vers le PDF du brevet en chinois mais, lors de nos tests, il ne fonctionnait pas (encore ?).
            
TotalPatent paraît plus à jour, sachant que la date de démarrage est commune à tous les serveurs. C’est en effet en 1985 que l’office chinois des brevets a commencé à fonctionner.
             
Pour ce qui est des références bibliographiques sur ce serveur, les plus récentes dataient, lors de tests effectués le 31 mai, du 5 du même mois, tandis que le texte intégral le plus récent était du 31 mars et le PDF du 24 mars.
            
Nous avons remarqué quelques absences de PDF, mais tous les serveurs semblent confrontés au même problème de l’existence de “trous” dans la couverture, trous qu’ils s’efforcent évidemment tous de combler..
            
Il n’est pas possible de trouver en ligne sur TotalPatent le nombre de documents pour un pays donné, mais le serveur nous a fourni les chiffres suivants au 1er juin :
            
• références bibliographiques : 3 879 780 documents        
  
• résumés : 3 727 795
            
• texte intégral : 3 636 960
           
• traductions machine du texte intégral : 3 471 595
             
En tout état de cause, TotalPatent vient juste d’intégrer la collection chinoise et avoue un peu de retard pour la mise à jour du texte intégral. Mais d’ici quelques semaines, il est prévu des mises à jour hebdomadaires, avec seulement une semaine de décalage pour le texte intégral en chinois et quelques semaines pour la traduction en anglais.
             
On notera que la traduction est faite par l’office chinois des brevets.
             
Quant à Questel, le fichier CNFULL est divisé en trois sous fichiers qu’il est possible de chercher en une seule fois :
           
• CNFULLA : demandes de brevets non examinées (A) depuis 1985 et examinées (B) de 1985 à 1992 ;
             
• CNFULLC : brevets délivrés depuis 1993 ;
           
• CNFULLU : demandes de modèles d’utilité (U) depuis 1985 et modèles d’utilité délivrés (Y) depuis 1993.
            
 On notera que la base de données contient à la fois le texte en chinois et sa traduction “machine assistée”  en anglais.
             
Questel s’approvisionne auprès de l’OEB qui est assez en retard, notamment sur les traductions du texte intégral. Mais l’OEB n’est pas son seul fournisseur pour ce qui concerne les traductions. D’autre part, Questel fait l’effort de traduire l’abstract dès que possible, ou de le récupérer grâce à un autre brevet de la famille quand c’est possible.
             
Questel annonce un nombre total de documents de 3 588 533, légèrement moins que Dialog et TotalPatent, les plus récents n’étant pas chargés.
            
 La ventilation se fait ainsi :
             
• présence de la description : 2 624 965 documents ;
             
• présence d’un abstract : 3 208 035 en anglais et 2 363 502 en chinois.
             
Pour terminer ce tour d’horizon, on mentionnera l’offre de Minesoft, qui propose pour certains brevets chinois le titre, l’abstract et la première revendication et, pour d’autres, le texte intégral. Mais le tout est en chinois, sachant que l’on peut faire la recherche en chinois et faire traduire les documents par l’un des deux moteurs de recherche disponibles sur ce serveur.
             
UNE COMPARAISON
            
Nous avons pris trois brevets au hasard dans le fichier de Dialog  – puisqu’il est le plus récemment chargé –, et comparé les traductions de ces brevets dans Questel et TotalPatent. Dans tous les cas, le texte intégral en anglais est disponible dans Dialog, puisque nous en sommes partis.
            
 Le premier porte le numéro CN 101678806 et a été publié le 24 mars 2010. Il est trop récent pour figurer dans Questel. Il se trouve dans TotalPatent, mais le PDF n’est pas disponible.
            
Le second porte le numéro CN 100537305 et a été publié le 9 septembre 2009.
           
On ne trouve sur Questel qu’un résumé en anglais qui provient de son équivalent américain.
             
Dans TotalPatent, on le trouve en texte intégral et le PDF est disponible.
             
Quant au troisième, il porte le numéro CN 1902330 et a été publié le 24 janvier 2007. On trouve l’abstract et les revendications dans Questel et la totalité dans TotalPatent, mais pas le PDF.
           
Dans la mesure ou les systèmes de traduction sont différents, nous avons voulu faire une comparaison des traductions sur les trois serveurs.
            
Nous avons choisi le début et la fin de l’abstract du troisième brevet, la partie centrale ne faisant que détailler de façon très similaire les pourcentages de présence des différents éléments.
             
On trouve dans Dialog :
            
“The utility model claims a low carbon alloy steel pipe and manufacturing method thereof wherein said steel tube it is mainly composed of following components according to weight calculating … Highest reach about 0,15 % of the remaining elements ; And balance weight iron and unavoidable impurities the steel pipe has at least about 145 ksi of the tensile strength and less than 60 centigrade the tenacity and transforming temperature”.
            
 Dans Questel :
           
 “A low-carbon alloy-steel pipe and its preparation method, wherein said steel tube is mainly made up of following component, by weight…  Residual element up to about most 0,15 % ; And iron and inevitable impurity of aequum, steel tube have at least about tensile strength of 145 ksi and lower than wherein-tough-fragile transformation temperature of 60 DEGREE CELSIUS.”.
 
(traduction faite par IPPH)
             
Dans TotalPatent :
            
“The patent refers to the field of modifying the physical structure of ferrous metals ; general devices for heat treatment of ferrous or non-ferrous metals or alloys ; making metal malleable by decarburisation, tempering or other treatmenents. A low carbon alloy steel tube and a method of manufacturing the same, in which the steel tube consists essentially of, by weight… up to about 0,15 % residual elements ; and the balance iron and incidental impurities. The steel has a tensile strength of at least about 145 ksi and exhibits ductile behavior at temperatures as low as –60 DEG..C”.
             
Comme dans la comparaison que nous avions effectuée lors de notre précédent article sur le sujet, on notre des différences sensibles, voire très sensibles, entre les diverses traductions.
             
Celle de TotalPatent notamment se distingue des deux autres.
             
Cela illustre, s’il en était besoin, que la recherche dans les banques de données brevets n’est pas une science tout à fait exacte, en particulier pour les brevets ayant subi une MAT (Machine Assisted Translation). La recherche par les codes, si elle présente évidemment un intérêt, n’est quant à elle pas sans aléas non plus.
                   
On notera enfin la confirmation du développement plutôt rapide de l’offre en matière de banques de données consacrées aux brevets chinois, ce qui est dans le sens de l’histoire.

Aucun commentaire:

Enregistrer un commentaire