Unique Ingredient Identifier Information dans Medline

STN a annoncé la présence d'un nouveau champ baptisé UNII dans la banque de données Medline.

Ce champ contient en général un code – parfois plus – issu de la classification UNII (Unique Ingredient Identifier information).

Cette classification a été créée en 2007 par le Substance Registration System (SPS) de l'organisme américain Food and Drug Administration (FDA).

Elle est présentée comme étant non propriétaire, gratuite, non ambiguë et non sémantique.

Chaque code est composé de 10 caractères alphanumériques, définis aléatoirement et qui ne contiennent donc aucun élément d'information autre que leur lien avec une substance.

Cette classification a été créée pour faciliter les initiatives liées à la santé dans le domaine des technologies de l'information, en affectant un identifiant unique pour des substances utilisées dans les médicaments, les produits biologiques, l'alimentation et certains matériels.

Une substance est définie par sa structure moléculaire, représentée en deux dimensions. Lorsqu’aucune structure n'est disponible, par exemple pour des substances végétales, c'est la description qui est utilisée.

On trouvera à l'adresse http://goo.gl/aW5sm un outil permettant d'identifier l'UNII d'une substance, et réciproquement (voir copie d’écran ci-dessous).

Le champ a donc été ajouté sur Medline dans STN.

Il concernait 463 116 références au moment de nos tests. C'est à peu près 7% du nombre de références ayant un RN (Registry Number) ; celles-ci sont au nombre de 6 656 783. D’autre part, 2,5 % (seulement) des références ayant un code UNII n'ont pas de RN.

La NLM – producteur de Medline – privilégie les codes UNII par rapport aux RN, et a remplacé à substance équivalente un RN (en général) par son équivalent UNII.

Pour garder l'homogénéité de l'indexation, STN a réattribué les RN qui avaient été remplacés par les codes UNII.

Capadoc quant à lui, qui représente – notamment en France – STN et Chemical Abstracts, nous a apporté des précisions.

Les RN dans Medline sont en effet attribués de deux façons, selon que les molécules sont répertoriées ou non dans le MesH (le thésaurus de Medline).

Dans le premier cas, les RN ont été attribués par la NLM ; mais la collaboration entre la NLM et Chemical Abstracts pour l’attribution de RN aux substances répertoriées dans le MesH a cessé en 1998.

Lorsqu’il s’agit en revanche de molécules non répertoriées dans le MesH, la NLM ajoute un numéro UNII et STN génère les codes RN.

Donc, pour une molécule donnée, le nombre de références obtenues en cherchant par numéro UNII ou RN sera identique.

Nous avons comparé d'un peu plus près la présence des codes UNII dans Medline sur STN mais aussi sur Dialog, ainsi que sur PubMed, Scopus et Highwire Press, ces deux derniers intégrant a priori le contenu de PubMed.

Nous avons commencé par regarder un échantillon de références de Medline dans STN, qui nous ont servi de base pour nos autres tests.

On remarque d'abord qu'il n'y a le plus souvent qu'un code UNII, alors qu'il y a plusieurs RN (2,8 en moyenne dans notre échantillon).

Dans cet échantillon, on trouve à la fois un code UNII et un RN pour le même produit, par exemple 7GN705NH1 et 288-32-4 pour l'imidazole.

En revanche, pour les autres produits dont le RN est présent, on ne trouve pas son équivalent UNII, même s'il existe.

On notera que le RN est dans le Basic Index et qu'il n'y a pas besoin d'y ajouter de suffixe. Pour chercher un code UNII en revanche, il faut rajouter /UNII.

Sur Dialog, pour les mêmes références, dans le champ CAS Registry, le code UNII remplace effectivement le RN, qui n'est pas rajouté par le serveur.

Si l’on veut être exhaustif dans ce type de recherche, il faut donc à la fois chercher le code CAS (le RN) et le code UNII, les deux dans le champ RN (ex.: SRN=7GBN705NH1 ou SRN=288-32-4 par exemple, pour l’imidazole), ce qui ne simplifie pas la recherche.

Dans PubMed, on ne trouve ni numéro RN, ni code UNII.

Dans Scopus, on trouve le plus souvent les deux codes, comme sur STN.

Quant à Highwire Press, il n’y a aucune indexation mais un lien vers la citation PubMed qui, elle, est indexée.

On notera un retard de mise à jour dans Scopus et dans HighWire Press, par rapport à Medline.


François Libmann
Publié dans le n° 301 de Bases (Février2013)







Aucun commentaire:

Enregistrer un commentaire