La Royal Society of Chemistry acquiert ChemSpider.com


ChemSpider.com fait partie des nombreux services gratuits sur le Web dans le domaine de la chimie.
             
La chimie est un secteur dense et riche en informations, en particulier pour ce qui concerne la médecine et la pharmacie, domaines de prédilection de Chemspider.
             
Et il est somme toute assez logique que le mouvement de libre accès à l’information touche ce secteur.

            
ChemSpider a été lancé en mars 2007, dans une cave et pas dans un garage (!) comme souvent aux Etats-Unis, sans subvention, par un groupe d’amis passionnés de chimie informatique.
             
Le premier objectif était d’agréger et d’indexer les sources de structures chimiques et l’information associée dans un seul “repository”, librement et gratuitement accessible.
             
Le deuxième était de mettre à la disposition de la communauté des chimistes une plate-forme leur permettant d’une part de nettoyer et d’améliorer la qualité des données et, d’autre part, d’ajouter des données complémentaires ou des liens vers des sites intéressants.
             
Au tout début, les données de PubChem ont été utilisées pour valider le concept.
             
Si, dans un premier temps, le système ne pouvait gérer que des structures et du texte alphanumérique, il prend désormais en compte des images, des spectres et des documents.
             
ChemSpider contient aujourd’hui 21,5 millions de structures  en provenance de 200 sources de différentes natures (vendeurs de produits chimiques, banques de données commerciales et publiques, éditeurs et membres de la communauté).
            
Il intègre également la recherche sur des articles en open access. Il permet ainsi de chercher dans plus de 500 000 articles, ainsi que dans les structures et sous-structures qui y figurent. Il compte en moyenne 5 500 visiteurs  chaque jour.
             
Si l’accès est libre et gratuit, il ne s’agit pas pour autant d’un produit véritablement en open access, puisque le code source n’est pas accessible.
             
Lorsque l’on se connecte à ChemSpider, une zone de saisie permet de rechercher une molécule par nom systématique, nom commercial, Registry Number, formulations SMILES ou InChI (International Chemical Identifier) de l’IUPAC.
             
On peut aussi rechercher par structure, propriété, dans la littérature, par corps simples présents/absents…
            
Un exemple très basique nous permet d’illustrer la non exhaustivité de ChemSpider, ce qui ne met pas en cause son intérêt, mais en rappelle les limites.
             
Si l’on entre le Registry Number 25038-59-9 du Polyéthylène Téréphtalate (PET), qui est un composé relativement courant, dans les bouteilles par exemple, on ne trouve rien.
             
Et si l’on entre le nom développé, le seul choix proposé est Polyethylene Terephtalate film, ITO Coatead, ITO étant l’abréviation de Indium Tin Oxide, qui paraît être un produit différent.
            
En revanche, si l’on cherche l’hydroxide de potassium (KOH), on trouve de multiples façons de l’écrire, sa structure, l’article correspondant de Wikipédia, des liens vers de multiples brevets et toute une série de propriétés.
             
En mai 2009, la Royal Society of Chemistry (RSC) – productrice, en particulier, des banques de données bibliographiques Analytical Abstracts et Chemical Safety Newsbase – a acquis ChemSpider.
             
Cette acquisition doit lui permettre d’améliorer considérablement sa présence sur le Web et de proposer, en synergie avec ses autres contenus dit-elle, une masse critique pour donner du sens à la recherche structurale.
             
La vision de la Royal Society of Chemistry est que dans le futur, les scientifiques auront à rechercher des informations dans de multiples domaines, sans l’aide d’experts, dans un nombre relativement important de “repositories” en libre accès ; ChemSpider peut donc avoir vocation à devenir une interface commune à ces différentes plateformes.
             
Coïncidence ? Depuis Noël 2009, la Royal Society of Chemistry n’est plus le représentant au Royaume-Uni de STN et n’assure plus le service assistance de ce serveur.
             
DE NOMBREUSES SOURCES GRATUITES EN CHIMIE
             
Beaucoup d’autres ressources que ChemSpider sont disponibles gratuitement sur le Web. Elles sont en général construites autour d’inventaires de structures chimiques ou de molécules organiques avec différents types d’informations qui leur sont liées, comme leurs propriétés ou des liens vers des banques de données telles PubMed. Il est par ailleurs fréquent que l’on puisse chercher dans ces bases par structure.
             
Antony William, fondateur et vice-président en charge du développement stratégique de ChemSpider a donné, à l’occasion d’une présentation*, des exemples de banques de données publiques de composés (“Public Compounds”).
            
Il a cité notamment :
            
- PubChem, une banque de données sur les structures chimiques et les molécules organiques, avec des informations sur leurs activités biologiques ;                                    http://pubchem.ncbi.nlm.nih.gov
            
- Drugbank, créée à l’université d’Alberta, combinant des données détaillées (chimiques et pharmacologiques) sur plus de 4 800 médicaments – avec des informations sur leurs cibles : séquence, structure, voie d’entrée –, dont une partie sont agréées par la FDA.          
www.drugbank.ca ;
             
- CheBI (Chemical Entities of Biological Interest), se présentant comme la ressource publique des entités moléculaires, avec un accent plus particulier mis sur les composés chimiques de “petite taille”. CheBI est aussi une classification, et ce sous la forme d’une ontologie où les relations entre entités moléculaires (ou classes d’entités moléculaires) et leurs ascendants/descendants sont clairement spécifiés.
             
CheBI est actuellement développée par EMBL-EBI, situé dans le Wellcome Trust Genome Campus, au sud de Cambridge au Royaume-Uni, avec l’aide de fonds européens (financement SLING).
www.ebi.ac.uk/chebi/ ;
           
- KEGG (Kyoto Encyclopedia of Genes and Genomes) tente de répondre au grand défi de l’ère post génomique, qui est d’obtenir une représentation informatique de la cellule, de l’organisme et de la biosphère ; cette représentation devrait permettre de réaliser des prédictions informatiques d’un plus haut niveau de complexité des processus cellulaires et des comportements des organismes, à partir des informations génomiques et moléculaires. KEGG fait partie des projets de recherche des laboratoires Kanebisa, au centre bio-informatique de l’université de Tokyo et du Centre du génome humain de l’université de Tokyo.
www.genome.jp/kegg
            
- LIPID Metabolists and Pathway Strategy (LIPID MAPS) est un projet initié en 2003, mené par plusieurs organismes pour identifier et quantifier  les espèces plus importantes – et beaucoup d’autres moins importantes – de cellules lipidiques de mammifères, ainsi que de quantifier les changements qui se produisent en réponse à des perturbations.
www.lipidmaps.org ;
             
- ChemIDplus, produit par la NLM, propose des données physiques et de toxicité sur 388 574 composés.   
http://chem.sis.nlm.nih.gov/chemidplus
            
- EMolecules.com est un moteur gratuit de recherche de structures chimiques pour 8 millions de substances, proposées par 180 des plus importants fournisseurs.                  Pour chaque substance, figure sa structure, les différentes façons de l’écrire et son code dans plusieurs nomenclatures.        
www.emolecules.com
             
- ZINC, proposé par l’université de Californie à San Francisco, est une banque de données gratuite de 13 millions de substances disponibles sur le marché ;
http://zinc.docking.org.
             
L’INCONTOURNABLE CHEMICAL ABSTRACTS
             
On n’oubliera pas, enfin, les banques de données commerciales et notamment Registry de Chemical Abstracts, qui vient d’enregistrer sa 50 millionième substance (voir Bases n°264, octobre 2009), tout en précisant que certaines informations de ChemSpider concernant les fournisseurs se retrouvent dans la banque de données ChemCats (Chemical Catalogs Online) produite par … Chemical Abstracts.
         
*www.slideshare.net/ 
AntonyWilliam
             
INFORMATIONS

www.chemspider.com


François Libmann
Publié dans le n° 265 de Bases (Novembre 2009)


Aucun commentaire:

Enregistrer un commentaire