Décrypthon : de la bio-informatique appliquée

Dossier : BiotechnologiesMagazine N°590 Décembre 2003Par : Laurent VOIGNAC (79), Genomining

Le problème scientifique

L’idée du cal­cul est basée sur le raison­nement suiv­ant : si le “codage” de deux pro­téines est ana­logue, alors for­muler l’hy­pothèse que leurs fonc­tions présen­tent des analo­gies est une hypothèse fréquem­ment plausible.

Le cahier des charges informatique : la théorie

Il s’ag­it de com­par­er deux à deux les enreg­istrements d’une base de données :

  • la base de données
    Il est admis qu’à chaque pro­téine con­nue est asso­ciée une séquence pep­tidique définis­sant sa struc­ture chim­ique. La base de don­nées est donc con­sti­tuée de toutes les séquences des pro­téines connues.
  • le critère mathématique
    Un critère de sim­i­lar­ité entre deux séquences est défi­ni par la mesure du plus petit nom­bre d’opéra­tions qui, appliquées à une séquence, per­me­t­tent d’obtenir la sec­onde ; intu­itive­ment on peut inter­préter cette dis­tance d’édi­tion comme une mesure du nom­bre d’événe­ments sur­venus au cours de l’évo­lu­tion entre deux séquences et leur plus récent ancêtre commun.

Le cahier des charges informatique : la pratique

En fait la base de don­nées des séquences con­nues n’ex­iste pas en pratique.

Visualisation des séquences d’ADN dans le but de décrypter le génome humain.
Visu­al­i­sa­tion des séquences d’ADN dans le but de décrypter le génome humain. 
© INSERM, PHOTO JORDAN B. DR/HUNKAPILLER M.

Il existe plusieurs “grandes” sources de référence, d’ac­cès pub­lic ou privé, mais, et c’est l’une des dif­fi­cultés de base de la bio-infor­ma­tique, aucune n’est à aucun moment exhaus­tive ou de for­mat stan­dard­isé. Elles ont des inter­sec­tions sou­vent non vides et par­fois dens­es, et ce sont des sources de for­mats hétérogènes. Aus­si, dans le con­texte de la “bio-infor­ma­tique”, la pre­mière étape du cahi­er des charges con­siste à fab­ri­quer une base de don­nées homogène et non redon­dante à par­tir de plusieurs sources hétérogènes et redon­dantes. Dans le cas du Décrypthon1, la com­pi­la­tion ini­tiale de qua­tre grandes bases de don­nées et de 80 pro­téomes entière­ment séquencés générait 1 200 000 séquences : par élim­i­na­tion des redon­dances exactes (séquences par­faite­ment iden­tiques), cet ensem­ble a été réduit à 560 000 séquences/

Pour ce vol­ume de com­para­i­son, l’é­val­u­a­tion du cal­cul représente 15 mil­lions d’heures : soit plus de mille cinq cents ans sur un seul PC, ou un an de cal­cul à plein temps sur 1 500 PC en clus­ter ! Compte tenu de la dimen­sion des cal­culs envis­agés, la réal­i­sa­tion du cal­cul pro­pre­ment dit a con­sti­tué une pre­mière en France.

Lors du “Téléthon” de décem­bre 2001 un appel à volon­taires a été lancé pour met­tre à dis­po­si­tion du temps machine de leur ordi­na­teur per­son­nel. Le cal­cul envis­agé, 150 mil­liards de com­para­isons à réalis­er, se prête bien en effet à des découpages en paque­ts. En févri­er 2002, 75 000 volon­taires ont donc pu télécharg­er par Inter­net le pro­gramme de comparaison.

Le résultat final

L’opéra­tion ayant été ren­due pos­si­ble grâce à l’aide des bénév­oles, l’ensem­ble des résul­tats a été très rapi­de­ment mis à la dis­po­si­tion de la com­mu­nauté sci­en­tifique sur un site pub­lic d’ac­cès libre :
http://infobiogen.fr/services/decrypthon

Utilisations possibles

Par­mi quelques types d’ex­ploita­tion pos­si­bles : les familles de protéines

Geno­min­ing est une société de bio-infor­ma­tique fondée en mai 2001 par William Saurin, nor­malien, directeur de Recherch­es au CNRS, et Lau­rent Voignac (79), ingénieur en chef des Mines.
Geno­min­ing a été en 2002 l’opéra­teur sci­en­tifique du Décrypthon mené en parte­nar­i­at avec l’AFM et IBM.
www.genomining.com

Une ques­tion sci­en­tifique fon­da­men­tale est de pou­voir rassem­bler les pro­téines en “familles”, dont chaque mem­bre pos­séderait donc un “point en com­mun” avec les autres mem­bres. Le prob­lème math­é­ma­tique de rassem­bler des objets en familles si on con­naît le degré de ressem­blance des objets deux à deux n’est pas sim­ple. Un critère de tran­si­tiv­ité appliqué trop bru­tale­ment peut con­duire à rassem­bler tous les objets dans une seule grande famille, ce qui apporte peu d’in­for­ma­tion. À l’in­verse un critère trop strict con­duit à un éparpille­ment de familles, à l’ex­trême les familles ne com­por­tent qu’un objet.

Dans le monde de la biolo­gie la per­spec­tive de rassem­bler les pro­téines en familles non triv­iales est impor­tante : si l’on peut ten­ter l’analo­gie, elle cor­re­spondrait à rassem­bler les élé­ments chim­iques en colonnes du tableau péri­odique, ce qui per­met de prédire des pro­priétés chim­iques com­munes aux élé­ments qui parta­gent la même colonne.

Des travaux théoriques peu­vent donc être entre­pris pour iden­ti­fi­er des familles per­ti­nentes de pro­téines à par­tir des infor­ma­tions disponibles sur leur analo­gie, et de pou­voir en déduire à l’é­tape ultérieure des pro­priétés biologiques com­munes. Ces travaux s’ap­puyant sur la bio-infor­ma­tique mêlent des com­pé­tences de biolo­gie, de sta­tis­tique et d’in­for­ma­tique théorique.

Suites

La mise à jour de cette base à par­tir des pro­téines nou­velle­ment con­nues entre jan­vi­er 2002 et jan­vi­er 2003, soit en un an, devrait néces­siter le même vol­ume de cal­cul ! La mise à dis­po­si­tion des don­nées des grands pro­jets de séquençage n’est évidem­ment pas étrangère à cette crois­sance rapide.

____________________________
1. Les références en vol­ume sont à con­sid­ér­er en jan­vi­er 2002, date du début du cal­cul Décrypthon.
Elles évolu­ent sen­si­ble­ment avec le temps : dou­ble­ment en un an.

Poster un commentaire