Décrypthon : de la bio-informatique appliquée

Dossier : BiotechnologiesMagazine N°590 Décembre 2003Par : Laurent VOIGNAC (79), Genomining

Le problème scientifique

L’i­dée du cal­cul est basée sur le rai­son­ne­ment sui­vant : si le « codage » de deux pro­téines est ana­logue, alors for­mu­ler l’hy­po­thèse que leurs fonc­tions pré­sentent des ana­lo­gies est une hypo­thèse fré­quem­ment plausible.

Le cahier des charges informatique : la théorie

Il s’a­git de com­pa­rer deux à deux les enre­gis­tre­ments d’une base de données :

  • la base de données
    Il est admis qu’à chaque pro­téine connue est asso­ciée une séquence pep­ti­dique défi­nis­sant sa struc­ture chi­mique. La base de don­nées est donc consti­tuée de toutes les séquences des pro­téines connues.
  • le cri­tère mathématique
    Un cri­tère de simi­la­ri­té entre deux séquences est défi­ni par la mesure du plus petit nombre d’o­pé­ra­tions qui, appli­quées à une séquence, per­mettent d’ob­te­nir la seconde ; intui­ti­ve­ment on peut inter­pré­ter cette dis­tance d’é­di­tion comme une mesure du nombre d’é­vé­ne­ments sur­ve­nus au cours de l’é­vo­lu­tion entre deux séquences et leur plus récent ancêtre commun.

Le cahier des charges informatique : la pratique

En fait la base de don­nées des séquences connues n’existe pas en pratique.

Visualisation des séquences d’ADN dans le but de décrypter le génome humain.
Visua­li­sa­tion des séquences d’ADN dans le but de décryp­ter le génome humain. 
© INSERM, PHOTO JORDAN B. DR/HUNKAPILLER M.

Il existe plu­sieurs « grandes » sources de réfé­rence, d’ac­cès public ou pri­vé, mais, et c’est l’une des dif­fi­cul­tés de base de la bio-infor­ma­tique, aucune n’est à aucun moment exhaus­tive ou de for­mat stan­dar­di­sé. Elles ont des inter­sec­tions sou­vent non vides et par­fois denses, et ce sont des sources de for­mats hété­ro­gènes. Aus­si, dans le contexte de la « bio-infor­ma­tique », la pre­mière étape du cahier des charges consiste à fabri­quer une base de don­nées homo­gène et non redon­dante à par­tir de plu­sieurs sources hété­ro­gènes et redon­dantes. Dans le cas du Décryp­thon1, la com­pi­la­tion ini­tiale de quatre grandes bases de don­nées et de 80 pro­téomes entiè­re­ment séquen­cés géné­rait 1 200 000 séquences : par éli­mi­na­tion des redon­dances exactes (séquences par­fai­te­ment iden­tiques), cet ensemble a été réduit à 560 000 séquences/

Pour ce volume de com­pa­rai­son, l’é­va­lua­tion du cal­cul repré­sente 15 mil­lions d’heures : soit plus de mille cinq cents ans sur un seul PC, ou un an de cal­cul à plein temps sur 1 500 PC en clus­ter ! Compte tenu de la dimen­sion des cal­culs envi­sa­gés, la réa­li­sa­tion du cal­cul pro­pre­ment dit a consti­tué une pre­mière en France.

Lors du « Télé­thon » de décembre 2001 un appel à volon­taires a été lan­cé pour mettre à dis­po­si­tion du temps machine de leur ordi­na­teur per­son­nel. Le cal­cul envi­sa­gé, 150 mil­liards de com­pa­rai­sons à réa­li­ser, se prête bien en effet à des décou­pages en paquets. En février 2002, 75 000 volon­taires ont donc pu télé­char­ger par Inter­net le pro­gramme de comparaison.

Le résultat final

L’o­pé­ra­tion ayant été ren­due pos­sible grâce à l’aide des béné­voles, l’en­semble des résul­tats a été très rapi­de­ment mis à la dis­po­si­tion de la com­mu­nau­té scien­ti­fique sur un site public d’ac­cès libre :
http://infobiogen.fr/services/decrypthon

Utilisations possibles

Par­mi quelques types d’ex­ploi­ta­tion pos­sibles : les familles de protéines

Geno­mi­ning est une socié­té de bio-infor­ma­tique fon­dée en mai 2001 par William Sau­rin, nor­ma­lien, direc­teur de Recherches au CNRS, et Laurent Voi­gnac (79), ingé­nieur en chef des Mines.
Geno­mi­ning a été en 2002 l’o­pé­ra­teur scien­ti­fique du Décryp­thon mené en par­te­na­riat avec l’AFM et IBM.
www.genomining.com

Une ques­tion scien­ti­fique fon­da­men­tale est de pou­voir ras­sem­bler les pro­téines en « familles », dont chaque membre pos­sé­de­rait donc un « point en com­mun » avec les autres membres. Le pro­blème mathé­ma­tique de ras­sem­bler des objets en familles si on connaît le degré de res­sem­blance des objets deux à deux n’est pas simple. Un cri­tère de tran­si­ti­vi­té appli­qué trop bru­ta­le­ment peut conduire à ras­sem­bler tous les objets dans une seule grande famille, ce qui apporte peu d’in­for­ma­tion. À l’in­verse un cri­tère trop strict conduit à un épar­pille­ment de familles, à l’ex­trême les familles ne com­portent qu’un objet.

Dans le monde de la bio­lo­gie la pers­pec­tive de ras­sem­bler les pro­téines en familles non tri­viales est impor­tante : si l’on peut ten­ter l’a­na­lo­gie, elle cor­res­pon­drait à ras­sem­bler les élé­ments chi­miques en colonnes du tableau pério­dique, ce qui per­met de pré­dire des pro­prié­tés chi­miques com­munes aux élé­ments qui par­tagent la même colonne.

Des tra­vaux théo­riques peuvent donc être entre­pris pour iden­ti­fier des familles per­ti­nentes de pro­téines à par­tir des infor­ma­tions dis­po­nibles sur leur ana­lo­gie, et de pou­voir en déduire à l’é­tape ulté­rieure des pro­prié­tés bio­lo­giques com­munes. Ces tra­vaux s’ap­puyant sur la bio-infor­ma­tique mêlent des com­pé­tences de bio­lo­gie, de sta­tis­tique et d’in­for­ma­tique théorique.

Suites

La mise à jour de cette base à par­tir des pro­téines nou­vel­le­ment connues entre jan­vier 2002 et jan­vier 2003, soit en un an, devrait néces­si­ter le même volume de cal­cul ! La mise à dis­po­si­tion des don­nées des grands pro­jets de séquen­çage n’est évi­dem­ment pas étran­gère à cette crois­sance rapide.

____________________________
1. Les réfé­rences en volume sont à consi­dé­rer en jan­vier 2002, date du début du cal­cul Décrypthon.
Elles évo­luent sen­si­ble­ment avec le temps : dou­ble­ment en un an.

Poster un commentaire