HPC : des solutions françaises, souveraines et prometteuses

Dossier : Vie des entreprisesMagazine N°771 Janvier 2022
Par Pascal POTIER

Pas­cal Poti­er est vice-prési­dent exé­cu­tif d’Atem­po. Dans cet entre­tien, il nous explique les défis majeurs que per­met d’adresser le HPC (High Per­for­mance Com­put­ing) et nous présente la solu­tion « Agnos­tique » Miria d’Atempo. Entretien.

Quels sont les principaux enjeux auxquels répond le HPC (High Performance Computing) ?

Le prin­ci­pal enjeu con­siste à col­lecter ou agréger des don­nées mas­sives et à exé­cuter des opéra­tions com­plex­es de manière fiable et rapi­de, donc à accélér­er la recherche ou la prise de déci­sion. S’appuyant sur des infra­struc­tures com­posées de plusieurs mil­liers de processeurs (CPU ou Cen­tral Pro­cess­ing Unit) et sur des unités de stock­age de très grande capac­ité, les résul­tats de ces cal­culs sont con­servés pour être réu­til­isés ou analysés ultérieurement. 

Tra­di­tion­nelle­ment, le HPC, ou cal­cul haute per­for­mance, était réservé à cer­tains secteurs de la recherche sci­en­tifique, notam­ment aux départe­ments mil­i­taires ou météorologiques de nom­breux pays, et à cer­taines indus­tries comme l’aéronautique ou l’automobile. Avec les récentes inno­va­tions tech­nologiques et numériques autour de l’IA (intel­li­gence arti­fi­cielle) et du ML (machine learn­ing), l’usage d’un envi­ron­nement HPC s’est démoc­ra­tisé et a pris davan­tage d’importance. Il est aujourd’hui présent dans plusieurs secteurs (san­té, finance, indus­trie pétrolière, etc.). Le cal­cul se fait chez l’ensemble des Cloud Providers type Ama­zon Web Ser­vices (AWS), Google ou OVHcloud.

Désor­mais, le défi majeur est de fournir un accès rapi­de à ces don­nées et d’être en mesure de gér­er des vol­umes très importants.

Aujourd’hui, le grand challenge est la manipulation de larges volumes de données, ainsi que l’accessibilité et la disponibilité de ces données. Qu’en est-il concrètement ?

Aupar­a­vant, les don­nées pro­duites étaient plutôt réservées à un nom­bre restreint de chercheurs de l’entité chargée de l’environnement HPC. Alors qu’aujourd’hui, ces don­nées sont ren­dues acces­si­bles à une plus grande com­mu­nauté sci­en­tifique, européenne ou mon­di­ale, il est plutôt ques­tion de mod­èles de type Data Hub. On retrou­ve donc ces mod­èles dans les domaines de la géné­tique, de la finance, de l’industrie auto­mo­bile, etc. Donc, depuis quelques années, nous assis­tons à l’émergence de Data Hub, qui con­sis­tent à cen­tralis­er les don­nées issues de cal­culs HPC et à les partager au sein d’une com­mu­nauté de chercheurs, en prenant soin de sépar­er les don­nées privées ou con­fi­den­tielles d’une entre­prise des don­nées publiques.

Le partage et le déplace­ment de ces gigan­tesques vol­umes de don­nées ne peut se faire que si les infra­struc­tures réseaux et de stock­age ont été cor­recte­ment pris­es en compte lors du design.

Quid des enjeux du partage de ces données et de leur déplacement ? 

Une fois que les don­nées sont générées et cloi­son­nées, une grande par­tie est mise à dis­po­si­tion de la com­mu­nauté et con­servée. La dif­fi­culté actuelle con­siste à pou­voir stock­er ces don­nées sur des péri­odes de plus en plus longues. Alors qu’auparavant, ces don­nées étaient con­servées sur des péri­odes allant de trois à cinq ans, il est aujourd’hui habituel de les stock­er sur 15, 20 ans ou plus. Pour ce faire, il faut s’appuyer sur des infra­struc­tures adéquates. Pour des raisons de coûts, une grande par­tie de ces don­nées pro­duites sont con­servées sur des librairies de ban­des, soit à prox­im­ité de l’environnement HPC, soit dans des infra­struc­tures de Cloud Archive Stor­age telles que AWS Glac­i­er, Azure Cold Archive, ou sur la solu­tion PCA d’OVHcloud.

Pour répondre à ces enjeux, Atempo met à disposition l’offre « agnostique » de Miria. De quoi s’agit-il ? Quels en sont les bénéfices ?

Le partage de ces très grands vol­umes de don­nées néces­site un out­il capa­ble de déplac­er ou dupli­quer facile­ment tout ou par­tie des don­nées d’un lab­o­ra­toire de recherche vers un autre ou vers une entité de recherche d’un autre pays, tout en per­me­t­tant une hétérogénéité entre le stock­age source et le stock­age de destination.

C’est le réel atout de Miria d’être totale­ment agnos­tique. Con­crète­ment, Miria com­mu­nique avec tous les sys­tèmes de stock­age con­nus du marché, per­me­t­tant de s’affranchir des con­traintes liées aux mar­ques de con­struc­teurs, grâce à des con­necteurs sources et des­ti­na­tions com­pat­i­bles avec l’entièreté des pro­to­coles exis­tants à ce jour. La solu­tion logi­cielle Miria per­met ain­si de cou­vrir la majorité des besoins observés.

Ces capac­ités nous per­me­t­tent de col­la­bor­er de plus en plus avec les ser­vices de stock­age de don­nées à long terme de grandes entre­pris­es afin qu’elles intè­grent la brique fonc­tion­nelle Miria pour le déplace­ment et la con­ser­va­tion de ces données.

Pour con­clure, les véri­ta­bles atouts de notre solu­tion sont à la fois son car­ac­tère agnos­tique et ses capac­ités de per­for­mance et de scal­a­bil­ité. Quand il est ques­tion de manip­uler des vol­umes colos­saux de don­nées, il est néces­saire de dis­pos­er d’une infra­struc­ture réseau per­for­mante, et d’un logi­ciel, capa­ble de déplac­er ces don­nées à très grande vitesse. C’est exacte­ment ce que per­met la solu­tion Miria, capa­ble de sat­ur­er n’importe quel type de réseau haut débit, à 10 Go, 100 Go ou plusieurs attache­ments 100 Go/s. La solu­tion logi­cielle Miria est une solu­tion scale-out, par l’ajout de data movers pour aug­menter le nom­bre de work­loads. Si l’objectif est de déplac­er les don­nées à très grande vitesse d’un lab­o­ra­toire vers un autre, ou d’un con­ti­nent vers un autre, alors Miria répond par­faite­ment à ces besoins de per­for­mance et de capac­ité, exigés par le HPC.

Pour finir, quels sont les axes de développement que vous allez privilégier pour les prochaines années ?

Pour les prochaines années, nous allons mul­ti­pli­er nos parte­nar­i­ats tech­nologiques, notam­ment avec les four­nisseurs et hébergeurs de don­nées. Ensuite, en tant qu’acteur français, l’un des grands sujets sur lesquels nous sommes tous mobil­isés est celui de la sou­veraineté des don­nées. Pour ce faire, nous nous appuyons sur des parte­naires de renom comme OVH­cloud avec qui nous avons signé, début 2021, un accord majeur. Comme Atem­po, l’entreprise est engagée sur le sujet brûlant de la sou­veraineté des don­nées. Nous sommes d’ailleurs con­va­in­cus que l’Europe doit se mobilis­er davan­tage et faire le choix de solu­tions sou­veraines. Dans ce cadre, Atem­po est mem­bre d’Hexatrust, et fait par­tie du con­sor­tium GAIA‑X qui tra­vaille actuelle­ment au développe­ment de Data Hub Européens.


En bref

Atem­po est un édi­teur de logi­ciels français et le leader européen dans le domaine de la Data pro­tec­tion et du Data man­age­ment. Recon­nu sur les cinq con­ti­nents pour son exper­tise de la ges­tion des grands vol­umes de don­nées dans les secteurs péta­vores (banque et finance, sci­ences de la vie et de la terre, indus­tries, diver­tisse­ment et média, etc.), Atem­po sécurise les don­nées de ses clients en se con­cen­trant sur ses prin­ci­pales missions :

  • la pro­tec­tion des don­nées essentielles,
  • la restau­ra­tion instan­ta­née en cas de besoin,
  • la con­ser­va­tion à long terme des don­nées et de leur intégrité,
  • la migra­tion rapi­de et sécurisée des don­nées entre stockages.

Poster un commentaire