Une équipe de Formule 1

La puissance de calcul : un mariage entre technologies et applications

Dossier : Simulation et supercalculateursMagazine N°732 Février 2018
Par Jean-Philippe NOMINÉ (83)

Dis­pos­er de la puis­sance de cal­cul néces­saire à cer­tains travaux exige d’avoir accès à des cen­tres dédiés, entourés de la com­pé­tence de dizaines de spé­cial­istes en tout genre. La France con­serve une autonomie de développe­ment de super­cal­cu­la­teurs face à des pays qui investis­sent mas­sive­ment dans ce domaine. 

Les appli­ca­tions pro­pres au monde des sci­ences et de l’industrie sont en moyenne plus intens­es en cal­cul et traite­ments que les tâch­es trans­ac­tion­nelles au prof­it du Web, de la mes­sagerie, des réseaux soci­aux ou encore de maintes tâch­es d’informatique d’entreprise.

“ Les plus grands centres de calcul scientifique actuels voient leur capacité mesurée en dizaines de pétaflops ”

En effet, la réso­lu­tion des prob­lèmes sci­en­tifiques con­cernés – tant dans la recherche académique que dans l’industrie – néces­site des capac­ités de cal­cul mas­sive­ment par­al­lèles et forte­ment cou­plées, avec gros débits et faibles latences de com­mu­ni­ca­tion entre processeurs et serveurs. 

Cela dis­qual­i­fie les solu­tions très dis­tribuées, au prof­it de super­cal­cu­la­teurs « local­isés » et à réseau interne spé­ci­fique – en per­ma­nence au-delà des capac­ités de réseaux longue dis­tance ou classiques. 

REPÈRES

Les centres de calcul dont il est question ici perpétuent le gigantisme des ordinateurs à tube des années 1940, occupant de grandes salles, en ayant bien entendu bénéficié de la miniaturisation de leurs composants intimes.
S’ils sont parfois moins gigantesques que les plus grands centres informatiques des géants du Web, ou de la NSA américaine, ils sont plus « denses » : dans quelques centaines ou milliers de mètres carrés, et quelques mégawatts – parfois jusqu’à 20–30 – ils concentrent unités de calcul et de stockage.

DES ÉCURIES DE FORMULE 1

Beau­coup des tech­nolo­gies de base (processeurs, mémoires) sont com­munes entre super­cal­cu­la­teurs et serveurs plus génériques, même si le cal­cul haute per­for­mance (en anglais HPC, pour High Per­for­mance Com­put­ing) utilise plutôt le haut de gamme des com­posants pro­duits par ailleurs en masse. 

Ce sont donc surtout la den­sité et l’intégration plus poussées qui car­ac­térisent les archi­tec­tures en clus­ters util­isées et leur envi­ron­nement local, qui com­porte aus­si des sys­tèmes de refroidisse­ment adap­tés, et des sys­tèmes de stock­age de masse. 

Les plus grands cen­tres de cal­cul sci­en­tifique actuels voient leur capac­ité mesurée en dizaines de pétaflops (cal­cul) et de pétaoctets1 (stock­age) – voir les sta­tis­tiques sur www.top500.org. Les sys­tèmes logi­ciels de ces machines sont adap­tés à l’administration de masse, à la ges­tion de ressources partagées par des cen­taines d’utilisateurs dis­tants, à la pro­gram­ma­tion par­al­lèle mas­sive des applications. 

Enfin, les équipes de sup­port et d’exploitation peu­vent regrouper des dizaines de spé­cial­istes de nom­breux sujets – une sorte d’analogue à une équipe tech­nique d’écurie de For­mule 1. 


Les équipes de sup­port et d’exploitation peu­vent regrouper des dizaines de spé­cial­istes de nom­breux sujets – une sorte d’analogue à une équipe tech­nique d’écurie de For­mule 1.

LE COMPLEXE DE CALCUL DU CEA :
TERA, TGCC, CCRT

À ce jour, le CEA exploite à Bruyères-le-Châtel dans l’Essonne deux des plus grands centres de calcul d’Europe, Tera, installation classifiée pour la défense, le TGCC, installation dédiée aux moyens et services pour la recherche et l’industrie – via 2 autres machines.
La conjonction sur un même site de 3 machines « pétaflopiques » exploitées par les mêmes équipes CEA sur ces 3 grands axes d’usage du HPC, formant ce complexe de calcul, est quasiment unique au monde ; il en résulte des économies d’échelle et un partage extrêmement vertueux des compétences au profit de toutes les catégories d’utilisateurs.
Le CCRT (partie industrie) en particulier est un montage très original de partage de machine avec plus de quinze industriels partenaires/utilisateurs. Voir www-hpc.cea.fr

DES CENTRES DE COMPÉTENCES PLURIDISCIPLINAIRES

Pen­chons-nous sur les ver­tus et voca­tions de ces infra­struc­tures de cal­cul et de traite­ment de don­nées. Ces infra­struc­tures sont privées (par exem­ple, pro­priété de grands indus­triels ou de groupe­ments d’intérêt), ou publiques (au ser­vice de la recherche publique) et de dif­férentes échelles, crois­santes : régionale, nationale, internationale. 

“ La France est ainsi l’un des rares pays à conserver une autonomie de développement de supercalculateurs ”

Les cen­tres de cal­cul sont plus ou moins général­istes (privés, ils seront sou­vent plus spé­cial­isés, mais des com­mu­nautés de recherche peu­vent dis­pos­er de cen­tres qui leur sont réservés, comme la fusion pour l’énergie).

Mais surtout, ce sont des cen­tres de com­pé­tences : à la fois sur les tech­nolo­gies en per­pétuelle évo­lu­tion, sur les méth­odes de développe­ment logi­ciel, sur le sup­port aux util­isa­teurs – en plus des mis­sions de base de bonne exploita­tion des machines et de ser­vices de base associés. 

UN PATRIMOINE À VALORISER

Cette notion de cen­tre de com­pé­tences est en fait cru­ciale, elle doit être une ambi­tion en soi. 

LA COURSE « À L’EXASCALE » À TRAVERS LE MONDE

USA, Japon sont les grandes nations historiques du HPC et de leurs technologies. La Chine s’y investit désormais avec une volonté et des moyens considérables, en quête de souveraineté et d’indépendance, voire de domination sur le secteur. Tous ont des programmes « exascale », soit mille fois le pétaflops atteint vers 2010, ambitieux, clairement cadrés aux niveaux gouvernementaux.
La Commission européenne est consciente de l’enjeu de la maîtrise du HPC comme fer de lance de nombreuses évolutions informatiques, et de l’importance du calcul intensif et traitement de données massives pour la compétitivité industrielle et scientifique. Un programme HPC global a donc été lancé au sein du programme cadre Horizon 2020.
La France est le seul pays européen à avoir son propre programme d’ambition globale – technologies + infrastructures + applications – qu’il est impératif de combiner et d’amplifier au mieux avec les efforts européens, afin d’atteindre une masse critique de moyens de R & D, de compétences, de marché.

Il s’agit de faire fruc­ti­fi­er le pat­ri­moine ines­timable de savoir-faire résul­tant de cette posi­tion priv­ilégiée d’observatoire glob­al : lieu de vie des grandes appli­ca­tions de cal­cul et traite­ment de don­nées, per­me­t­tant des opti­mi­sa­tions plus glob­ales et com­munes, des antic­i­pa­tions tech­nologiques plus mûries et au final de meilleurs ser­vices haute­ment partagés, invo­quant par­fois des com­pé­tences très pointues et rares en traite­ment de don­nées, admin­is­tra­tion de masse, algo­rith­mique avancée, etc. 

De plus, les grands cen­tres de cal­cul peu­vent avoir une rela­tion priv­ilégiée avec les grands four­nisseurs de tech­nolo­gie (com­posants ou sys­tèmes) : accès et test pré­co­ces pour mieux anticiper les évo­lu­tions ; voire con­cep­tion con­jointe des sys­tèmes de cal­cul futurs : le CEA fait cela depuis quinze ans avec Bull (Atos) avec le sou­tien d’un Plan d’investissement d’avenir.

La France est ain­si l’un des rares pays au monde à vouloir et pou­voir dévelop­per et con­serv­er une autonomie de développe­ment de supercalculateurs. 

COLOCALISER DONNÉES ET TRAITEMENT

La place crois­sante prise par la prob­lé­ma­tique des don­nées impose de penser une juste (co)localisation des cal­culs et des don­nées. On rap­proche aujourd’hui plus aisé­ment un cal­cul de l’entrepôt de don­nées que l’on ne déplace les pétaoctets. 

“ Le calcul haute performance n’est pas aisément soluble dans du cloud totalement banalisé ”

Les grands cal­culs pro­duisent sou­vent de grandes mass­es de don­nées locales ; à traiter, inter­préter, par­fois redis­tribuer au mieux ensuite par par­ties ; des grandes mass­es de don­nées d’origine quel­conque (cal­cul mais aus­si, de plus en plus, issues a pri­ori de cap­teurs, réseaux soci­aux, etc.) peu­vent béné­fici­er de la prox­im­ité de forte puis­sance de cal­cul afin de les traiter et exploiter. 

On observe notam­ment une forte et rapi­de évo­lu­tion des besoins d’analyse de don­nées (data ana­lyt­ics, machine learn­ing, deep learn­ing) dont cer­tains algo­rithmes pour­raient dépass­er les besoins en puis­sance de cal­cul de ceux de la sim­u­la­tion numérique – pas vouée à dis­paraître pour autant ! 

Les grandes infra­struc­tures de cal­cul sont donc bien des lieux priv­ilégiés où faire vivre et évoluer la rela­tion des grands cal­culs aux grandes mass­es de don­nées, par évo­lu­tion des archi­tec­tures et ser­vices offerts, sur la base de forte com­pé­tence his­torique de ges­tion de sys­tèmes et de ser­vices mutu­al­isés complexes. 

Vue de Chine qui investit dans les supercalculateurs
La Chine investit dans ce domaine avec une volon­té et des moyens con­sid­érables. © EYETRONIC

UN BESOIN DURABLE DE GRANDES INFRASTRUCTURES

Enfin, l’informatique en nuage (cloud) est perçue comme une ten­dance lourde pou­vant refor­muler poten­tielle­ment tous les usages de l’informatique.

TECHNOLOGIES ÉMERGENTES ET TECHNOLOGIES DE RUPTURE

Les recherches sont actives sur des voies alternatives aux circuits actuels (CMOS sur silicium) ou en rupture – ordinateur quantique, à ADN, neuromorphique, pour citer les principales voies. On ne voit aucune de ces dernières options à même d’émerger rapidement sur le marché et à un stade industriel, ni être « généralistes » dans leurs usages potentiels.
Il importe néanmoins de suivre ces technologies, d’anticiper leur futur impact et notamment de penser leur programmation et exploitation efficaces. Les grands centres de calcul ont un rôle privilégié à jouer ici, surtout lorsqu’ils sont adossés et naturellement liés à des organismes technologiques et communautés de recherche au meilleur niveau mondial.

Il s’agit en fait d’abord d’un mode d’accès à dis­tance, et d’organisation plus « vir­tu­al­isée » des ser­vices, que les grands cen­tres de cal­cul pra­tiquent déjà très couramment. 

Le cal­cul haute per­for­mance n’est pas aisé­ment sol­u­ble dans du cloud totale­ment banal­isé ; il requiert de toute façon les archi­tec­tures tech­nique­ment adap­tées décrites précédemment. 

Les ren­dre acces­si­bles en mode cloud, c’est surtout en aug­menter la sou­p­lesse d’accès (« élas­tic­ité », qui peut aus­si béné­fici­er à des util­isa­teurs plus occa­sion­nels on non insti­tu­tion­nels comme des PME ou des ETI). 

En con­clu­sion, cal­cul inten­sif et mass­es de don­nées ont tou­jours coex­isté en cal­cul sci­en­tifique. La crois­sance uni­verselle des mass­es de don­nées pro­duites et/ou traitées dans des domaines de plus en plus var­iés ne fait que ren­forcer la valeur des grandes infra­struc­tures de cal­cul capa­bles de traiter les prob­lèmes aux frontières. 

__________________________________
1. Péta = 1015, soit un mil­lion de mil­liards (~250).

NDLR : Qu’est-ce qu’un flop ?

Poster un commentaire