Une formation spécifique et pluridisciplinaire

Dossier : BIG DATAMagazine N°693 Mars 2014
Par Stéphane CLÉMENÇON

La demande de spé­cial­istes des big data sur le marché de l’emploi se struc­ture autour de trois pro­fils, archi­tecte de sys­tèmes big data , chief data offi­cer et data sci­en­tist.

REPÈRES

Les big data appellent de nouveaux profils sur le marché de l’emploi. Les offres relatives aux « métiers des données » affichent une hausse spectaculaire.
Ils appellent donc aussi de nouveaux programmes de formation, intégrant leurs multiples facettes et permettant d’acquérir une combinaison inédite de compétences : des connaissances et des savoir-faire techniques naturellement (informatique, mathématiques appliquées), une aptitude à anticiper les services et usages rendus possibles par les big data, mais aussi des connaissances juridiques relatives à la collecte, au stockage et à l’exploitation des données personnelles, tant le phénomène bouscule le concept de « vie privée » et fait aujourd’hui bouger les barrières légales.

L’architecte

Afin de con­cevoir un sys­tème d’information per­me­t­tant d’acquérir, de stock­er, de net­toy­er, de représen­ter et d’analyser des don­nées très volu­mineuses, d’une grande var­iété (matri­ces de nom­bres, séries tem­porelles, con­tenu mul­ti­mé­dia, graphes dynamiques décrivant l’évolution des réseaux soci­aux) en « temps réel », il con­vient d’assembler une mul­ti­tude de briques tech­nologiques (sys­tèmes de fichiers dis­tribués, par­al­léli­sa­tion massive).

Aucun frame­work ne per­met aujourd’hui à lui seul d’effectuer l’ensemble de ces tâch­es. L’architecte big data est celui qui saura con­stru­ire « sur mesure » un tel sys­tème, adap­té à l’activité de son entre­prise, et le pérenniser.

Le chef

De​s connaissances générales

Des connaissances générales relatives à ce que permet aujourd’hui le traitement des données, aux technologies à mettre en œuvre pour en réaliser l’acquisition et l’exploitation, aux dangers afférents (dépendance de certaines activités à l’égard des systèmes d’information, disparition de la vie privée) sont absolument indispensables à presque tous les cadres et décideur

Dans le but de cern­er les enjeux stratégiques asso­ciés à la créa­tion pos­si­ble de valeur à tra­vers les big data et de met­tre en place une organ­i­sa­tion adap­tée, la gou­ver­nance de cer­taines entre­pris­es doit être mod­i­fiée de façon à inté­gr­er un chief data offi­cer, dont la fonc­tion con­cilie tech­nolo­gie de l’information et busi­ness au sein du groupe.

Le chief data offi­cer perçoit l’impact éventuel des don­nées sur cha­cun des « métiers » de la société, et crée ain­si les con­di­tions de l’innovation et du big busi­ness à venir des big data.

Le savant

L’exploitation ana­ly­tique des don­nées n’est pas une activ­ité nou­velle. La ges­tion des risques (financiers, san­i­taires, opéra­tionnels, etc.), l’optimisation de proces­sus indus­triels (con­trôle de qual­ité, plan­i­fi­ca­tion), ou le mon­i­tor­ing de sys­tèmes com­plex­es, mobilisent depuis longtemps un cor­pus de con­nais­sances et un savoir-faire issus de dif­férentes branch­es des math­é­ma­tiques appliquées (prob­a­bil­ités et sta­tis­tique, opti­mi­sa­tion, analyse et cal­cul numériques), avec une util­i­sa­tion de solu­tions infor­ma­tiques très encadrées.

Assembler une multitude de briques technologiques

Mais les big data imposent un change­ment d’approche pro­fond. Jusqu’à présent, les don­nées étaient majori­taire­ment col­lec­tées en suiv­ant des plans d’expérience ou de sondage pré­cis et très coû­teux. La rareté de l’information quan­ti­ta­tive requérait des étapes de pré­traite­ment des don­nées con­sid­érables, lors desquelles l’expertise humaine jouait un rôle déter­mi­nant, dans la per­spec­tive d’élaborer des mod­èles sta­tis­tiques à voca­tion pré­dic­tive en particulier.

La com­plex­ité des don­nées disponibles aujourd’hui, leur dimen­sion explo­sive, la néces­sité d’automatiser le traite­ment en vue de sat­is­faire aux con­traintes du temps réel ont con­duit à l’essor du machine-learn­ing, la dis­ci­pline à l’interface des math­é­ma­tiques appliquées et de l’informatique, visant à pro­duire des algo­rithmes per­me­t­tant d’apprendre automa­tique­ment les don­nées des représen­ta­tions ou les mod­èles les plus performants.

Une filière française

François Bourdoncle (84) et Paul Hermelin (72) ont été nommés « chefs de file » de la filière big data française, les big data étant affichés comme l’une des sept priorités de la commission « Horizon 2030 » présidée par Anne Lauvergeon.
Une commission constituée par Serge Abiteboul est chargée de cerner et de quantifier les besoins dans le domaine de la formation de data scientists, afin de faire émerger un marché exportateur net et créateur d’emplois en France.

Avec la mise au point d’algorithmes très effi­caces dès le début des années 1990, l’intégration des con­traintes com­pu­ta­tion­nelles et le suc­cès com­mer­cial de solu­tions logi­cielles fondées sur ce type d’approche (pour la recon­nais­sance vocale ou de car­ac­tères man­u­scrits par exem­ple), le machine-learn­ing a pro­gres­sive­ment rem­placé la sta­tis­tique tra­di­tion­nelle dans de nom­breux domaines.

Ain­si, le data sci­en­tist n’est pas seule­ment un sta­tis­ti­cien mais un tech­ni­cien capa­ble de com­bin­er des com­pé­tences en math­é­ma­tiques, en infor­ma­tique et en droit, afin d’appréhender la chaîne de traite­ment des don­nées dans sa glob­al­ité, de l’acquisition des don­nées à la solu­tion ana­ly­tique, en pas­sant par les étapes de stock­age et de représentation.

Le temps où les ser­vices infor­ma­tiques de l’entreprise trans­met­taient un fichi­er « plat » au départe­ment en charge de la mod­éli­sa­tion puis se voy­aient ren­voy­er un mod­èle sta­tis­tique très parci­monieux encap­sulé dans une struc­ture spé­ci­fique et à recoder entière­ment pour la mise en pro­duc­tion est révolu à l’ère big data.

Nouveaux programmes d’enseignement

L’un des défis que pose le phénomène big data est la for­ma­tion de cadres et de tech­ni­ciens aux « métiers » évo­qués plus haut et plus générale­ment l’enseignement d’un cor­pus de con­nais­sances artic­u­lant sci­ences, busi­ness et droit requérant de s’affranchir des car­cans disciplinaires.

L’Institut pluridis­ci­plinaire pour la sci­ence et l’ingénierie des don­nées de l’université de Colum­bia pour­rait être un exem­ple à suiv­re. L’esquisse des futurs métiers des big data invite ain­si à réfléchir et à pro­pos­er de nou­veaux pro­grammes académiques pour les généra­tions à venir.

Une approche pluridisciplinaire

L’une des prin­ci­pales recom­man­da­tions de la com­mis­sion spé­cial­isée de la fil­ière française est de met­tre réelle­ment en œuvre l’aspect mul­ti­dis­ci­plinaire dans ce type de for­ma­tion, cou­vrant les trois domaines d’expertise : infor­ma­tique, math­é­ma­tiques appliquées et con­nais­sances des métiers.

Combiner des compétences en mathématiques, en informatique et en droit

Au-delà des cours décrivant con­cepts et tech­niques, ce type de for­ma­tion devra inclure des pro­jets « en vraie grandeur », afin de se con­fron­ter aux dif­férentes facettes de la « sci­ence des don­nées », éventuelle­ment encadrés par des pro­fes­sion­nels et requérant l’usage de briques tech­nologiques de l’état de l’art pour le tra­vail expérimental.

La pluridis­ci­pli­nar­ité n’interdit pas toute dif­féren­ci­a­tion, l’un des domaines d’expertise pour­ra être la dom­i­nante de tel ou tel pro­gramme de for­ma­tion mais il sem­ble souhaitable qu’elle n’intervienne que tar­di­ve­ment dans le cursus.

Agir rapidement

Plusieurs pistes sont envis­agées pour répon­dre rapi­de­ment aux besoins iden­ti­fiés, en par­ti­c­uli­er le développe­ment de for­ma­tion à dis­tance ou en ligne, per­me­t­tant à des pro­fes­sion­nels en sit­u­a­tion d’emploi de mon­ter en com­pé­tences ; l’élaboration d’un cur­ricu­lum de référence en data sci­ence et d’un label afférent ; le développe­ment de for­ma­tions ciblées ; une évo­lu­tion des for­ma­tions actuelles, avec le con­cours éventuel de pro­fes­sion­nels per­me­t­tant aux étu­di­ants de se con­fron­ter aux défis industriels.

Une large mobilisation

Met­tre en œuvre ces ori­en­ta­tions requiert une large mobil­i­sa­tion des étab­lisse­ments d’enseignement supérieur mais aus­si des entre­pris­es, les invi­tant à con­stituer un réseau inédit, per­me­t­tant de partager des ressources et des expériences.

Poster un commentaire