Conférence « Les mathématiques pour changer le Monde », mars 2018, Lê Nguyên Hoang (X07) / EPFL, science4all.

Mystères mathématiques des réseaux de neurones et enseignement

Dossier : MathématiquesMagazine N°782 Février 2023
Par Stéphane MALLAT (X81)

Les réseaux de neu­rones arti­fi­ciels don­nent des résul­tats spec­tac­u­laires, sans que l’on maîtrise les pro­priétés math­é­ma­tiques de l’apprentissage et de la général­i­sa­tion. Analyser des don­nées de grandes tailles pose des ques­tions math­é­ma­tiques dif­fi­ciles, dues à la « malé­dic­tion de la grande dimen­sion ». Résoudre ces prob­lèmes est néces­saire pour garan­tir la pré­ci­sion et la robustesse des appli­ca­tions, or on assiste à une désaf­fec­tion des math­é­ma­tiques en France. Pro­mou­voir l’enseignement des math­é­ma­tiques est aujourd’hui un enjeu de com­péti­tiv­ité internationale.

Les per­for­mances spec­tac­u­laires des réseaux de neu­rones pro­fonds sont une grande sur­prise. Per­son­ne n’imaginait en 2010 que cinq ans plus tard des algo­rithmes pour­raient recon­naître des vis­ages mieux que des humains, syn­thé­tis­er et recon­naître la parole comme le fait un télé­phone, et dix ans plus tard génér­er des textes com­plex­es, des tra­duc­tions, dia­loguer, pro­gram­mer, syn­thé­tis­er des images… En sci­ences, cela touche presque tous les domaines, pour prédire l’énergie de molécules en chimie quan­tique aus­si bien que pour cal­culer la con­fig­u­ra­tion géométrique de pro­téines, à par­tir d’exemples. 

Comprendre les mathématiques des réseaux de neurones

Ces résul­tats sont d’autant plus remar­quables que les mêmes types d’architectures de cal­cul sont capa­bles de résoudre des prob­lèmes pour­tant très dif­férents. Cela sug­gère qu’il y a des principes math­é­ma­tiques génériques der­rière ces prob­lèmes, dont la struc­ture est cap­turée par ces réseaux de neu­rones. Or, ces principes, on les com­prend très mal. On par­le sou­vent de boîtes noires. C’est à la fois frus­trant et une oppor­tu­nité for­mi­da­ble pour le développe­ment de nou­velles mathématiques.

Au-delà de l’enjeu intel­lectuel, com­pren­dre les mathé­matiques de ces réseaux est impor­tant pour garan­tir la pré­ci­sion et la robustesse des résul­tats obtenus, ce qui n’est pas nég­lige­able lorsqu’il s’agit de con­duire une voiture ou de faire un diag­nos­tic médi­cal. On veut aus­si appren­dre avec moins de don­nées, avec des algo­rithmes plus effi­caces et donc moins éner­gi­vores. Que les math­é­ma­tiques soient en retard vis-à-vis de l’expéri­mentation n’a rien d’extraordinaire. C’est le plus sou­vent le cas en sci­ences, hormis quelques excep­tions comme la géométrie rie­man­ni­enne pour la rel­a­tiv­ité générale. Ici le retard est grand et le fos­sé s’est creusé au cours des dernières années. Je vais expli­quer pourquoi ce prob­lème est à la fois sim­ple à décrire et dif­fi­cile à résoudre. Ce sera ensuite l’occasion de faire un point rapi­de sur quelques enjeux de l’enseignement des math­é­ma­tiques, en lien avec le traite­ment de don­nées. 

Le problème de l’apprentissage

En appren­tis­sage sta­tis­tique, on veut appren­dre à prédire la réponse y à une ques­tion, à par­tir d’un tableau de don­nées x, en util­isant des exem­ples de don­nées x’ pour lesquels on con­naît la réponse y’. Ain­si x peut être une image d’animal et y le nom de l’animal qui appa­raît dans l’image. Appren­dre, cela veut dire con­fig­ur­er les paramètres d’un algo­rithme afin qu’il prédise y en fonc­tion de x, en ne se trompant presque pas sur les exem­ples d’entraînement. On espère que ces per­for­mances se généralisent. Cela sig­ni­fie que, si l’on prend des nou­velles don­nées x de même nature, une nou­velle image d’animal, alors l’algorithme trou­vera le plus sou­vent la bonne réponse y du nom de l’animal.

Un réseau de neu­rones est un algo­rithme d’apprentissage, dont les paramètres sont des « poids » mul­ti­pli­cat­ifs qui trans­for­ment suc­ces­sive­ment les don­nées. Il peut y en avoir des mil­liards dans les réseaux de grande taille. Un prob­lème d’apprentissage peut être vu comme un prob­lème d’interpolation du graphe de la fonc­tion y = f(x), à par­tir des valeurs y’ = f(x’) que l’on con­naît pour quelques x’. Si x n’a qu’une coor­don­née, par exem­ple l’âge d’un enfant, on peut approx­imer sa taille = f(x) à n’importe quel âge x, en traçant une courbe régulière qui passe par quelques mesures de taille y’ à des âges x’ dif­férents. Si ces mesures ont été faites suff­isam­ment sou­vent, on obtien­dra une bonne approx­i­ma­tion. Rien de com­pliqué. 

Malédiction de la grande dimension

La dif­fi­culté cachée vient de la « malé­dic­tion de la grande dimen­sion ». Une image est un tableau x d’environ 1 mil­lion de pix­els, qui peu­vent cha­cun vari­er de 0 (noir) à 1 (blanc). Il faut donc approx­imer y = f(x) dans un espace où x est dans un cube ayant 1 mil­lion de dimen­sions. Si la dimen­sion du cube est D, pour s’assurer que les exem­ples ne sont pas trop loin les uns des autres, par exem­ple à une dis­tance 1/10, alors il faut de l’ordre de 10D exem­ples. C’est bien plus qu’astro­nomique. Si D = 80, alors 10D est déjà plus grand que le nom­bre total d’atomes dans l’univers, or ici D est plutôt de l’ordre de 1 million.

En général on n’a donc pas suff­isam­ment d’exemples pour approx­imer pré­cisé­ment y = f(x). À moins que x ne se balade pas n’importe où dans tout l’espace de grande dimen­sion, ou que f(x) soit une fonc­tion extrême­ment régulière. Com­pren­dre ces deux aspects est au cœur des ques­tions math­é­ma­tiques de l’apprentissage et nous plonge dans le monde de l’analyse, de la géométrie, des prob­a­bilistes et des sta­tis­tiques. De telles ques­tions ont d’abord été soulevées en physique, dans un con­texte très dif­férent. 

Information et physique statistique

La physique doit faire face à cette malé­dic­tion de la grande dimen­sion, pour car­ac­téris­er les pro­priétés de quelques grammes de matière qui con­tient typ­ique­ment plus de 1023 atom­es, dont les con­fig­u­ra­tions vari­ent en per­ma­nence. Les travaux de Boltz­mann ont fait émerg­er les lois de la physique des flu­ides grâce aux pro­priétés sta­tis­tiques obtenues en agrégeant les pro­priétés d’un grand nom­bre de par­tic­ules micro­scopiques. Les fron­tières entre physique, mécanique et chimie sont dev­enues beau­coup plus floues. Les dif­férentes sous-dis­ci­plines de la physique se sont plutôt réor­gan­isées suiv­ant les échelles des phénomènes : du macro­scopique à l’échelle des atom­es jusqu’à l’échelle des par­tic­ules dites élé­men­taires. 

“Les frontières entre physique, mécanique et chimie sont devenues beaucoup plus floues.”

On assiste à une révo­lu­tion sim­i­laire pour le traite­ment de l’information. On pen­sait que des domaines tels que la per­cep­tion visuelle, audi­tive, la com­préhen­sion du lan­gage, la pré­dic­tion des états d’un sys­tème physique devaient être étudiés séparé­ment pour com­pren­dre leurs pro­priétés spé­ci­fiques. Les réseaux de neu­rones ont mon­tré que ce n’est pas le cas, puisque des archi­tec­tures sim­i­laires, entraînées sur des exem­ples, peu­vent approx­imer ces phénomènes différents.

Chaque point d’une image peut être assim­ilé à un atome dont les valeurs dépen­dent des valeurs de ses voisins proches, ou plus éloignés suiv­ant le type d’images. En apprenant les poids d’un réseau de neu­rones, on apprend des cou­plages entre ces pix­els, à tra­vers les dif­férentes couch­es du réseau. Cela agrège l’information sur des domaines de plus en plus larges, jusqu’à attein­dre l’échelle macro­scopique de l’image, où l’on peut recon­naître l’animal. Cela est bien plus qu’une analo­gie avec la physique sta­tis­tique, car on retrou­ve les mêmes ques­tions math­é­ma­tiques. Quelles dis­tri­b­u­tions de prob­a­bil­ités ? Com­ment expli­quer les phénomènes de con­cen­tra­tion sta­tis­tiques et de grandes dévi­a­tions ? Le voy­age à tra­vers les échelles est étudié en analyse math­é­ma­tique par la trans­for­mée de Fouri­er et les bases d’ondelettes, mais cela met aus­si en jeu d’autres domaines des math­é­ma­tiques. 

Comprendre la nature des interactions

Pour com­pren­dre la nature des inter­ac­tions, en physique on recherche les symétries du sys­tème. Ce sont elles qui vont définir les forces et les équa­tions d’évolutions. De même en traite­ment de don­nées, on peut se deman­der quels types de trans­for­ma­tion ne vont pas mod­i­fi­er la classe y d’une image. Par exem­ple, si un ani­mal bouge dans l’image, cela reste le même ani­mal y. On a donc une invari­ance par trans­la­tion. Les trans­la­tions sont un exem­ple de groupe d’invariants, mais il y en a bien d’autres. Il sem­blerait que les réseaux soient capa­bles d’apprendre ces invari­ants qui jouent un rôle important.

Quels groupes et com­ment sont-ils appris ? Peut-on vrai­ment par­ler de mod­èles prob­a­bilistes quand il s’agit de struc­tures aus­si con­traintes que des images de vis­age, ou s’agit-il plutôt de mémori­sa­tion ? Cette ques­tion n’a pas de réponse sim­ple, prob­a­ble­ment les deux. Un réseau de neu­rones est capa­ble de mémoris­er beau­coup de don­nées, et cela joue un rôle impor­tant pour ses capac­ités de général­i­sa­tion. Pour­tant aucune mémoire n’est ajoutée séparé­ment à l’architecture de cal­cul. Elle se cache dans les poids des réseaux, de façon délo­cal­isée, ce qui lui donne aus­si une forme de robustesse, mais cette mémoire reste mal définie. 

“Aucune mémoire n’est ajoutée séparément à l’architecture de calcul.”

Enfin, der­rière la per­for­mance des réseaux de neu­rones appa­rais­sent aus­si des prob­lèmes d’optimisation, pour ajuster les paramètres aux don­nées d’entraînement. L’algorithme util­isé est le plus sim­ple : la descente de gra­di­ent. Pour min­imiser l’erreur de pré­dic­tion sur les exem­ples d’entraînement, à chaque itéra­tion on suit la direc­tion de la plus grande pente. Si l’erreur est une fonc­tion con­vexe des paramètres, comme un bol de café, alors on arrivera au fond du bol, qui min­imise l’erreur. Cepen­dant, cette hypothèse de con­vex­ité n’est pas du tout véri­fiée par les réseaux de neu­rones. La descente devrait être blo­quée dans des min­i­ma locaux et ne pas trou­ver de bonnes solu­tions. Et pour­tant cela marche ! Un mys­tère de plus. 

Fuite des cerveaux

Le sujet est pas­sion­nant, les enjeux sont fon­da­men­taux pour les math­é­ma­tiques et les appli­ca­tions. Cepen­dant, abor­der ce sujet n’est pas tou­jours facile, car cela néces­site à la fois d’effectuer des expéri­men­ta­tions numériques de grande taille pour com­pren­dre les phénomènes sous-jacents, tout en con­stru­isant des mod­èles math­é­ma­tiques sophis­tiqués. De fait, la com­mu­nauté math­é­ma­tique s’est mise au tra­vail, mais en France on manque de bras. Beau­coup de math­é­mati­ci­ennes et math­é­mati­ciens de haut niveau sont aspirés hors des uni­ver­sités et insti­tuts de recherche français. À l’étranger, ce sont les uni­ver­sités améri­caines et suiss­es qui attirent de nom­breux jeunes, avec des salaires qua­tre fois supérieurs. 

En France, ce sont les lab­o­ra­toires de recherche des Gafam qui attirent le plus, avec un salaire dix fois supérieur et de très bonnes con­di­tions de tra­vail. Il est main­tenant clair pour les entre­pris­es qu’avancer les math­é­ma­tiques de ce domaine est por­teur d’innovations pro­fondes, qui sont impor­tantes pour leur com­péti­tiv­ité. Pour des jeunes math­é­mati­ciens, il est dif­fi­cile de ne pas suc­comber à ces offres. On peut le regret­ter, mais on peut aus­si se réjouir que les math­é­ma­tiques soient dev­enues aus­si impor­tantes pour les développe­ments sci­en­tifiques, l’industrie et les ser­vices. 

Enseigner les mathématiques… 

Alors com­ment faire face ? On peut rêver que le ser­vice pub­lic aug­mente les salaires de ses math­é­mati­ciens et devi­enne com­péti­tif, mais j’ai, hélas, quelques doutes dans la con­jec­ture actuelle. Une autre solu­tion est de for­mer, for­mer et for­mer tou­jours plus de jeunes pour assur­er tous les besoins et pour qu’ils prof­i­tent de ces per­spec­tives. Et là les nou­velles ne sont pas bonnes. Mal­gré les besoins crois­sants en math­é­ma­tiques de haut niveau, on assiste à une baisse dra­ma­tique du nom­bre de jeunes attirés par les math­é­ma­tiques au lycée. Les caus­es sont con­nues et ont été longue­ment analysées : réforme, for­ma­tion, con­di­tions de tra­vail des pro­fesseurs, salaires… Je ne reviendrai pas là-dessus. Il s’agit plutôt de se deman­der ce que l’on peut faire pour attir­er plus de jeunes vers les math­é­ma­tiques. 

… aussi par l’expérience

L’enseignement et les exer­ci­ces de math­é­ma­tiques con­sis­tent le plus sou­vent à trou­ver la réponse à une ques­tion prédéfinie. Ne pas trou­ver, autrement dit séch­er, est pour beau­coup une expéri­ence stres­sante. Sim­pli­fi­er les exer­ci­ces pour s’adapter au niveau des élèves n’est pas tou­jours facile. Cela peut devenir des appli­ca­tions de règles de cal­cul, qui per­dent leur sens et leur intérêt. Beau­coup d’élèves se deman­dent « à quoi ça sert ». Faire trop de solfège avant de jouer de son instru­ment peut vite dégoûter de la musique. Réduire la dif­fi­culté des exer­ci­ces de solfège n’est pas une solution.

Faire com­pren­dre le sens der­rière le solfège math­é­ma­tique est facil­ité par un lien avec les appli­ca­tions, qui sont une source pri­mor­diale de créa­tiv­ité math­é­ma­tique. Cepen­dant, intro­duire des appli­ca­tions peut être lourd, surtout s’il s’agit de prob­lèmes qui vien­nent d’autres sci­ences comme la physique ou la biolo­gie. De ce point de vue, l’analyse de don­nées est une chance. Cela ouvre la pos­si­bil­ité d’expérimenter sur des ques­tions impor­tantes et com­préhen­si­bles, comme un diag­nos­tic médical.

On peut chercher une procé­dure très sim­ple, pour analyser des don­nées, qui éventuelle­ment fonc­tion­nera très mal. Se deman­der pourquoi cela ne fonc­tionne pas, et com­ment l’améliorer, c’est le début d’une réflex­ion math­é­ma­tique. On com­mence par se pos­er des ques­tions pour mieux com­pren­dre des out­ils d’abstraction. Ces ques­tions relient naturelle­ment l’informatique, les prob­a­bil­ités, les sta­tis­tiques, l’analyse, l’algèbre et la géométrie, à des niveaux qui peu­vent rester élé­men­taires. 

Des initiatives

Dans le cadre d’une ini­tia­tive du Col­lège de France « Agir pour l’éducation », nous essayons de dévelop­per pro­gres­sive­ment ce chemin d’accès aux math­é­ma­tiques par l’analyse de don­nées. Cela se fait par la mise à dis­po­si­tion de chal­lenges de don­nées, de con­tenus péd­a­gogiques et d’outils infor­ma­tiques pour les pro­fesseurs et leurs élèves. Nous avons com­mencé avec des élèves d’université sur des prob­lèmes réels soumis par des entre­pris­es des ser­vices publiques ou des lab­o­ra­toires de recherche, avec plus de 10 000 par­tic­i­pants sur le site web challengedata.ens.fr. La plate­­forme Math­A­Da­ta étend ces chal­lenges pour les élèves de lycées au niveau nation­al, afin d’encourager l’enseignement des math­é­ma­tiques en lien avec des appli­ca­tions dont les enjeux sont réels. Une ini­tia­tive de plus dans la jun­gle des idées pour l’enseignement des maths ? Peut-être, mais cela vaut le coup d’essayer.

“L’industrie doit aussi se sentir concernée.”

L’intelligence arti­fi­cielle fascine beau­coup de jeunes et l’analyse de don­nées a besoin de plus de math­é­mati­ci­ennes et de math­é­mati­ciens. L’enseignement des math­é­ma­tiques est sous-financé, alors que l’industrie et les ser­vices d’analyse de don­nées sont en pleine crois­sance. Il est impor­tant de com­pren­dre com­ment utilis­er ces nou­veaux débouchés pour attir­er plus de jeunes vers la pra­tique et les études de math­é­ma­tiques fon­da­men­tales ou appliquées. L’industrie doit aus­si se sen­tir con­cernée par ces ques­tions d’enseignement et leurs finance­ments, qui sont impor­tantes pour son avenir.

Poster un commentaire