Enfants jouant et courant

La révolution de l’apprentissage machine autonome

Dossier : L'intelligence artificielleMagazine N°733 Mars 2018
Par Édouard GEOFFROIS

L’in­tel­li­gence arti­fi­cielle a bien pro­gressé grâce au deep learn­ing qui per­met un appren­tis­sage autonome dans les cas sim­ples. Les per­for­mances restent en deçà des attentes dans les cas plus com­plex­es où il faut impli­quer le con­cep­teur du sys­tème pour opti­miser le proces­sus. La prochaine étape est de don­ner les moyens à l’u­til­isa­teur de con­trôler l’ap­pren­tis­sage de la machine. 

L’intel­li­gence arti­fi­cielle a con­nu des pro­grès con­ti­nus depuis des décen­nies. Ces pro­grès s’appuient sur des tech­niques d’apprentissage automa­tique élaborées, notam­ment celles qual­i­fiées d’apprentissage pro­fond ou deep learn­ing, qui per­me­t­tent d’exploiter des quan­tités de don­nées disponibles sans cesse croissantes. 

Ils béné­fi­cient égale­ment de l’organisation d’expérimentations coor­don­nées qui per­me­t­tent de com­par­er dif­férentes approches et de guider les développements. 

L’ÉVALUATION DES SYSTÈMES INTELLIGENTS

À l’instar des examens d’étudiants, l’évaluation des systèmes intelligents suppose d’organiser des tests communs dont le sujet général est convenu au préalable, mais dont le contenu exact n’est communiqué qu’au dernier moment.
L’organisation de ce type de tests au service de la communauté scientifique et technologique est un facteur de progrès essentiel dans le domaine.

Ces pro­grès ont déjà con­duit à de mul­ti­ples appli­ca­tions con­crètes, dont cer­taines d’usage courant. La détec­tion de vis­age est inté­grée dans la plu­part des appareils pho­tos, la tra­duc­tion automa­tique en ligne rend des ser­vices indé­ni­ables et par­ler à une machine n’étonne plus grand monde. 

Dans le cas par­ti­c­uli­er des jeux, où les règles définis­sent des univers facile­ment acces­si­bles à la machine et où l’affrontement entre joueurs se prête bien à la mise en scène, les avancées ont été spectaculaires. 

Ain­si, les suc­cès médi­atisés de Deep Blue con­tre Kas­parov aux échecs en 1997 et de Wat­son con­tre les cham­pi­ons du jeu télévisé « Jeop­ardy ! » en 2011 ont frap­pé les esprits. Celui d’AlphaGo con­tre Lee Sedol au jeu de go en 2016 a même con­tribué à remet­tre en avant le terme d’intelligence artificielle. 

Pour autant, dans bien des domaines, les per­for­mances restent en deçà des attentes. Même des prob­lèmes apparem­ment sim­ples, du moins pour un être humain, sont loin d’être réso­lus. Par exem­ple, les robots sont encore inca­pables de se déplac­er dans un envi­ron­nement naturel comme le fait un enfant. 

Et pour repren­dre les exem­ples précé­dents de tech­nolo­gies pour­tant déjà déployées, la détec­tion automa­tique de vis­age est loin d’être infail­li­ble et les erreurs de tra­duc­tion automa­tique ou des inter­faces vocales sont par­fois cocasses. 

REPÈRES

En 2017, le logiciel AlphaGo Zero a atteint un niveau inédit au jeu de go sans autre donnée que les règles du jeu, simplement en jouant avec lui-même, grâce à de nouvelles techniques d’apprentissage.

UN BESOIN D’AUTONOMIE AU SERVICE DES UTILISATEURS

En par­ti­c­uli­er, les util­isa­teurs non experts n’ont actuelle­ment pas les moyens de faire pro­gress­er eux-mêmes les sys­tèmes, ou alors de manière très limitée. 

Par exem­ple si un robot ne recon­naît pas un objet ou un mot don­né, il est ten­tant de vouloir lui expli­quer directe­ment, mais en pra­tique, quand on souhaite une telle adap­ta­tion à un besoin par­ti­c­uli­er, il faut impli­quer le con­cep­teur du sys­tème et atten­dre qu’il en pro­duise une nou­velle version. 

Cela empêche que l’adaptation soit instan­ta­née, voire qu’elle ait sim­ple­ment lieu, et plus générale­ment crée une sit­u­a­tion de dépendance. 


Les robots sont encore inca­pables de se déplac­er dans un envi­ron­nement naturel comme le fait un enfant © ROBERT KNESCHKE

Cette lim­i­ta­tion est liée au fait qu’avec les tech­niques actuelles, l’apprentissage dit automa­tique ne l’est en fait pas complètement. 

En pra­tique, la per­for­mance des sys­tèmes dépend non seule­ment des don­nées util­isées pour l’apprentissage automa­tique mais aus­si de choix de con­cep­tion et de paramètres qui sont opti­misés de manière heuristique. 

Cette opti­mi­sa­tion reste ain­si un art, qui sup­pose une grande expéri­ence, et le sim­ple fait d’ajouter des don­nées n’est pas une garantie absolue d’amélioration, d’autant plus que ces don­nées peu­vent être de qual­ité variable. 

Les déboires de l’agent con­ver­sa­tion­nel Tay de Microsoft, qu’un petit groupe d’utilisateurs a pu influ­encer pour lui faire tenir des pro­pos répréhen­si­bles, illus­trent bien le risque de dérive qu’il peut y avoir à inté­gr­er des don­nées sup­plé­men­taires sans revalid­er le système. 

Il y a donc un besoin de capac­ités d’apprentissage autonome par rap­port au con­cep­teur du sys­tème. Il ne s’agit pas de sup­primer tout appren­tis­sage ini­tial effec­tué sous son con­trôle, mais de per­me­t­tre au sys­tème de con­tin­uer à s’améliorer au-delà. 

Il ne s’agit pas non plus d’exclure toute super­vi­sion humaine lors de cet appren­tis­sage com­plé­men­taire, mais de faire en sorte qu’elle ne requière pas d’expertise par­ti­c­ulière en intel­li­gence artificielle. 

Au con­traire, une super­vi­sion par l’utilisateur est même bien­v­enue dans de nom­breuses appli­ca­tions, dans la mesure où l’effort asso­cié reste raisonnable. 

L’ÉMERGENCE DE L’APPRENTISSAGE AUTONOME

L’idée n’est pas nou­velle. Elle est même intu­itive, puisqu’elle cor­re­spond à notre pro­pre mode de pen­sée, et l’article fon­da­teur d’Alan Tur­ing sur l’intelligence arti­fi­cielle présen­tait déjà l’apprentissage machine sous cet angle en 1950. 

QUELLE ÉVALUATION DE L’APPRENTISSAGE AUTONOME ?

Dans le cas particulier où on peut figer des données d’apprentissage, la capacité d’un système à apprendre de manière autonome peut être évaluée objectivement en effectuant l’apprentissage en amont d’un test classique et en mesurant si le système en a profité pour s’améliorer.
Dans le cas général, où l’apprentissage dépend du comportement du système et ne peut donc être figé, il faut recourir à des protocoles plus élaborés. On peut par exemple demander au système de résoudre un ensemble de problèmes plus ou moins liés en ayant la possibilité d’obtenir la solution de certains d’entre eux.
On mesure alors le niveau de supervision nécessaire pour résoudre l’ensemble des problèmes, qui est un indicateur de la capacité du système à apprendre d’une solution pour résoudre un autre problème.

Mais elle n’est pas évi­dente à met­tre en œuvre, d’autant plus que jusqu’à récem­ment elle n’était pas claire­ment for­mal­isée, et en pra­tique les efforts se sont focal­isés sur l’exploitation de mass­es de don­nées au détri­ment de l’automatisation com­plète du proces­sus d’apprentissage.

Néan­moins, les solu­tions pour répon­dre à ce besoin sont en train d’émerger. Dans le cas par­ti­c­uli­er des jeux, une per­cée impres­sion­nante a déjà été obtenue avec la mise au point d’AlphaGo Zero, qui a dépassé en peu de temps tous les autres logi­ciels de jeu de go sans aucune don­née autre que les règles du jeu, en jouant sim­ple­ment avec lui-même. 

Dans le cas général, les tech­niques néces­saires sont pour l’essentiel disponibles mais néces­si­tent encore d’être inté­grées et opti­misées. Pour cela, il est impor­tant de bien définir l’objectif visé au tra­vers de pro­to­coles d’évaluation rigoureux. Or, de tels pro­to­coles ont été pro­posés récem­ment (voir encadré) et de pre­mières cam­pagnes d’expérimentations coor­don­nées sont en pré­pa­ra­tion dans le cadre de pro­jets soutenus par le pro­gramme de recherche européen CHIST-ERA. 

L’expérience mon­tre que de telles cam­pagnes jouent un rôle de catal­y­seur et per­me­t­tent des pro­grès cumu­lat­ifs. Les con­di­tions sont donc aujourd’hui réu­nies pour une accéléra­tion des pro­grès et on peut s’attendre à ce que les capac­ités d’apprentissage autonome devi­en­nent courantes dans les années à venir. 

UNE ÉVOLUTION AUX CONSÉQUENCES MAJEURES

Ces nou­velles capac­ités per­me­t­tront non seule­ment une adap­ta­tion plus facile et immé­di­ate aux besoins de l’utilisateur, mais aus­si de le faire locale­ment et donc d’offrir des solu­tions plus respectueuses de la vie privée et de la con­fi­den­tial­ité des données. 

machine joueuse de go
La machine bat désor­mais les meilleurs joueurs de go. © SERGEY

On peut ain­si imag­in­er des objets con­nec­tés intel­li­gents qui ne com­mu­niquent à l’extérieur que le strict néces­saire, tout en évolu­ant avec leurs util­isa­teurs. De plus, chaque sys­tème pou­vant ain­si évoluer selon un par­cours qui lui est pro­pre, on assis­tera à une indi­vid­u­al­i­sa­tion de ces sys­tèmes alors qu’ils sont aujourd’hui très standardisés. 

Une con­séquence plus indi­recte est liée au fait qu’à par­tir du moment où une adap­ta­tion par un tiers autre que le con­cep­teur est pos­si­ble, cette adap­ta­tion peut se faire en cas­cade. Cela con­duit à une organ­i­sa­tion de la fil­ière de l’intelligence arti­fi­cielle plus diver­si­fiée qu’aujourd’hui, avec l’apparition d’un nou­veau méti­er qui con­siste à sélec­tion­ner et adapter des sys­tèmes intel­li­gents pour répon­dre au mieux aux besoins d’utilisateurs tiers. 

Cer­tains par­lent déjà de coach pour robots. Et comme il ne sera plus néces­saire de cen­tralis­er les don­nées pour obtenir des per­for­mances opti­males, l’organisation de cette fil­ière sera aus­si plus décen­tral­isée, ce qui peut con­duire à une con­cur­rence économique plus équili­brée qu’aujourd’hui.

Cette évo­lu­tion crée ain­si de nou­velles oppor­tu­nités, mais pose aus­si de nou­veaux défis. En don­nant plus de con­trôle aux util­isa­teurs, elle leur donne aus­si de nou­velles respon­s­abil­ités. En con­duisant à une bien plus grande var­iété de sys­tèmes, elle rend les risques de dérive plus var­iés, même s’ils seront plus locaux. 

Pour résumer, en démoc­ra­ti­sant le con­trôle, elle le complexifie. 

“ Une organisation de la filière de l’intelligence artificielle plus diversifiée et décentralisée qu’aujourd’hui ”

Il fau­dra prévenir, détecter et cor­riger les dérives non seule­ment lors de la con­cep­tion des sys­tèmes, mais aus­si de leur for­ma­tion et de leur édu­ca­tion. Les solu­tions sont à la fois tech­niques et organ­i­sa­tion­nelles. La mise en place d’un cadre de con­fi­ance impli­quant un large spec­tre d’acteurs est prob­a­ble­ment néces­saire, en s’appuyant sur les réflex­ions déjà engagées sur les ques­tions d’éthique en intel­li­gence artificielle. 

En résumé, après l’apprentissage automa­tique, qui est au cœur des pro­grès de ces dernières décen­nies mais n’est en pra­tique pas si automa­tisé que le terme peut le laiss­er croire, l’arrivée de l’apprentissage autonome va prob­a­ble­ment représen­ter une rup­ture majeure pour l’intelligence artificielle. 

Ces nou­velles capac­ités vont démoc­ra­tis­er l’apprentissage machine en don­nant plus de con­trôle aux util­isa­teurs, décen­tralis­er l’organisation de la fil­ière, l’enrichir de nou­veaux types d’acteurs, et démul­ti­pli­er les possibilités. 

C’est une révo­lu­tion qui s’annonce. Il faut l’anticiper pour en tir­er le meilleur par­ti tout en en maîtrisant les risques.
 

POUR ALLER PLUS LOIN :

  • Alan M. Turing, « Computing Machinery and Intelligence », Mind, vol. 59, p. 433–460, 1950.
  • Rodney Douglas and Terry Sejnowski, NSF Workshop on « Future Challenges for the Science and Engineering of Learning », Arlington, Virginia, July 23–25, 2007.
  • Édouard Geoffrois, « Evaluating Interactive System Adaptation », Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC), 2016.
  • David Silver et al., « Mastering the game of Go without human knowledge », Nature, vol. 550, p. 354–359, 2017.

Poster un commentaire