Comment améliorer la netteté d'une image

Vision artificielle, entretien avec un chercheur

Dossier : L'intelligence artificielleMagazine N°733 Mars 2018
Par Jean PONCE

La vision arti­fi­cielle a été une des pre­mières appli­ca­tions de l’in­tel­li­gence arti­fi­cielle et s’est con­sid­érable­ment dévelop­pée au fil des ans, avec en 2012, un bond de per­for­mance per­mis par l’utilisation de réseaux de neu­rones. Il ne s’ag­it pas sim­ple­ment de voir, mais de recon­naître les formes et de définir les objets fig­u­rants sur l’image. 

Pouvez-vous nous présenter vos travaux en lien avec l’intelligence artificielle ?

Le but de la vision arti­fi­cielle est d’interpréter automa­tique­ment une image (que ce soit une pho­to, une vidéo ou une image de pro­fondeur obtenue grâce à des cap­teurs spé­cial­isés) en dévelop­pant des mod­èles dont l’apprentissage néces­site le moins de super­vi­sion possible. 

En effet, c’est le tra­vail d’étiquetage des don­nées qui est le plus coû­teux, et plus la machine est autonome dans sa recon­nais­sance et son inter­pré­ta­tion d’images, meilleur est le modèle. 

Il s’agit donc (entre autres) d’essayer de com­pren­dre les con­nex­ions et les struc­tures implicites entre des images : qu’est-ce qui fait qu’au-delà de la diver­sité entre les tailles, réso­lu­tions, fonds de l’image, etc., on peut regrouper l’ensemble des images de castors ? 

REPÈRES

Dans le département informatique de l’ENS que dirigeait Jean Ponce jusqu’en septembre 2017, il y a une dizaine d’équipes dont certaines qui travaillent sur des sujets d’intelligence artificielle :
l’équipe de Francis Bach qui fait de l’apprentissage statistique,
celle de Stéphane Mallat qui s’occupe d’analyse et de classification des données ainsi que de deep learning
et la sienne spécialisée dans la vision artificielle, ce qui permet d’échanger sur les différents sous-domaines de l’IA.

Y a‑t-il eu des progrès continus en vision artificielle ?
Quels sont les espoirs pour cette discipline dans les années à venir et les obstacles sur lesquels vous butez ?

Il y a eu en effet des pro­grès con­ti­nus en vision arti­fi­cielle, con­traire­ment à d’autres champs de l’intelligence arti­fi­cielle qui ont con­nu des phas­es d’accélération puis de ralentissement. 

Depuis la fin des années 1990, de gros pro­grès ont été accom­plis en recon­nais­sance visuelle (notam­ment par Cordelia Schmid et son équipe à Greno­ble) : celle-ci ne se lim­ite plus à des images très sim­ples, mais con­tin­ue à « marcher » avec des géométries et des fonds com­plex­es par exemple. 

“ Il y a eu des progrès continus en vision artificielle, contrairement à d’autres champs de l’IA ”

En par­al­lèle, les appareils pho­tos détectent les vis­ages au moment de la prise de vue, ce qui per­met une plus grande net­teté de l’image.

En 2012, un bond de per­for­mance a été per­mis par l’utilisation de réseaux de neu­rones pour la recon­nais­sance visuelle (cf. les travaux de Geof­frey Hin­ton à Toron­to). Cette tech­nolo­gie exis­tait depuis les années 1990 mais était surtout util­isée pour la recon­nais­sance d’écriture man­u­scrite par exem­ple et avait été peu exploitée dans le cadre du traite­ment de photographies. 

Cette tech­nolo­gie a per­mis des pro­grès impor­tants dans ce cadre mais des prob­lèmes demeurent pour la vidéo où elle ne donne pas des résul­tats franche­ment meilleurs que les méth­odes clas­siques, notam­ment à cause de la vari­abil­ité tem­porelle des images (on arrive à bien recon­naître un vis­age ou un chien sur une image fixe, mais le prob­lème se com­plex­i­fie quand les images se défor­ment avec le mouvement). 

Un autre prob­lème que l’on ren­con­tre actuelle­ment dans notre dis­ci­pline est le manque de séman­tique dans les éti­que­tages manuels qui sont un point clef des méth­odes d’apprentissage.

Qu’est-ce que je car­ac­térise comme une action par exem­ple ? Com­ment utilis­er une séman­tique com­mune d’une base de don­nées à l’autre ?

Quels sont les progrès actuels liés au deep learning ?
Se rapproche-t-on de machines qui s’autonomisent par rapport aux humains ?

Le deep learn­ing est très à la mode, mais il faut rel­a­tivis­er ses pro­grès, en tout cas dans le domaine de la vision arti­fi­cielle : la tech­nolo­gie n’est pas très dif­férente de celle des années 1990 (alors que celle-ci était davan­tage en rup­ture avec la tech­nolo­gie des décen­nies précédentes). 

“ Nous ne sommes pas plus près aujourd’hui qu’il y a vingt ans d’une « machine intelligente » qui détrônerait l’humanité ”

Pour moi, nous ne sommes pas plus près aujourd’hui qu’il y a vingt ans d’une « machine intel­li­gente » qui détrôn­erait l’humanité. Je sais que des per­son­nes très com­pé­tentes comme Elon Musk, Bill Gates, Stephen Hawk­ing ont lancé un appel à la pru­dence vis-à-vis des machines intel­li­gentes qui pour­raient men­ac­er à terme l’humanité en l’absence de régu­la­tion, mais je con­sid­ère actuelle­ment cette crainte comme dénuée de fondement. 

RENDRE LES PHOTOS PLUS NETTES

On arrive aujourd’hui à considérablement améliorer la qualité d’une image grâce aux méthodes de « débruitage » comme en attestent les images ci-après (Mairal et al., 2009).

En revanche, il est vrai que nous allons vers une intel­li­gence arti­fi­cielle plus inté­grée : alors que les dif­férents domaines de l’IA s’étaient séparés dans les années 1980, les pro­grès effec­tués dans cha­cune de ces sous-branch­es (comme la robo­t­ique, le traite­ment du lan­gage naturel, la vision arti­fi­cielle, etc.) per­me­t­tent actuelle­ment d’aller vers plus d’intégration de leurs outils. 

La robo­t­ique notam­ment se doit d’intégrer plusieurs couch­es « d’intelligence » : un robot doit maîtris­er la per­cep­tion, appren­dre par expéri­ence, com­mu­ni­quer, etc. Cepen­dant, atten­tion, plus on empile les mod­ules, plus le sys­tème est com­pliqué et plus il y a de risque quant à sa fiabilité. 

Par exem­ple, il est dif­fi­cile d’identifier ce qui a causé l’accident mor­tel provo­qué par une voiture Tes­la. Est-ce le sys­tème de cap­tage des infor­ma­tions, de leur analyse, de la prise de déci­sion qui était défaillant ? 

C’est pourquoi l’intégration des dif­férents mod­ules revêt une impor­tance toute par­ti­c­ulière, même si nous sommes encore loin du moment où cela sera le seul prob­lème, cha­cun des mod­ules ayant encore de gros pro­grès à accomplir. 

Vous avez été longtemps chercheur aux États-Unis, comment se situent la France et l’Europe dans la compétition avec les autres pays (États-Unis, Chine notamment) ?
Comment s’articulent les liens entre recherche académique et industrielle ?

Les con­di­tions de recherche en France ou en Europe sont très favor­ables, notam­ment grâce à l’ERC (Euro­pean Research Coun­cil) qui octroie des fonds généreux pour des pro­grammes de recherche. Lorsque j’étais chercheur aux États- Unis, je pas­sais beau­coup plus de temps à rechercher des con­trats que main­tenant. De plus, en France, beau­coup d’étudiants ont des bours­es, que ce soit par les grandes écoles comme l’ENS ou Poly­tech­nique ou des bours­es de thèse, ce qui soulage finan­cière­ment les lab­o­ra­toires qui les emploient. 

“ Pour ce qui est de la vision artificielle, la France compte parmi les meilleurs mondiaux ! ”

Pour ce qui est des rela­tions entre lab­o­ra­toires académiques et indus­triels, les pre­miers sont très appré­ciés de l’industrie qui embauche les étu­di­ants qui en sont issus, don­nent des fonds sans con­trepar­tie, etc. 

Les rela­tions sont donc bonnes, et la recherche académique con­tin­ue d’avoir un rôle impor­tant à jouer (les indus­tries sont moins intéressées main­tenant par les brevets ou pro­duits clés en main que par le fait d’avoir accès à des cerveaux bien formés). 

L’APPRENTISSAGE N’EST PAS LA PANACÉE

L’intelligence artificielle progresse aussi en dehors de l’apprentissage et de larges pans de l’IA ne sont pas concernés par ces évolutions. Par exemple, une méthodologie fondamentale en robotique est ce qu’on appelle « SLAM » (simultaneous localization and mapping), où le robot est équipé de capteurs (souvent visuels) lui permettant de construire un modèle tridimensionnel de son environnement et de l’utiliser pour naviguer, sans aucun apport (en général) de méthodes d’apprentissage.

Les lab­o­ra­toires académiques ont moins de don­nées que ceux des GAFA par exem­ple, mais les lab­o­ra­toires de ces derniers se heur­tent à la pro­tec­tion de la vie privée, ce qui lim­ite con­sid­érable­ment l’usage qu’ils peu­vent faire de ces données. 

De plus, l’objectif de la recherche en vision arti­fi­cielle est de tra­vailler avec le moins d’annotation pos­si­ble donc le fait de ne pas avoir accès à tous les « tags » des pho­tos que peu­vent col­lecter les entre­pris­es n’est pas tou­jours préjudiciable. 

Enfin, on a sou­vent ten­dance à ne penser qu’aux géants de l’internet, mais l’IA pro­gresse égale­ment grâce à d’autres indus­tries qui ont énor­mé­ment de don­nées (on peut penser aux ban­ques ou à la médecine par exem­ple), domaines dans lesquels l’Europe a aus­si des champions. 

Pour ce qui est de la vision arti­fi­cielle, la France compte par­mi les meilleurs mondiaux !
 

École polytechnique
Beau­coup d’étudiants ont des bours­es que ce soit par les grandes écoles comme Poly­tech­nique ou des bours­es de thèse.
© ÉCOLE POLYTECHNIQUE — J. BARANDE

Poster un commentaire