L’intelligence artificielle au service du traitement des images

Dossier : TrajectoiresMagazine N°733 Mars 2018
Par Xavier BOURRY (06)
Par Hervé KABLA (84)

Jeel­iz est une start-up qui pro­pose une gamme d’outil exploitant des réseaux neu­ronaux, per­me­t­tant le deep learn­ing, pour le traite­ment d’im­ages directe­ment dans votre nav­i­ga­teur, avec inter­face directe sur la carte graphique. Une des pre­mières appli­ca­tions est l’essayage virtuel de lunettes. 

Que fait Jeeliz ?

Jeel­iz pro­pose un ensem­ble com­plet d’outils afin de con­cevoir, d’implémenter, d’optimiser et d’exploiter des réseaux neu­ronaux pour le traite­ment d’image en WebGL. 

Que signifient deep learning et WebGL ?

Le terme deep learn­ing sig­ni­fie appren­tis­sage pro­fond. C’est un réseau de neu­rones, i.e. un mod­èle algo­rith­mique com­posé de boîtes noires com­pu­ta­tion­nelles inter­con­nec­tées appelées abu­sive­ment neurones. 

En direct :
Démon­stra­tion d’es­sai virtuelle de lunettes de soleil en réal­ité augmentée

L’idée est d’imiter vague­ment le cerveau, car les vrais neu­rones ser­vent d’unité de cal­cul et trans­met­tent une infor­ma­tion sous la forme de poten­tiel d’action depuis leurs den­drites (entrées) vers leur axone (sor­tie).

In sil­i­co, ces neu­rones mis en rela­tion sur une ou plusieurs couch­es (d’où le terme pro­fond) per­me­t­tent d’apprendre et de repro­duire des opéra­tions non-linéaires com­plex­es. OpenGL est un ensem­ble d’outils logi­ciels (inter­faces et fonc­tions) qui per­met d’effectuer du ren­du graphique voire du cal­cul infor­ma­tique directe­ment sur la carte graphique, séparé­ment du micro­processeur central. 

WebGL est l’interface d’OpenGL dans le nav­i­ga­teur web. Elle per­met aux appli­ca­tions web d’accéder au processeur graphique, qu’il s’agisse de sites web ou d’applications mobiles. 

En quoi la combinaison des deux offre-t-elle un intérêt économique ?

Pour con­cevoir une appli­ca­tion côté serveur, il existe déjà des briques logi­cielles et des inter­faces de pro­gram­ma­tion per­me­t­tant d’implémenter des réseaux de neu­rones, par exem­ple le cadriciel Ten­sor­flow de Google ou Torch de Face­book. Elles utilisent des librairies de cal­cul pro­prié­taires fonc­tion­nant avec un matériel spé­ci­fique (par exem­ple CUDA, pour les cartes graphiques Nvidia). 

Mais pour un déploiement effi­cace côté client, WebGL est la seule solu­tion : elle met en oeu­vre des réseaux neu­ronaux inté­grés dans des sites inter­net ou des appli­ca­tions mobiles. 

Ce type d’approche ne va-t-il pas devenir rapidement disponible en open source ?

Nous imposons des con­traintes fortes sur l’architecture de nos réseaux afin qu’ils soient adap­tés à tous les types de processeurs graphiques, y com­pris les moins per­for­mants (sur mobile). Cela per­met de réalis­er des opti­mi­sa­tions cruciales. 

Nous avons des con­cur­rents open source, notam­ment Deeplearn.js de Google, mais leur approche est dif­férente. Le flux opéra­tionnel est moins flu­ide, et leurs réseaux sont moins rapides. 

Verra-t-on l’IA évoluer vers des systèmes autonomes et spécialisés ?

Je pense que oui, au vu des pro­grès énormes en la matière. Les processeurs graphiques ne sont pas impactés par la loi de Moore et leur puis­sance con­tin­ue de croître. En effet, l’accroissement de la puis­sance de cal­cul des micro­processeurs repose prin­ci­pale­ment sur l’affinement de la gravure sur sili­ci­um, per­me­t­tant un cadençage plus élevé, tan­dis que l’amélioration des processeurs graphiques repose aus­si sur la scal­a­bil­ité hor­i­zon­tale (ajout d’unités de calcul). 

Nous arrivons aux lim­ites de la finesse de la gravure sur sili­ci­um, tan­dis que la scal­a­bil­ité hor­i­zon­tale est tou­jours pos­si­ble. L’arrivée de l’informatique quan­tique vien­dra peut-être accélér­er encore l’IA.

Peux-tu donner des exemples d’applications commerciales ?

Nous avons choisi de nous con­cen­tr­er sur trois cas d’utilisation. Le pre­mier est l’essayage virtuel de lunettes : il est pos­si­ble, sur un site inter­net marc­hand de vente de mon­tures, d’essayer avant de pass­er la commande. 

Notre réseau neu­ronal analyse le flux vidéo de la web­cam, détecte et suit le vis­age, son ori­en­ta­tion, son éclairage, puis des lunettes sont super­posées à l’image, en 3D temps réel. 

Les émoti­cones ani­més sont le deux­ième cas : nous pou­vons détecter et suiv­re la tête, ain­si que les expres­sions de l’utilisateur afin de les repro­duire sur un mail­lage 3D ani­mé. Notre tech­nolo­gie pro­duit un résul­tat ana­logue aux ani­mo­jis de l’Iphone X, sans néces­siter de caméra infrarouge spé­ci­fique. C’est notre prin­ci­pale activ­ité en ce moment. 

Enfin, nous tra­vail­lons sur l’intégration avec les cadriciels de réal­ité aug­men­tée d’Apple et Google, ARK­it et ARCore : ils per­me­t­tent de con­cevoir des appli­ca­tions inté­grant la détec­tion des plans (par exem­ple le sol d’une pièce), et d’y plac­er des objets virtuels (par exem­ple des meubles). 

Nous per­me­t­tons, en plus, la recon­nais­sance des objets. 

Y a‑t-il vraiment un marché pour des émoticones animés ?

Il serait dif­fi­cile d’acquérir la masse cri­tique pour déloger les mastodontes de la mes­sagerie élec­tron­ique instan­ta­née, même si nous pro­posons une option ludique et attrayante comme les émoti­cones animés. 

En revanche, en B2B, nous pou­vons pro­pos­er notre exper­tise aux ténors du marché qui souhait­eraient ajouter la fonc­tion­nal­ité dans leur logi­ciel. Ils doivent con­stam­ment se renou­vel­er et main­tenir une inter­face mod­erne et attrayante pour ne pas tomber dans l’obsolescence.

Quel est le bon timing pour créer sa start-up ? Au sortir de l’X ou dix ans après ?

Il n’y a pas de bon tim­ing, c’est une ques­tion d’opportunité : il faut avoir la bonne idée et ren­con­tr­er les bonnes per­son­nes, le tout au bon moment par rap­port aux tech­nolo­gies et au marché. 

Écran de Jeeliz, essayage de lunettes
L’essayage virtuel de lunettes est une des appli­ca­tion com­mer­ciale de Jeeliz.

J’ai rapi­de­ment créé ma société à la sor­tie de l’X afin de com­mer­cialis­er une vision­neuse de PDF en 3D en WebGL, puis un con­fig­u­ra­teur de maison. 

Je ne suis pas par­venu à ven­dre ces pro­duits mais j’ai eu des deman­des de for­ma­tions intraen­tre­pris­es et de presta­tions autour du WebGL et de la pro­gram­ma­tion 3D. 

J’ai ain­si tra­vail­lé plusieurs années en tant que développeur et for­ma­teur free­lance, sur des pro­jets et dans des domaines var­iés. Être free­lance, c’est l’idéal pour lancer sa start-up : on peut démar­rer pro­gres­sive­ment tout en ayant des revenus provenant des prestations. 

Cela per­met de dévelop­per une exper­tise tech­nique pointue, et de s’inspirer de la var­iété des ren­con­tres et des pro­jets pour lancer sa société. 

Et dans ton cas, quelle a été la motivation principale ?

D’abord le défi tech­nique : au début je ne savais pas si c’était pos­si­ble. Puis la volon­té de con­stru­ire quelque chose de nou­veau, en tra­vail­lant avec une équipe choisie sur un pro­jet dont on maîtrise les ten­ants et les aboutissants. 

Et que retires-tu de ton parcours récent à l’X ?

Mon stage mil­i­taire de pre­mière année a affer­mi ma volon­té d’aller au bout de ce que j’entreprends, ain­si que ma con­fi­ance en moi. Le statut de free­lance, c’est comme la Légion étrangère : la mis­sion est sacrée et il faut l’effectuer jusqu’au bout. 

Sur le plateau, beau­coup de cours d’informatique m’ont tech­nique­ment servi. J’ai aus­si beau­coup appris par la vie asso­cia­tive, via les binets et la Khômiss dont j’étais GénéK. 

Au niveau académique, je regrette le manque de pro­jets en groupe pro­posés. À la Khômiss, nous avons eu à gér­er des crises, à organ­is­er des pro­jets, du gag potache à la céré­monie de remise des bicornes, et cela ressem­ble par bien des aspects à la vie professionnelle. 

L'équipe dirigeante de Jeeliz

Commentaire

Ajouter un commentaire

quoc-anh.tran.1962répondre
12 mars 2018 à 10 h 48 min

Jeel­iz

Bra­vo à Xavier et Hervé pour cet arti­cle, que je classerais comme super intéres­sant arti­cle d’IA de ce numéro.

Répondre