Quelques exemples d’images générées par la solution d’AI Verse. Chaque image est créée en moins de 5 secondes de calcul.

AI Verse démocratise l’accès aux datasets

Dossier : Vie des entreprisesMagazine N°781 Janvier 2023
Par Benoît MORISSET

Avec sa solu­tion SaaS, AI Verse démoc­ra­tise l’accès aux datasets labélisés pour les PME / PMI et leur per­met d’entraîner des appli­ca­tions inno­vantes en vision arti­fi­cielle à une frac­tion du coût actuel. Benoît Moris­set, CEO d’AI Verse, nous en dit plus.

Dans le monde de l’IA, quels sont le métier et le positionnement d’AI Verse ?

AI Verse est une start-up Deep Tech B2B, incubée à l’INRIA pen­dant 18 mois et qui a vu le jour en 2020. Nous avons dévelop­pé une tech­nolo­gie qui pro­duit de manière automa­tisée des images syn­thé­tiques opti­misées pour l’entraînement des réseaux de Deep Learn­ing. Nous avons conçu un sys­tème entière­ment self-ser­vice qui per­met à des entre­pris­es de toute taille de génér­er elles-mêmes leurs datasets pour divers­es appli­ca­tions en vision arti­fi­cielle : smart­phones, réal­ité aug­men­tée, robots, assis­tants dig­i­taux, caméras de sur­veil­lance, véhicules autonomes… 

La généra­tion d’un dataset entière­ment label­lisé peut main­tenant être faite directe­ment par l’ingénieur CV /ML qui en a besoin, en quelques heures et pour une frac­tion du coût de la créa­tion d’un dataset d’images réelles. Aujourd’hui, AI Verse regroupe une douzaine de per­son­nes. Nous avons levé 2,5 mil­lions d’euros en amorçage en sep­tem­bre 2021 pour accélér­er notre développement. 

Concrètement, quels sont les enjeux et besoins auxquels vous répondez ? 

Les caméras se mul­ti­plient partout dans nos vies. Il est pri­mor­dial que tous les sys­tèmes qui en sont dotés com­pren­nent de mieux en mieux le con­tenu des images qu’ils cap­turent. Cette com­préhen­sion est indis­pens­able pour ren­dre les sys­tèmes arti­fi­ciels plus autonomes, plus effi­caces, plus sûrs et plus per­ti­nents dans leurs inter­ac­tions avec les humains. Cette com­préhen­sion des images passe par l’entraînement de réseaux de Deep Learn­ing. Si aujourd’hui les mod­èles sont per­for­mants et acces­si­bles sur étagère, le point blo­quant est tou­jours l’accès aux don­nées d’entraînement pour divers cas d’usage. Dans la plu­part des cas, ces don­nées sont tout sim­ple­ment impos­si­bles à acquérir. Si, par exem­ple, vous voulez entraîn­er un robot aspi­ra­teur à détecter la chute d’une per­son­ne chez elle, où trou­verez-vous les 500 000 images inté­grant toutes les vari­a­tions néces­saires pour généralis­er le con­cept de chute, quelles que soient les vari­a­tions de l’éclairage, de l’âge, du sexe et de la mor­pholo­gie de la per­son­ne au sol, de sa pos­ture par­ti­c­ulière, de l’ameublement et de la déco­ra­tion de la pièce ? Et si ces images peu­vent être col­lec­tées, il fau­dra encore les label­lis­er une à une manuelle­ment dans un proces­sus onéreux qui néces­site des mois de travail. 

C’est à cette dif­fi­culté blo­quante pour l’innovation en vision arti­fi­cielle que nous répon­dons. Nous ren­dons la con­struc­tion d’un dataset rapi­de, sim­ple et con­fig­urable à volon­té. Ce proces­sus ne requiert plus des équipes entières ni de recours à la sous-trai­tance. La con­struc­tion d’un dataset devient ain­si une tâche réal­isée en toute autonomie par l’ingénieur qui a besoin d’images à par­tir d’un fron­tend sophis­tiqué qui lui per­met de con­fig­ur­er lui-même son cas d’usage et le type d’images dont il a besoin.

Et dans cette démarche, quelle est la proposition de valeur d’AI Verse ? 

Microsoft a dévelop­pé un dataset très con­nu, COCO (Com­mon Objects in Con­text), qui inclut des images réelles label­lisées manuelle­ment. Il a fal­lu à Microsoft plus de 70 000 heures de tra­vail afin de label­lis­er ces 200 000 images. Ce temps n’inclut d’ailleurs pas la col­lecte et la ges­tion de ces bases d’images volu­mineuses qui posent aus­si de vrais chal­lenges d’infrastructure et donc des coûts sup­plé­men­taires. En 2020 et 2021, une cam­pagne d’évaluation inten­sive réal­isée en col­lab­o­ra­tion avec l’INRIA a mon­tré qu’AI Verse est capa­ble de pro­duire un dataset aux pro­priétés et aux per­for­mances d’entraînement équiv­a­lentes à COCO en seule­ment quelques heures de cal­cul sur le cloud et ce, sans avoir à faire inter­venir une ressource. 

La créa­tion des datasets représente les dépens­es les plus élevées dans le développe­ment d’applications de vision arti­fi­cielle. Nous changeons la donne en trans­for­mant les datasets en du con­som­ma­ble acces­si­ble rapi­de­ment et pour un coût divisé par plusieurs ordres de grandeur.

Frontend d’AI Verse permettant à un utilisateur de contrôler tous les paramètres intervenant dans la génération des scènes et des images.
Fron­tend d’AI Verse per­me­t­tant à un util­isa­teur de con­trôler tous les paramètres inter­venant dans la généra­tion des scènes et des images.

Dans cette démarche, quels sont vos principaux enjeux ? 

Nous avons, d’abord, un enjeu d’éducation et d’évangélisation sur l’utilisation des images syn­thé­tiques pour l’entraînement de mod­èles de Deep Learn­ing : est-ce que les images syn­thé­tiques marchent aus­si bien que des images réelles ? com­ment gérez-vous le prob­lème du « real­i­ty gap » ? est-ce qu’un entraîne­ment fait à par­tir d’images syn­thé­tiques généralise bien ? … 

Notre réponse peut paraître con­tre-intu­itive, mais repose sur plus de deux ans de com­para­i­son d’entraînements de divers mod­èles, pour divers­es tâch­es, réal­isés à par­tir d’images réelles et à par­tir d’images syn­thé­tiques. Pour nous, les images réelles ne sont pas le bon matéri­au pour entraîn­er des réseaux : elles sont trop dif­fi­ciles et coû­teuses à acquérir et à label­lis­er. Les labels manuels sont très lim­ités et sou­vent impré­cis. Les datasets sont trop rigides et impos­si­bles à mod­i­fi­er. Par exem­ple, on ne peut plus mod­i­fi­er l’éclairage des scènes ou chang­er les paramètres de la caméra une fois les images acquis­es. D’autre part, une fois le dataset con­stru­it, il est impos­si­ble de con­naître les biais inhérents au dataset : com­bi­en d’images sont pris­es avec le soleil faisant face à la caméra ? Com­bi­en d’images inclu­ent des objets trans­par­ents ? Com­bi­en d’hommes, de femmes, ou d’enfants ? Com­bi­en de per­son­nes habil­lées en fon­cé ou en couleurs vives ? … Toutes ces mesures ne peu­vent pas être réal­isées à par­tir d’images réelles. Les dis­tri­b­u­tions de l’ensemble des paramètres ne sont pas maîtrisées et restent incon­nues. Ces déséquili­bres impactent néga­tive­ment la qual­ité des entraîne­ments. Notre cam­pagne d’évaluation nous a enseigné deux choses : le « real­i­ty gap » existe aus­si entre deux datasets dif­férents d’images réelles, et ce qui compte, ce n’est pas l’hyper-réalisme des images, mais la meilleure cou­ver­ture et dis­tri­b­u­tion pos­si­ble de tous les paramètres de l’espace d’apprentissage.

Con­traire­ment aux images réelles, notre sys­tème per­met à l’utilisateur de con­trôler et de con­fig­ur­er l’ensemble des paramètres par­tic­i­pant à la créa­tion des scènes 3D et au ren­du des images de syn­thèse. Les images de syn­thèse sont donc par­faite­ment con­fig­urables et les datasets opti­mis­ables. C’est pour cette rai­son que pour tous les tests que nous avons menés, nos images de syn­thèse ont tou­jours au moins égalé les images réelles, en les dépas­sant le plus sou­vent. Comme le moteur con­stru­it lui-même ses scènes et ses images, il peut génér­er toute une var­iété de labels impos­si­bles à pro­duire manuelle­ment comme la posi­tion 3D des artic­u­la­tions des acteurs, les boîtes englobantes 3D de tous les objets de l’image, des seg­men­ta­tions « pix­el-per­fect » sans biais…

Sur ce marché, comment vous projetez-vous ? Quelles sont les prochaines étapes pour AI Verse ? 

La pre­mière ver­sion de notre pro­duit acces­si­ble en ligne et en mode self-ser­vice cou­vri­ra les cas d’usage que l’on retrou­ve dans des envi­ron­nements de type « House­hold ». Il s’adresse en pri­or­ité aux appli­ca­tions liées à la réal­ité aug­men­tée, la robo­t­ique per­son­nelle, à la sur­veil­lance / sécu­rité, aux robots aspi­ra­teurs, aux smart TV… Nous éten­drons péri­odique­ment notre solu­tion à d’autres marchés en ajoutant d’autres envi­ron­nements comme les gares, les aéro­ports, les usines, les super­marchés… Nous allons égale­ment pré­par­er une lev­ée de fonds (série A) courant 2023. 

Enfin, à ce stade, nous avons déjà une ver­sion beta que nous souhai­te­ri­ons faire éval­uer par des entre­pris­es intéressées par une col­lab­o­ra­tion avec nous. Avis aux ama­teurs, n’hésitez pas à me con­tac­ter (https://www.ai-verse.com ) !

Poster un commentaire