Sélectionne des données pour une IA performante.

Kili technology sélectionne les données pour une IA performante

Dossier : TrajectoiresMagazine N°773 Mars 2022
Par Hervé KABLA (84)

En 2018 Édouard d’Archimbaud (2004) a cofondé Kili Tech­nol­o­gy, afin de fournir aux entre­pris­es une solu­tion com­plète pour con­stituer leur IA plus rapi­de­ment et pass­er avec suc­cès leurs pro­jets d’IA en pro­duc­tion. Il s’agit de mieux gér­er les don­nées de for­ma­tion en exploitant des fonc­tion­nal­ités opti­misées. Disponible en ligne ou sur site, la solu­tion per­met de tir­er par­ti des dernières tech­niques d’apprentissage automa­tique. L’entreprise est recon­nue comme l’un des trois lead­ers mon­di­aux sur le sujet.

Quelle est l’activité de Kili Technology ? 

L’intelligence arti­fi­cielle (IA) boule­verse nos économies en pro­fondeur. Cepen­dant, pour être intel­li­gente, l’IA a besoin d’apprendre à par­tir de mil­liers d’exemples (image, texte, vidéo, son), qui sont les don­nées d’apprentissage. La qual­ité de ces don­nées con­di­tionne la per­for­mance des algo­rithmes. Notre tra­vail chez Kili Tech­nol­o­gy, c’est de pré­par­er les meilleures don­nées d’apprentissage, à par­tir des don­nées brutes des entre­pris­es, pour amélior­er l’efficacité et la fia­bil­ité des mod­èles d’IA.

Quel est le parcours des fondateurs ? 

Issu de la pro­mo­tion 2004, et après un mas­ter MVA (math­é­ma­tiques, vision, appren­tis­sage) de l’ENS Cachan, je suis devenu directeur tech­nique de Kili Tech­nol­o­gy, entre­prise que j’ai cofondée en 2018 avec François-Xavier Leduc (EM Lyon Busi­ness School), directeur général. Je me con­sid­ère comme un data sci­en­tist. Avant de créer Kili Tech­nol­o­gy, j’ai notam­ment dirigé le lab Data Sci­ence et intel­li­gence arti­fi­cielle de BNP Paribas CIB. François-Xavier Leduc a un pro­fil de mul­ti-entre­pre­neur. Il a, par le passé, cofondé Trip­n­drive, une plate­forme d’autopartage dans les gares et les aéroports.

Comment t’est venue l’idée ?

Quand je tra­vail­lais au labo d’IA de BNP Paribas CIB, notre plus gros tra­vail était de pré­par­er les don­nées pour nos pro­grammes d’IA. Nous avons dévelop­pé notre out­il pour annot­er nos don­nées en interne. J’ai com­pris que toutes les entre­pris­es allaient faire face au même enjeu stratégique de ges­tion des don­nées. En fon­dant Kili Tech­nol­o­gy, je voulais créer la meilleure plate­forme de ges­tion des don­nées pour répon­dre aux prob­lèmes des data sci­en­tists et aider les entre­pris­es à déploy­er l’IA à grande échelle. 

Qui sont les concurrents ? 

Kili Tech­nol­o­gy opère dans un domaine en pleine struc­tura­tion, qui n’existait pas il y a trois ans. Alors qu’on par­lait hier unique­ment d’annotation de don­nées, on évoque aujourd’hui la data-cen­tric AI, qui com­prend l’annotation et la sélec­tion en amont des don­nées d’entraînement, pour cou­vrir tous les cas d’application de l’IA. Nous sommes régulière­ment cités par les experts de l’IA, dont le chercheur améri­cain Andrew Ng (spé­cial­iste de l’apprentissage infor­ma­tique et cofon­da­teur de Cours­era), comme l’un des trois lead­ers mon­di­aux sur le sujet. Nous voulons con­forter ce lead­er­ship dans les années qui viennent.

Quelles ont été les étapes clés depuis la création ?

Nous avons dévelop­pé Kili Tech­nol­o­gy sur fonds pro­pres pen­dant les deux pre­mières années, pour dévelop­per le meilleur pro­duit et affin­er notre fit to mar­ket. Le suc­cès est au ren­dez-vous : nous enreg­istrons une très forte crois­sance auprès des grandes entre­pris­es et des scale-up de l’IA. Nous avons réal­isé deux lev­ées de fonds en jan­vi­er et juil­let 2021 pour accélér­er notre développe­ment et notre expan­sion inter­na­tionale (Asie et États-Unis).

Peut-on encore envisager de nos jours une IA qui ne soit pas data-centric ?

La data-cen­tric AI n’est pas une mode, c’est l’avenir de l’IA ! De nom­breux chercheurs insis­tent sur ce nou­veau par­a­digme pour ren­forcer la per­for­mance de l’IA. Tra­vailler à par­tir de la don­née per­met de sélec­tion­ner pré­cisé­ment les don­nées néces­saires à l’application de l’IA et de véri­fi­er la qual­ité de ces don­nées. Cela per­met surtout de tester en con­tinu la per­for­mance des mod­èles à par­tir des don­nées d’entraînement et d’inspecter fine­ment les cas de défail­lance pour les résoudre un à un, en amélio­rant la qual­ité et la com­po­si­tion des don­nées d’apprentissage.

Le risque d’un internet à deux vitesses ou sous contrôle, comme en Chine, est-il une menace pour l’IA ?

Je ne pense pas que ce soit une men­ace. Mais nous devons accélér­er en France et en Europe sur toutes les tech­nolo­gies autour de l’IA, du cloud, du métavers, de la blockchain. Nous nous tar­guons d’être bons en math­é­ma­tiques en France, mais je con­state que nous sommes plutôt en retard en IA par rap­port à nos voisins (UK, Suisse, Israël). Nous devons inve­stir sans hési­ta­tion tous ces champs d’application, maîtris­er ces tech­nolo­gies et pro­mou­voir un usage au béné­fice de la société, telle que nous la définis­sons en Europe. La direc­tive européenne qui vise à favoris­er le développe­ment d’une IA de con­fi­ance est une ini­tia­tive pos­i­tive, mais il ne faut pas frein­er l’innovation, ce qui entraîn­erait un exode des entre­pris­es vers les pays tiers. Nous devons préserv­er notre autonomie stratégique sur ces tech­nolo­gies en favorisant la crois­sance d’entreprises lead­ers en Europe. 

Penses-tu que l’IA deviendra un jour un produit grand public, comme un traitement de texte ou un navigateur internet ? 

L’IA est dev­enue une tech­nolo­gie d’intérêt général (automa­ti­sa­tion d’un nom­bre crois­sant de tâch­es, gains de pro­duc­tiv­ité) qui va con­tin­uer à se dif­fuser de manière crois­sante dans nos sociétés, comme hier l’électricité, l’informatique ou inter­net. Je pense que demain la majorité des IA ne seront plus conçues au niveau du code, mais à un niveau d’abstraction plus élevé, en manip­u­lant de la don­née, ce qui per­me­t­tra une dif­fu­sion plus rapi­de et plus pro­fonde. Aujourd’hui, il faut un bon bagage en com­put­er sci­ence et en math­é­ma­tiques pour con­cevoir des pro­grammes d’IA, mais demain cela ne sera plus nécessaire.

On parle de plus en plus de l’impact énergétique et environnemental de la data. Gros fake ou vrai problème ? 

Les tech­nolo­gies de stock­age et de ges­tion des don­nées sont forte­ment con­som­ma­tri­ces d’énergie, ce qui pose évidem­ment prob­lème dans un con­texte de néces­saire sobriété énergé­tique, alors que les don­nées vont con­tin­uer à explos­er. La data-cen­tric AI est une solu­tion qui per­met de ratio­nalis­er la ges­tion de don­nées. Nous esti­mons que 40 % des don­nées annotées sont inutiles, parce que trop proches de don­nées déjà exis­tantes dans le dataset d’entraînement. Chez Kili Tech­nol­o­gy, nous accom­pa­gnons nos clients dans la déf­i­ni­tion en amont des typolo­gies de don­nées néces­saires en fonc­tion des prob­lé­ma­tiques à traiter. Grâce à la data-cen­tric AI, nous pro­mou­vons une ges­tion intel­li­gente de la don­née qui per­met de savoir ce qui se passe, de ratio­nalis­er le stock­age et d’arbitrer entre le néces­saire et le superflu.

Conseillerais-tu aux jeunes X de s’orienter encore vers l’IA et, si oui, pourquoi ? 

Évidem­ment, je con­seillerais aux jeunes X de s’orienter vers l’IA. C’est un domaine pas­sion­nant, où beau­coup de choses sont encore à con­stru­ire et à décou­vrir ! Mais je leur con­seillerais de priv­ilégi­er une dou­ble for­ma­tion, qui allie théorie sci­en­tifique et appli­ca­tion, type mas­ter MVA et école 42. Con­cevoir un pro­gramme d’IA, c’est 10 % de théorie et 90 % de pro­gram­ma­tion. Sur la théorie, les X sont au top, mais nous avons des pro­grès à faire en programmation.


Poster un commentaire