L’ère de l’IA vocale avec WaveForms AI : quand la technologie s’humanise

L’ère de l’IA vocale avec WaveForms AI : quand la technologie s’humanise

Dossier : Vie des entreprises - Transformation numérique et intelligence artificielleMagazine N°805 Mai 2025
Par Alexis CONNEAU (X11)

Alexis Conneau (X11) cofon­da­teur de Wave­Forms AI, nous retrace son par­cours et révèle com­ment sa vision a don­né nais­sance à une tech­no­lo­gie révo­lu­tion­naire. En alliant intel­li­gence logique et émo­tion­nelle, Wave­Forms AI redé­fi­nit l’interaction homme-machine pour trans­for­mer la manière dont les entre­prises com­mu­niquent et innovent.

En tant qu’alumni de l’X, pourriez-vous nous présenter votre parcours ?

Je suis issu de la pro­mo­tion 2011, tout comme mon asso­ciée Cora­lie Lemaitre. J’ai débu­té ma car­rière chez FAIR (Face­book AI Research) à Paris, puis à Men­lo Park en 2019. À par­tir de 2015, je me suis spé­cia­li­sé dans les modèles de lan­gage (LLMs), à une époque où le deep lear­ning appli­qué au trai­te­ment du lan­gage natu­rel com­men­çait à peine à se déve­lop­per. Avec Guillaume Lample (Mis­tral), nous avons publié une dizaine d’articles, notam­ment sur la tra­duc­tion auto­ma­tique non super­vi­sée et rapi­de­ment, j’ai vou­lu explo­rer un domaine encore moins exploi­té : la voix. Por­teuse de nuances, d’émotions et d’informations sub­tiles, elle m’a ins­pi­ré l’idée d’entraîner un modèle de type GPT capable de trai­ter et géné­rer direc­te­ment des signaux vocaux, sans recou­rir à une étape de conver­sion intermédiaire.

Comment est née l’idée de développer un modèle vocal avancé ?

Jusqu’à pré­sent, les solu­tions vocales fonc­tion­naient de manière frag­men­tée : la voix était d’abord trans­for­mée en texte, ana­ly­sée par un LLM, puis res­ti­tuée en audio via un sys­tème de syn­thèse vocale. Ce pro­ces­sus en plu­sieurs étapes man­quait de flui­di­té et d’authenticité. Mon ambi­tion était de conce­voir un sys­tème capable de com­prendre et de res­ti­tuer la voix de manière directe. Après une pre­mière ten­ta­tive infruc­tueuse chez Face­book AI Research, c’est en rejoi­gnant Ope­nAI que j’ai pu concré­ti­ser cette vision. Aux côtés de James Bet­ker, nous avons inté­gré la dimen­sion audio à GPT‑4.0 et GPT‑4.5 (Orion), don­nant ain­si nais­sance au pre­mier large lan­guage model mul­ti­mo­dal com­bi­nant audio et texte. Nos expé­ri­men­ta­tions ont révé­lé que ces modèles ne se contentent pas d’exécuter une logique pure : ils déve­loppent éga­le­ment une capa­ci­té d’intelligence émo­tion­nelle grâce à des mil­lions d’heures de don­nées conver­sa­tion­nelles, mar­quant un tour­nant dans l’interaction homme-machine.

WaveForms AI est née de cette ambition. Pouvez-vous nous en dire plus ?

C’est en sep­tembre der­nier que nous avons lan­cé Wave­Forms AI, fort de l’appui déter­mi­nant de Marc Andrees­sen et d’une levée de fonds de 40 mil­lions de dol­lars auprès d’Andreessen Horowitz.

“Notre projet ne vise pas la quête d’une intelligence générale à tout prix, mais bien à offrir une expérience utilisateur immersive et naturelle.”

Notre pro­jet ne vise pas la quête d’une intel­li­gence géné­rale à tout prix, mais bien à offrir une expé­rience uti­li­sa­teur immer­sive et natu­relle. Nous avons concen­tré nos efforts sur la créa­tion d’une inter­face vocale qui riva­lise avec la per­for­mance tex­tuelle, révo­lu­tion­nant ain­si la manière dont les humains inter­agissent avec les machines.

Quelle est votre vision globale de l’intelligence artificielle et de son impact sur les entreprises ?

Nous consta­tons une satu­ra­tion de la recherche sur la puis­sance brute des modèles. Pour les uti­li­sa­teurs, la clé réside dans la qua­li­té de l’interaction. La voix, en par­ti­cu­lier, per­met une com­mu­ni­ca­tion plus intui­tive et enga­geante. Certes, des défis éthiques sub­sistent, notam­ment en ce qui concerne l’attachement émo­tion­nel à ces tech­no­lo­gies, comme illus­tré par le film Her. Tou­te­fois, en contexte B2B, les entre­prises peuvent cali­brer la per­son­na­li­té de l’IA pour garan­tir une expé­rience claire et maîtrisée.

Quel est votre positionnement sur le marché et quels secteurs ciblez-vous ?

Nous adop­tons une approche hori­zon­tale. D’un côté, nous déve­lop­pons une inter­face vocale des­ti­née au grand public (B2C) pour faire décou­vrir une expé­rience immer­sive. De l’autre, nous pro­po­sons une API (B2B) qui per­met à d’autres orga­ni­sa­tions d’intégrer notre tech­no­lo­gie vocale dans leurs ser­vices. Ce modèle hybride, ins­pi­ré des grandes figures de l’IA telles qu’OpenAI ou Anthro­pic, nous posi­tionne comme un acteur de réfé­rence dans la trans­for­ma­tion numérique.

Quels sont les principaux défis que vous rencontrez aujourd’hui ?

Au-delà de la confiance des inves­tis­seurs, notre plus grand chal­lenge reste le recru­te­ment. Ins­tal­lés en plein cœur de San Fran­cis­co, nous sommes en concur­rence directe avec des géants et des start-up de l’écosystème IA. Atti­rer des talents d’exception, tant par­mi les Research Engi­neers que les Soft­ware Engi­neers, est un enjeu constant. Nous avons la chance de recru­ter des experts issus de struc­tures comme Deep­Mind, FAIR ou Ope­nAI, mais la com­pé­ti­tion est rude.

Envisagez-vous des partenariats avec de grandes entreprises ?

À long terme, oui. Bien que nous soyons pour l’instant plei­ne­ment indé­pen­dants, des col­la­bo­ra­tions avec des acteurs majeurs tels qu’Apple ou Ama­zon pour­raient se révé­ler natu­relles si notre tech­no­lo­gie s’impose comme une réfé­rence dans le domaine de la voix.

Quel avenir pour l’IA et son impact sur l’emploi ?

Quand j’ai débu­té dans l’IA, ce concept rele­vait encore de la science-fic­tion. Aujourd’hui, il trans­forme radi­ca­le­ment notre manière de tra­vailler. L’automatisation par l’IA pour­rait réduire dras­ti­que­ment cer­tains effec­tifs, en per­met­tant à quelques mil­liers d’ingénieurs « aug­men­tés » de rem­pla­cer des cen­taines de mil­liers. Para­doxa­le­ment, l’IA est aus­si un for­mi­dable éga­li­sa­teur, ren­dant acces­sible l’expertise et l’éducation à tous. Per­son­nel­le­ment, je suis par­ti­cu­liè­re­ment opti­miste quant à son poten­tiel dans des domaines tels que la recherche médi­cale, la fusion nucléaire ou le déve­lop­pe­ment de nou­veaux matériaux.

Comment abordez-vous la question cruciale de la sécurité des données, notamment de la voix ?

Nous appli­quons les stan­dards les plus rigou­reux en matière de cyber­sé­cu­ri­té. L’audio, de par sa nature, est plus sen­sible que le texte puisqu’il peut per­mettre d’identifier une per­sonne. Nous met­tons en place des pro­to­coles stricts pour garan­tir la confi­den­tia­li­té et la pro­tec­tion des infor­ma­tions de nos utilisateurs.

Avez-vous une anecdote marquante à nous partager ?

Lors de nos pre­miers tests, nous avons lan­cé la géné­ra­tion vocale sans connaître le résul­tat. Le modèle s’est mis à impro­vi­ser un véri­table stand-up de 20 minutes, démon­trant une créa­ti­vi­té sur­pre­nante. Plus tard, une fois affi­né, il mani­fes­tait des com­por­te­ments inat­ten­dus, comme des toux spon­ta­nées sui­vies d’excuses, avant de reprendre son dis­cours. Ce phé­no­mène, à la fron­tière de la science-fic­tion, illustre par­fai­te­ment com­ment la tech­no­lo­gie peut simu­ler des inter­ac­tions authen­ti­que­ment humaines.

Un dernier mot ?

L’intelligence arti­fi­cielle vocale marque une rup­ture radi­cale : elle ne se contente pas d’amplifier les capa­ci­tés des machines, elle leur confère une dimen­sion plus humaine.

“L’intelligence artificielle vocale marque une rupture radicale : elle ne se contente pas d’amplifier les capacités des machines, elle leur confère une dimension plus humaine.”

Avec Wave­Forms AI, nous aspi­rons à inau­gu­rer une nou­velle ère d’interactions, où l’intelligence et l’émotion se conjuguent pour trans­for­mer notre quo­ti­dien pro­fes­sion­nel et personnel.

www.waveforms.ai

Poster un commentaire