L’ère de l’IA vocale avec WaveForms AI : quand la technologie s’humanise

Alexis Conneau (X11) cofondateur de WaveForms AI, nous retrace son parcours et révèle comment sa vision a donné naissance à une technologie révolutionnaire. En alliant intelligence logique et émotionnelle, WaveForms AI redéfinit l’interaction homme-machine pour transformer la manière dont les entreprises communiquent et innovent.
En tant qu’alumni de l’X, pourriez-vous nous présenter votre parcours ?
Je suis issu de la promotion 2011, tout comme mon associée Coralie Lemaitre. J’ai débuté ma carrière chez FAIR (Facebook AI Research) à Paris, puis à Menlo Park en 2019. À partir de 2015, je me suis spécialisé dans les modèles de langage (LLMs), à une époque où le deep learning appliqué au traitement du langage naturel commençait à peine à se développer. Avec Guillaume Lample (Mistral), nous avons publié une dizaine d’articles, notamment sur la traduction automatique non supervisée et rapidement, j’ai voulu explorer un domaine encore moins exploité : la voix. Porteuse de nuances, d’émotions et d’informations subtiles, elle m’a inspiré l’idée d’entraîner un modèle de type GPT capable de traiter et générer directement des signaux vocaux, sans recourir à une étape de conversion intermédiaire.
Comment est née l’idée de développer un modèle vocal avancé ?
Jusqu’à présent, les solutions vocales fonctionnaient de manière fragmentée : la voix était d’abord transformée en texte, analysée par un LLM, puis restituée en audio via un système de synthèse vocale. Ce processus en plusieurs étapes manquait de fluidité et d’authenticité. Mon ambition était de concevoir un système capable de comprendre et de restituer la voix de manière directe. Après une première tentative infructueuse chez Facebook AI Research, c’est en rejoignant OpenAI que j’ai pu concrétiser cette vision. Aux côtés de James Betker, nous avons intégré la dimension audio à GPT‑4.0 et GPT‑4.5 (Orion), donnant ainsi naissance au premier large language model multimodal combinant audio et texte. Nos expérimentations ont révélé que ces modèles ne se contentent pas d’exécuter une logique pure : ils développent également une capacité d’intelligence émotionnelle grâce à des millions d’heures de données conversationnelles, marquant un tournant dans l’interaction homme-machine.
WaveForms AI est née de cette ambition. Pouvez-vous nous en dire plus ?
C’est en septembre dernier que nous avons lancé WaveForms AI, fort de l’appui déterminant de Marc Andreessen et d’une levée de fonds de 40 millions de dollars auprès d’Andreessen Horowitz.
“Notre projet ne vise pas la quête d’une intelligence générale à tout prix, mais bien à offrir une expérience utilisateur immersive et naturelle.”
Notre projet ne vise pas la quête d’une intelligence générale à tout prix, mais bien à offrir une expérience utilisateur immersive et naturelle. Nous avons concentré nos efforts sur la création d’une interface vocale qui rivalise avec la performance textuelle, révolutionnant ainsi la manière dont les humains interagissent avec les machines.
Quelle est votre vision globale de l’intelligence artificielle et de son impact sur les entreprises ?
Nous constatons une saturation de la recherche sur la puissance brute des modèles. Pour les utilisateurs, la clé réside dans la qualité de l’interaction. La voix, en particulier, permet une communication plus intuitive et engageante. Certes, des défis éthiques subsistent, notamment en ce qui concerne l’attachement émotionnel à ces technologies, comme illustré par le film Her. Toutefois, en contexte B2B, les entreprises peuvent calibrer la personnalité de l’IA pour garantir une expérience claire et maîtrisée.
Quel est votre positionnement sur le marché et quels secteurs ciblez-vous ?
Nous adoptons une approche horizontale. D’un côté, nous développons une interface vocale destinée au grand public (B2C) pour faire découvrir une expérience immersive. De l’autre, nous proposons une API (B2B) qui permet à d’autres organisations d’intégrer notre technologie vocale dans leurs services. Ce modèle hybride, inspiré des grandes figures de l’IA telles qu’OpenAI ou Anthropic, nous positionne comme un acteur de référence dans la transformation numérique.
Quels sont les principaux défis que vous rencontrez aujourd’hui ?
Au-delà de la confiance des investisseurs, notre plus grand challenge reste le recrutement. Installés en plein cœur de San Francisco, nous sommes en concurrence directe avec des géants et des start-up de l’écosystème IA. Attirer des talents d’exception, tant parmi les Research Engineers que les Software Engineers, est un enjeu constant. Nous avons la chance de recruter des experts issus de structures comme DeepMind, FAIR ou OpenAI, mais la compétition est rude.
Envisagez-vous des partenariats avec de grandes entreprises ?
À long terme, oui. Bien que nous soyons pour l’instant pleinement indépendants, des collaborations avec des acteurs majeurs tels qu’Apple ou Amazon pourraient se révéler naturelles si notre technologie s’impose comme une référence dans le domaine de la voix.
Quel avenir pour l’IA et son impact sur l’emploi ?
Quand j’ai débuté dans l’IA, ce concept relevait encore de la science-fiction. Aujourd’hui, il transforme radicalement notre manière de travailler. L’automatisation par l’IA pourrait réduire drastiquement certains effectifs, en permettant à quelques milliers d’ingénieurs « augmentés » de remplacer des centaines de milliers. Paradoxalement, l’IA est aussi un formidable égalisateur, rendant accessible l’expertise et l’éducation à tous. Personnellement, je suis particulièrement optimiste quant à son potentiel dans des domaines tels que la recherche médicale, la fusion nucléaire ou le développement de nouveaux matériaux.
Comment abordez-vous la question cruciale de la sécurité des données, notamment de la voix ?
Nous appliquons les standards les plus rigoureux en matière de cybersécurité. L’audio, de par sa nature, est plus sensible que le texte puisqu’il peut permettre d’identifier une personne. Nous mettons en place des protocoles stricts pour garantir la confidentialité et la protection des informations de nos utilisateurs.
Avez-vous une anecdote marquante à nous partager ?
Lors de nos premiers tests, nous avons lancé la génération vocale sans connaître le résultat. Le modèle s’est mis à improviser un véritable stand-up de 20 minutes, démontrant une créativité surprenante. Plus tard, une fois affiné, il manifestait des comportements inattendus, comme des toux spontanées suivies d’excuses, avant de reprendre son discours. Ce phénomène, à la frontière de la science-fiction, illustre parfaitement comment la technologie peut simuler des interactions authentiquement humaines.
Un dernier mot ?
L’intelligence artificielle vocale marque une rupture radicale : elle ne se contente pas d’amplifier les capacités des machines, elle leur confère une dimension plus humaine.
“L’intelligence artificielle vocale marque une rupture radicale : elle ne se contente pas d’amplifier les capacités des machines, elle leur confère une dimension plus humaine.”
Avec WaveForms AI, nous aspirons à inaugurer une nouvelle ère d’interactions, où l’intelligence et l’émotion se conjuguent pour transformer notre quotidien professionnel et personnel.