Agents conversationnels et compréhension du langage humain
Les grands modèles de langage (LLM en anglais) atteignent actuellement des performances littéralement époustouflantes. On pourrait croire qu’ils reproduisent le fonctionnement du cerveau humain. Et pourtant non : ils sont fondés sur des principes d’apprentissage essentiellement différents de ceux des humains. C’est d’ailleurs à partir du moment où l’on a cessé de chercher à imiter l’humain qu’on a permis à la machine de progresser rapidement. Non seulement on ne comprend que partiellement comment fonctionne (avec succès) la machine, mais cela ne nous aide en rien à comprendre comment fonctionne le langage humain.
Si vous savez fabriquer une horloge, c’est que vous avez compris comment mesurer le temps. Si vous savez fabriquer une calculatrice mécanique, vous avez compris comment on fait des calculs. Mais si vous savez créer un agent conversationnel, une machine qui répond à vos questions comme le ferait un être humain, avez-vous pour autant compris comment fonctionne le langage humain ? Faire manipuler le langage par les ordinateurs est une idée aussi ancienne que les ordinateurs eux-mêmes, que ce soit pour accélérer la recherche de documents ou pour traduire des textes. Mais quelles sont les connaissances nécessaires pour accomplir ces tâches ?
On peut légitimement penser qu’une description formelle, voire algorithmique, des langues à traiter est nécessaire ou, mieux encore, une théorie générale des propriétés du langage humain. Il suffirait ensuite de traduire une telle description sous la forme d’un programme informatique. L’histoire du traitement automatique des langues a cependant suivi un parcours bien différent. Assez tôt, la voie de l’analyse théorique du langage et celle des applications informatiques se sont séparées. « Nos performances augmentent à chaque fois qu’un linguiste nous quitte », aurait affirmé dans les années 1980 un responsable d’équipe. Science et technologie du langage humain ont emprunté des chemins différents, au point qu’aujourd’hui ce que l’on appelle « grands modèles de langage » ne constituent pas de vrais modèles cognitifs. Comment en est-on arrivé là ?
Des règles formelles aux modèles statistiques
Dès les années 1950, de nombreux ponts ont été jetés entre les disciplines naissantes de la linguistique formelle et du traitement automatique des langues. Les bases d’un modèle hiérarchique de la compréhension des textes par les humains ont été posées durant les années 1960 et 1970 (voir encadré), permettant d’imaginer des traitements automatiques tentant de le reproduire.
Par exemple, pour construire un système de traduction automatique, on a eu l’idée de combiner un analyseur morphologique avec un analyseur syntaxique, pour aboutir à une représentation logique du sens d’une phrase source. Afin d’en produire la traduction, on utilisait la forme logique pour générer, dans la langue cible, un arbre syntaxique et des mots avec leurs inflexions. Les défis posés par une telle approche étaient nombreux, que ce soit sur le plan des formalismes de représentation ou sur celui de l’implémentation : comment fournir en effet toutes les connaissances nécessaires ? Le coût de développement de tels systèmes était très élevé et les modèles simplifiés qui ont été réalisés n’ont pas aidé à comprendre la capacité humaine à traduire.
Un autre domaine où le défi d’une formalisation explicite des connaissances semblait insurmontable était la transcription automatique de la parole (audio vers texte). La variabilité des locuteurs et l’influence mutuelle entre les sons consécutifs dans le flux de parole font que cette tâche, pourtant bien définie, a présenté des défis considérables dans les années 1980. Peu à peu, l’idée d’un modèle statistique a fait son chemin, combinant plusieurs modules. Un premier module fait passer du signal acoustique à la probabilité que certains phonèmes aient été prononcés. Un second estime la probabilité qu’une certaine séquence de sons ait été prononcée et qu’une certaine séquence de lettres lui corresponde. Enfin, on utilise aussi un module qui estime la pure probabilité d’une séquence de mots et qui a été baptisé « modèle de langage ».
Dès les années 1990, les modèles de langage statistiques fondés sur l’apprentissage automatique se sont imposés face à ceux fondés sur des règles linguistiques. Leur principe consistait à mémoriser les fréquences de suites de mots vues dans un grand ensemble de textes et de s’en servir pour estimer la probabilité d’une nouvelle séquence de mots, en la décomposant en des suites déjà vues. Difficile d’y reconnaître une analogie avec les capacités linguistiques humaines, qui vont bien au-delà des jugements sur la probabilité des phrases.
Niveaux d’analyse du langage
En linguistique, on considère deux ensembles de niveaux pour l’analyse. D’abord celui qui distingue, en partant des sons, les morphèmes (parties de mot telles que les préfixes), les mots, les syntagmes, les phrases simples, les phrases complexes, et les textes. Puis, pour chaque niveau, on distingue les propriétés de forme (règles de conjugaison, syntaxe des phrases, articulation des discours), les propriétés sémantiques (sens a priori) et celles pragmatiques (sens en contexte). Bien que la représentation de ces niveaux dans le cerveau reste en grande partie à découvrir, des aires spécialisées ont été identifiées (cf. l’article d’Alario et Vidal). Cette différenciation a pu également être mise en évidence dans les réseaux de neurones traitant le langage humain.
Les réseaux de neurones entrent en scène
Les progrès des réseaux de neurones artificiels (cf. l’article de Jean-Pierre Nadal) pour l’analyse d’images, au début des années 2000, ont encouragé leur application au langage humain. A émergé ainsi l’idée d’une représentation du sens des mots, puis des phrases, par des vecteurs en basse dimension (plusieurs centaines de nombres) obéissant au critère essentiel suivant : des mots ou des phrases qui ont un sens similaire doivent être représentés par des vecteurs de directions proches. Mais comment des réseaux de neurones peuvent-ils générer ces vecteurs ?
L’un des modèles les plus simples est fondé sur le perceptron autoencodeur (voir la figure 1-a). L’entrée d’un mot est représentée par l’activation d’une unité d’entrée, qui déclenche ensuite l’activation en cascade d’une ou plusieurs couches cachées et aboutit à l’activation d’une couche centrale de dimension réduite, dont les activations forment le vecteur qui représente (ou code) le mot. Dans les autoencodeurs, l’entraînement consiste à utiliser ce code pour reproduire aussi fidèlement que possible l’entrée dans la couche de sortie.
De nombreux autres types de réseaux ont vu le jour durant les années 2000 et 2010, tels les réseaux récurrents (figure 1-b). L’entraînement de ces réseaux, c’est-à-dire le réglage de leurs connexions, se fonde sur la tâche des modèles de langage évoqués plus haut : assigner une probabilité à une séquence de mots ou prédire les mots qui peuvent compléter une séquence donnée.
On peut légitimement penser que l’apprentissage des réseaux de neurones relève de la magie : comment est-il possible qu’à partir d’une simple tâche de prédiction de mots un réseau apprenne à construire des vecteurs obéissant au principe selon lequel « des phrases semblables ont des vecteurs semblables » ? C’est que, pour bien compléter une séquence, il est essentiel d’observer que les mots s’organisent par classes de similarité qu’il faut déceler. Et, pour que la magie opère, la structure et les paramètres du réseau doivent respecter des contraintes précises. Depuis 2017, pour le traitement du langage, une seule structure a pris le pas sur toutes les autres, celle du système Transformer.

Le réseau Transformer
L’invention en 2017 de l’architecture Transformer par des chercheurs de Google constitue peut-être le progrès le plus marquant du domaine. Insatisfaits des difficultés d’entraînement des réseaux récurrents destinés à la traduction automatique, les auteurs cherchaient une nouvelle architecture permettant la parallélisation des calculs. Au lieu de calculer le vecteur de chaque mot en fonction des vecteurs précédents, un réseau de neurones Transformer part d’un ensemble de vecteurs pour tous les mots d’une phrase et transforme chacun d’eux en fonction des autres. En empilant des dizaines de blocs Transformer, on obtient des représentations contextualisées des mots d’une phrase donnée en entrée.
Dans le système Transformer d’origine, cela constitue l’encodeur de la phrase à traduire. Le décodeur utilise quasi la même architecture et fonctionne comme un modèle de langage conditionné par le résultat de l’encodeur. La traduction est alors obtenue comme la séquence de mots la plus probable. Alors que Google s’est concentré sur le développement des encodeurs, une équipe de chercheurs d’OpenAI s’est intéressée aux décodeurs. L’équipe a résolu des défis liés à la taille de ces réseaux et à la quantité de données d’entraînement, aboutissant aux modèles de la famille GPT (Generative Pretrained Transformer).
En 2019, GPT-2 s’est illustré par sa capacité à générer des articles fictifs de bonne qualité à partir d’un titre et d’une amorce. Les grandes quantités de faits appris par GPT-2 puis par GPT-3 ne suffisaient toutefois pas à leur enseigner qu’une question doit être complétée par une réponse. Pour cela, les chercheurs d’OpenAI ont inventé en 2022 une nouvelle façon de les instruire, utilisant l’apprentissage par renforcement. À l’aide de milliers de paires instruction/réponse créées par des humains, GPT-3.5 a pu apprendre à répondre de manière coopérative, tout en intégrant des principes éthiques. Cette méthode a permis le lancement public de ChatGPT à la fin de 2022, avec le succès que l’on connaît.
IA générative et faculté humaine du langage
Au-delà des effets d’annonce, que nous apprennent ces modèles au sujet de la faculté humaine du langage ? Tout d’abord, on constate que les humains eux-mêmes jugent souvent l’IA selon son usage du langage pour la résolution de problèmes. Les grands modèles de langage (LLM en anglais) ont en effet acquis une masse incroyable de connaissances qu’ils utilisent efficacement pour répondre aux questions, pas uniquement par simple citation, mais en les mobilisant de façon pertinente et en généralisant à partir d’exemples connus. Même s’ils sont infatigables quand il s’agit de résoudre des tâches à leur portée, on les accuse souvent d’exploiter surtout leur mémoire, sans faire preuve d’une grande créativité.
À la différence des êtres humains, les connaissances des LLM paraissent comme désincarnées : elles ne s’appuient pas sur des organes de sens ou des organes moteurs. Par conséquent, les LLM ne possèdent probablement pas un modèle du monde physique similaire à celui des êtres vivants. Lorsqu’il s’agit de les connecter à des capteurs et à des effecteurs, pour construire par exemple un robot humanoïde ou une voiture autonome, de nombreux obstacles restent à franchir.
“Le volume des données d’entraînement des plus grands LLM est de la taille de la BnF !”
Notons enfin la différence essentielle entre l’apprentissage du langage par les LLM et par les enfants : les premiers le font via une tâche de complétion de textes, alors que les seconds exploitent l’interaction avec d’autres locuteurs. En outre, alors qu’un jeune enfant entend au plus quelques milliers de mots par jour, le volume des données d’entraînement des plus grands LLM est de la taille de la BnF !
L’électricité consommée pour entraîner un LLM se compte en gigawattheures, alors qu’un cerveau humain consomme moins d’un kWh par jour. Il y a donc dans la structure et l’entraînement des LLM des différences de principe qui laissent penser qu’ils sont un piètre modèle du fonctionnement du langage humain. D’ailleurs, à part l’idée des neurones formels et de la propagation des activations via des connexions, aucun élément du Transformer ne présente une analogie précise avec le cerveau humain. La spécialisation des aires cérébrales pour le langage, la variété des types de synapses, les potentiels d’action neuronaux, rien de tout cela ne se trouve dans le Transformer.
Si loin, si proche
Et pourtant… Que de révolutions ces vingt dernières années dans le domaine du traitement automatique des langues, avec trois changements de paradigme ! Qui aurait pu prédire, au début de 2022, le niveau conversationnel atteint par ChatGPT, puis par d’autres modèles semblables ? Même une fois leur mécanisme compris, la pertinence des réponses des LLM ne peut manquer de nous interpeler. Comprennent-ils vraiment le langage humain ? Tout dépend de nos critères, mais les conversations avec une IA générative peuvent parfois être plus intéressantes que celles qu’on peut avoir avec certaines personnes. Et, si on ne compte plus le nombre d’erreurs et d’hallucinations des LLM, les humains n’en font-ils pas également ?
Quant à l’approche connexionniste, malgré ses différences essentielles avec les cerveaux, ne partage-t-elle pas avec eux un même mode de mémorisation, fondée sur le poids des connexions et une certaine robustesse face à leurs modifications ? Les humains comprennent le langage, les LLM peut-être aussi à leur façon – mais est-ce que cela nous aide à comprendre comment fonctionne le langage humain ? Ironiquement, mieux les LLM reproduisent cette faculté, moins leurs auteurs comprennent comment cela est possible. On aurait ainsi abouti à la création d’artefacts doués de langage grâce à une série d’évolutions de systèmes informatiques, après d’innombrables essais et erreurs : une imitation de l’évolution naturelle de la cognition ?





