Propos de traverse sur les modèles massifs de langage

Les performances remarquables et remarquées de l’intelligence artificielle amènent à s’interroger sur la nature profonde des LLM (large language models), qui sont à sa base. Les LLM parlent mais ne penseraient pas… Pourtant, selon l’auteur, les LLM pourraient avoir un rapport avec le langage humain, y compris avec sa pensée qui passe par les mots. La perspective ainsi ouverte est vertigineuse…
Depuis quelques dizaines de mois résonne dans le corps social l’écho d’un nouveau péril qui vient renforcer dans l’esprit du monde le décalage prométhéen déjà dévoilé par Gunther Anders, la suite de la menace d’une cinquième extinction d’origine nucléaire dont l’effroi s’estompe aujourd’hui. Il faut noter que le passage de Oumuamua dans le système solaire, premier objet étranger vu dans le système, a été salué avec indifférence. Non, ce n’est pas un péril extérieur qui secoue le monde, mais une menace interne : l’intelligence artificielle va supplanter l’intelligence humaine et transformer l’homme en robot. Tout le monde a peur, au premier rang les employés menacés de perdre leur employabilité, mais aussi les professeurs qui n’auraient plus rien à enseigner ; les politiques ne se sont pas encore exprimés à ce sujet.
L’émergence des LLM
Cette catastrophe annoncée par les progrès de l’IA vient de l’émergence des LLM (large language models). La machine aiguillonnée par une question (un prompt dans le langage ad hoc) produit un discours qui semble à la fois correct et pertinent, et sait créer : des logiciels (est-ce la fin des SS2I ?) ; des réponses aux questions d’examen (sans que l’on puisse détecter les plagiats) ; de la littérature inspirée des ténors de la littérature occidentale (en la matière les performances semblent sans limite, par exemple réécrire une pièce de Molière dans le style de Ionesco ou de Beckett). Il semble même que ces modèles pourraient créer des poèmes ou des morceaux de musique, même si les professionnels ne sont pas enthousiastes quant aux résultats.
Les limites des défauts des LLM
Bien sûr les LLM ne sont pas sans défauts : ils peuvent s’égarer sur de fausses pistes en prenant un mot pour un autre dans le prompt qui leur est soumis (quid des homonymies ?), produire des poèmes dignes de Mimi Pinson et de Gertrude Stein (la rose est rose est rose). Ils peuvent surtout tenir des propos inappropriés. C’est d’ailleurs ce qui suscite le plus d’inquiétude dans le monde politique. Pour essayer de corriger cela, les producteurs de LLM se dotent de contrôleurs qui veillent à supprimer toute réponse raciste, haineuse ou complotiste, au risque de l’ultracensure (prendre les negro spirituals pour des proclamations du Ku Klux Klan). Reste qu’on ne peut que constater au-delà de ces défauts qualifiés de maladies de jeunesse l’imposant succès de ces modèles, les erreurs semblant rester marginales.
Les LLM, pourquoi ça marche ?
La première question qui vient est de savoir à quoi tient leur incontestable performance et plus spécialement quelle langue ils parlent à leurs publics pour être aussi bien compris ? Il va de soi qu’ils leur parlent dans une langue dotée des mots de leur vocabulaire, quelle que soit leur nationalité : personne n’utilise de dictionnaire pour comprendre les réponses. Il s’agit donc de réponses en langue commune, celle des populations occidentales éduquées ou moyennement éduquées. Ici faisons trois hypothèses pour progresser. Il peut s’agir d’une lingua franca, c’est-à-dire d’une langue permettant les échanges entre peuples, sans qu’on puisse en l’occurrence la qualifier de pidgin. Il y a manifestement une syntaxe correcte et un vocabulaire de bon niveau dans ses réponses. Pour cette hypothèse plaide le fait que cette langue, initialement mise au point aux USA, est comprise dans tout le monde occidental ; elle est donc facilement et automatiquement traduisible dans toutes leurs langues. Il serait intéressant de comparer avec les modèles du monde chinois : existe-t-il une « inter-traductibilité » entre les LLM américains et les LLM chinois ? Il peut aussi s’agir d’un sociolecte, c’est-à-dire du langage que les populations utilisent dans leurs rapports avec les institutions (cf. Roland Barthes). Pour le sociolecte plaide le fait que tout le monde a l’air de comprendre les réponses parmi les usagers et que les textes produits passent l’épreuve des examens ; elles sont donc rédigées dans le sociolecte du monde universitaire ; autrement dit, il est difficile de démontrer leur caractère de plagiat. Il peut enfin s’agir d’une novlangue (cf. 1984 de George Orwell). En faveur de cette hypothèse plaiderait la mise en place des contrôleurs censeurs : le langage LLM n’est pas (peut-être pas) une novlangue, mais pourrait le devenir.
Trois questions
Dans le cadre de la question de la langue des LLM, on pourrait essayer d’analyser ses propriétés ; l’approche générale est évidemment hors du propos de cet essai. Posons à titre heuristique trois questions typiques. Premièrement, la Langue LLM (désignée ici sous l’acronyme L3M) peut-elle répondre aux exigences de la sémantique générale : fournit-elle suffisamment de précision dans ses réponses ? pour savoir à quelle échelle on parle et quel est le domaine de validité de la réponse ? Il ne semble pas que cela fasse partie de ses critères de choix, mais peut-être peut-on le préciser dans le prompt. Ensuite, le locuteur de L3M est-il un locuteur idéal au sens de Noam Chomsky ? sa compétence intrinsèque est d’avoir accès à la plus grande partie des énoncés de la langue dans laquelle il s’exprime : comment être plus compétent ? Et, enfin, qui est le locuteur de la langue L3M ? a priori le modèle LLM mais, à la vitesse où s’étend son influence, notamment dans l’éducation, on peut présager qu’à la fin tout le monde parlera le LLM ; donc il y aura des locuteurs formés ; au bout de combien de temps y aura-t-il des locuteurs natifs ? l’avenir le dira.
Les LLM, qu’est-ce qui cloche ?
Parlons maintenant des reproches adressés au système LLM, qui relèvent généralement de trois types de critiques, de niveaux et de champs différents. La première, déjà évoquée, est celle de supprimer le travail humain dans de nombreux secteurs d’emploi, de la gestion administrative au journalisme. Pour la gestion administrative, le processus est lancé avec les logiciels de contrôle documentaire utilisés dans le cadre d’échanges avec les administrations, notamment fiscale ; il ne faut pas sous-estimer le financement requis pour constituer les bases législatives et réglementaires du maquis administratif. Il faudra des contrôleurs humains pour instruire les anomalies détectées. Secondement, pour les articles de journaux on a déjà évoqué les contrôleurs ou censeurs qui seraient attachés à une censure préalable (de triste réputation). De toute façon, c’est le sujet le mieux appréhendé par le monde politique. La troisième critique est celle qui sera évoquée de façon plus détaillée ; c’est la cécité sémantique, autrement dit « les LLM parlent mais ne pensent pas ».
Comment marchent les Large Language Models
Pour se donner les moyens de tenter d’y répondre, essayons de savoir comment marche le système LLM. A priori la réponse n’est pas facile : ses concepteurs ont appliqué une démarche heuristique, par essais et erreurs. Ils ont mis à profit des composants très puissants conçus pour les jeux vidéo, les Transformers (ou transformateurs), permettant de mener les tâches en fort parallélisme. Ils ont inventé des mécanismes dits d’attention, qui consistent à s’interroger sur l’environnement proche d’un mot retrouvé dans les archives pour l’associer par exemple au mot qui est généralement son successeur et ils ont mis en œuvre des process d’apprentissage, commençant par de l’apprentissage auto-supervisé. Les mathématiciens qui jusqu’à maintenant se sont penchés sur les problèmes se sont très vite heurtés à la prise en compte du traitement à couches successives, qui n’est pas facile à modéliser surtout si le traitement n’est pas séquentiel.

© Adobe Stock – ec0de
Le mécanisme de l’induction
D’après certains travaux, le mécanisme prépondérant serait celui de l’induction : si A (ou son équivalent A’) est souvent suivi de B (ou B’), le système va dorénavant prendre en compte le couple AB. Ce mécanisme d’induction est celui adopté par Sherlock Holmes quand il déduit de la présence de sable sur les semelles de Watson qu’il est allé à la poste et de la tristesse sur son visage qu’il a reçu de mauvaises nouvelles de son frère. C’est l’existence d’énormes bases de données qui rendrait la dynamique convergente. De pièce en pièce on reconstruit le puzzle et on obtient la réponse. Cela pose la question de la syntaxe, dont on ne parle jamais dans la littérature ; bien modestement deux hypothèses : la syntaxe dans l’induction est donnée de surcroît, exemple de se trouve généralement entre le mari et la femme si ces deux mots sont proches ; autre hypothèse, c’est l’apprentissage qui redresse la syntaxe non donnée par le mécanisme précédent.
Pour nous résumer : en creusant dans une énorme base de données (data mining) à l’aide de procédés d’induction et d’apprentissage, en portant attention au contexte, les LLM produisent des énoncés qui frappent leurs lecteurs par leur pertinence, leur correction, et même quelquefois par leur élégance, et cela au terme de quelques mois d’existence. C’est dire qu’ils souffrent sûrement de maladies de jeunesse. Complètement renversés par ce succès semble-t-il inattendu, ils se demandent dans quelle direction continuer et l’on parle d’un langage sonore, imagé, multicanal.
L’aveuglement sémantique, le péché mortel ?
Ce qui va nous intéresser maintenant, plutôt que le futur, ce que nous allons sommairement évoquer ici, c’est le reproche qui lui est fait de parler sans penser à ce qu’il dit : le terme généralement employé est « aveuglement sémantique ». Cette question fait penser à la fable de Franc-Nohain du perroquet et du singe : le singe et le perroquet se disputent sur leur prééminence respective. « Mais moi je parle, dit le perroquet, voulant porter un coup décisif dans leur querelle. Que crois-tu que nous fassions depuis une heure ? répond le singe. » Et la langue LLM ne pense peut-être pas, mais elle parle. L’argument n’est peut-être pas aussi mince qu’il en a l’air. Le problème de cécité couve depuis l’origine de l’IA, toujours accusée de reproduire des talents humains mais de façon mécanique et sans discernement (cela remonte à l’automate de Vaucanson) : vous singez l’homme, mais vous ne le simulez pas, vous ne le recréez pas. Mais, quand on touche au problème du langage, la question se pose de façon un peu différente car l’homme reçoit le langage mais n’en hérite pas ; le langage fait l’objet d’une implantation dans son cerveau, dans une zone que les neurosciences ont permis de localiser.
LLM et langage humain
Au total nous nous bornerons à évoquer un point de vue limité : LLM et langage humain se situeraient dans le même plan, celui d’artefacts fonctionnels. Est-ce que la façon dont une machine LLM se sert du langage ressemble à l’usage qu’en fait l’homme ? Différents points de vue. Le baby-talk s’enrichit progressivement de mots ou de phrases entendus en s’appuyant sur la récurrence et en les répétant pour en vérifier l’effet avant de les adopter. Le langage selon Wittgenstein n’est qu’un immense terrain de jeu et penser, c’est utiliser ces jeux de langage.
“LLM et langage humain se situeraient dans le même plan, celui d’artefacts fonctionnels.”
Selon Heidegger dans Qu’appelle-t-on penser ? c’est rechercher dans les sauvegardes (mot que le traducteur utilise pour mémoire) la trace mémorielle de ce qu’il nous faut penser. Le discours politique s’appuie sur les immémoriaux des archives pour produire les incitations au bonheur par les voies du maintien ou du changement (sans sombrer dans l’irénisme). Quant au discours mathématique, la tâche de production des logiciels en mobilisant des opérateurs logiques paraît en relever, ou du moins de la logique formelle. Rappelons toutefois que, s’agissant du langage mathématique, Galilée le considérait comme le langage de l’Univers, il n’aurait dès lors rien à voir avec le langage humain mais se révélerait à lui.
En conclusion un essai de synthèse
Au total j’espère avoir fait sentir que les modes d’action des LLM pourraient avoir un rapport avec le langage humain, y compris avec sa pensée qui passe par les mots. Tous deux agissent sur les mots. Comme le rappelle la Genèse (2-20) : « Et l’homme donna des noms à tout le bétail… », jusqu’à Heidegger : « Il n’est aucune chose, là où le mot fait défaut. » Une remarque : le discours de l’homme moderne sert aussi à la cybernétique ; s’il est trop loin de Mars pour donner des ordres directement et à temps aux rovers, c’est une intelligence qui se substitue à lui pour la définition des manœuvres. Il s’agirait, pour donner une comparaison, de la transcription par la machine d’un plan de bataille en un ordre de marche. L’intelligence artificielle vient de créer un nouvel outil, les Large Language Models. Ce qui fait la différence avec ses succès précédents, c’est qu’il ne s’agit plus de recopier la physiologie humaine mais d’utiliser l’artefact qui fait que l’homme est humain : le langage, qui permet à l’homme d’échanger, de concevoir, de créer.
L3M est-il un vrai langage ?
Nos propos ont cherché à mettre en lumière des critères permettant de répondre à cette question. Le L3M est une langue de contact qui permet aux hommes d’échanger dans l’ensemble du monde occidental. Pour la Chine la question reste ouverte : ce qu’on trouve concernant DEEPSEEK concerne davantage sa capacité à résoudre des problèmes que sa capacité à échanger des idées. L3M est-il un sociolecte renfermant l’ensemble des idées et concepts nécessaires pour vivre dans une organisation mise en place par les autorités et les pouvoirs publics ? La réponse est semble-t-il positive. L3M est-elle une novlangue ? pas encore mais cela peut venir quand les bureaux de contrôle l’auront purgée de tous ses propos « disputables ». L3M a-t-elle des locuteurs ? aujourd’hui un seul, l’ordinateur, mais par contagion on peut penser qu’à la fin tout le monde (ou presque) parlera LLM. L3M aura-t-elle des locuteurs natifs ? on pourrait s’y attendre si par l’action maternelle elle vient influencer l’apprentissage du monde des jeunes enfants (ou en être chargée). Enfin peut-on penser avec L3M ? La question sera débattue avec les philosophes, mais on retrouve dans ses mécanismes certaines pratiques que les philosophes utilisent pour décrire ce qu’est la Pensée. Compte tenu de la puissante aptitude à reproduire l’expression de la pensée humaine, les LLM sont maintenant présents à l’horizon de la conscience de l’humanité.





