Intelligence artificielle et sciences cognitives
Depuis leurs origines de l’après-guerre, intelligence artificielle et sciences cognitives avancent en se nourrissant mutuellement, oscillant entre deux paradigmes : l’IA symbolique, fondée sur la logique, et l’IA connexionniste, inspirée du cerveau. Après de premiers résultats somme toute limités, même s’ils ont impressionné, l’IA explose actuellement et envahit l’économie et la société. Or les corrélations entre IA connexionniste et fonctionnement du cerveau restent ambiguës. La question véritable est de savoir si l’apprentissage profond permettra de bâtir une intelligence réellement robuste. Il en va de notre conception de l’esprit.
La relation entre l’intelligence artificielle (IA) et les sciences cognitives remonte à la naissance même des deux domaines au milieu du XXe siècle. L’IA, au même titre que la psychologie, les neurosciences, la linguistique et la philosophie, est considérée comme l’une des disciplines fondatrices des « sciences cognitives ». Avec ces dernières, l’IA entretient une relation symbiotique, ce qui n’est pas surprenant car il paraîtrait incongru d’essayer de construire des esprits artificiels sans se préoccuper de comprendre l’esprit humain. Réciproquement, l’IA apporte aux autres disciplines des sciences cognitives des outils et des simulations qui se sont avérés très féconds.
L’époque des pionniers
À l’époque des pionniers de l’IA, Alan Newell et Herbert Simon à Carnegie-Mellon, John McCarthy au MIT, dans les années 1950, le point de vue dominant était que les processus mentaux consistaient essentiellement dans la manipulation formelle de représentations symboliques. L’idée centrale est que les connaissances mémorisées dans un esprit peuvent être décrites par des séquences (ou des graphes) de symboles discrets. L’application de règles d’inférence permet alors de raisonner sur ces informations et de prendre des décisions. Autrement dit, l’intelligence est obtenue en manipulant des structures symboliques selon un ensemble de règles.
Cette conception remonte à Aristote, premier logicien, qui a énoncé le célèbre syllogisme : « (a) Socrate est un homme, (b) tous les hommes sont mortels, donc (c) Socrate est mortel. » Le point crucial est que la conclusion (c) est vraie en vertu de la forme logique du syllogisme plutôt que de son contenu. La notion selon laquelle penser consiste essentiellement à raisonner, et que le raisonnement est formalisable, remonte donc à des temps anciens.
« En ce qui concerne les animaux, c’est Descartes qui le premier a eu l’admirable hardiesse de considérer l’animal en tant que machine : toute notre physiologie s’évertue à démontrer cette idée. Aussi, logiquement, ne mettons-nous plus l’homme à part, comme le faisait Descartes. »
Friedrich Nietzsche, L’Antéchrist.
Elle est particulièrement illustrée dans l’ouvrage de George Boole paru en 1854, Les Lois de la pensée. Elle a été affinée au tournant du XXe siècle par Gottlob Frege et Bertrand Russell. En envisageant la pensée comme une manipulation formelle de représentations, c’est-à-dire un mécanisme susceptible d’être automatisé, on comprend aisément l’attrait que cette idée a exercé, et continue d’exercer, sur ceux qui conçoivent l’esprit comme une machine (aux autres, il faut demander de préciser en quoi le cerveau-esprit n’est pas une machine…).
Les premiers programmes
Des langages de programmation optimisés pour la manipulation des représentations symboliques ont donc été créés (IPL en 1956 et LISP en 1958), puis utilisés pour créer des démonstrateurs de théorèmes mathématiques, des agents conversationnels, des programmes qui jouaient aux échecs ou aux dames. Certains programmes tentaient même de simuler l’apprentissage en s’inspirant de travaux du psychologue Jean Piaget sur le développement cognitif des enfants humains. C’est le cas de SHRDLU, de Terry Winograd (MIT), qui opérait dans un « monde de blocs » où il pouvait comprendre et exécuter des commandes liées au déplacement et à la manipulation de formes géométriques. Cela imitait, de manière très limitée, l’idée d’un agent construisant des connaissances par le biais de l’interaction. La philosophie sous-jacente était que, en construisant des modèles de domaines restreints et bien définis, les chercheurs pouvaient comprendre les principes de l’intelligence qui pourraient ensuite être développés.
« It’s difficult to be rigorous about whether a machine really ‘knows’, ‘thinks’, etc., because we’re hard put to define these things. We understand human mental processes only slightly better than a fish understands swimming. » John McCarthy, créateur du langage LISP.
Limites de l’approche symbolique
Malgré l’optimisme initial des chercheurs, c’est précisément le passage à l’échelle, c’est-à-dire l’utilisation de ces systèmes dans le monde réel, qui a été l’obstacle principal. Par exemple, un des problèmes qui avaient été totalement sous-estimés était celui de la reconnaissance des formes. Que ce soit dans le domaine de la reconnaissance visuelle d’objets ou de la perception de la parole, les réalisations de l’IA restaient très en deçà des performances humaines.
Il n’y a pas eu d’application directe qui ait rencontré un gros succès commercial. Une exception est constituée par la « niche » des jeux de société, où des programmes ont fini par exceller (la victoire de Deep Blue sur Kasparov date de 1996). C’est plus l’accroissement de la puissance des ordinateurs que la sophistication des algorithmes qui a fini par triompher dans ces domaines limités. En tout cas, dans les années 1970, les sources de financement pour l’IA se sont taries et cette époque est connue comme le premier « hiver de l’IA ».
Une période transitoire
L’IA a connu un regain d’intérêt pendant quelque temps dans les années 80, avec l’invention des systèmes experts, la programmation logique (Prolog) et l’introduction du raisonnement plus ou moins probabiliste (par ex. la logique floue), pour éviter les difficultés dues à la rigidité de la logique purement binaire, particulièrement mal adaptée pour formaliser le sens commun. Néanmoins, une fois encore, les résultats ont déçu et un nouvel hiver de l’IA a débuté dans les années 90, et a duré une vingtaine d’années (bien que des travaux intéressants aient été poursuivis, notamment en robotique au MIT, par Rodney Brooks, futur fondateur de iRobot).
Signalons qu’il serait injuste de considérer que les fonds publics investis dans l’IA l’ont été en pure perte : la recherche opérationnelle, fille de l’IA, a permis d’optimiser les processus logistiques et de faire ainsi des économies de grande échelle qui dépassent probablement ces investissements publics. D’autre part, les tentatives de l’IA d’imiter les compétences humaines nous ont également énormément appris sur la complexité d’opérations telles que la reconnaissance des formes, la planification, la compréhension du langage… La conclusion, à cette époque, était que toutes ces facultés, et encore plus l’intelligence générale, restaient largement hors de portée des machines.
Le succès des réseaux de neurones
La situation a drastiquement changé dans les années 2010 avec l’essor des réseaux de neurones profonds (deep learning) qui ont commencé à atteindre des performances impressionnantes, notamment dans le domaine du langage (cf.ChatGPT et consorts). Cela a relancé l’intérêt pour l’IA (parfois rebaptisée « apprentissage machine » ou machine learning en anglais). Les réseaux de neurones formels étaient loin d’être une nouveauté, puisqu’ils ont été inventés dans les années 1940-1950 par d’autres chercheurs considérés aussi comme des pionniers de l’IA : Warren McCulloch, Walter Pitts et Frank Rosenblatt. Les réseaux de neurones formels s’inspirent des réseaux de neurones biologiques : de nombreuses unités connectées entre elles et effectuant en parallèle des opérations relativement simples (McCulloch et Pitts avaient montré qu’on pouvait avec quelques neurones construire une porte logique NAND et par extension un ordinateur complet).
Dans les années 80, les algorithmes d’apprentissage des réseaux de neurones ont été améliorés par Geoffrey Hinton, David Rumelhart et d’autres. La majorité des chercheurs considéraient néanmoins les réseaux comme des « jouets » présentant relativement peu d’intérêt (à l’exception de Geoffrey Hinton, Yann Le Cun, Yoshua Bengio, Jürgen Schmidhuber et de quelques autres visionnaires). Des théorèmes mathématiques montraient que les réseaux étaient des approximateurs universels pouvant apprendre théoriquement n’importe quelle fonction, mais en pratique leurs performances étaient extrêmement limitées par les ordinateurs de l’époque. C’est l’accroissement de la taille des corpus d’entraînement d’une part et de la mémoire et de la puissance des ordinateurs (notamment des cartes graphiques), d’autre part, qui a enclenché la révolution actuelle.
Des perroquets stochastiques ?
Le fait majeur, et plutôt inattendu pour beaucoup, est que, à partir d’une immense quantité de données, les réseaux sont devenus capables de découvrir des représentations efficaces pour effectuer des tâches perceptives et cognitives. La reconnaissance des lettres, des images, la perception de la parole, ont été les premiers domaines où les réseaux ont atteint des performances comparables à celles des humains. L’année 2012 a été marquée par la naissance d’AlexNet, un réseau convolutif qui a fait faire un bond en avant aux performances de la reconnaissance visuelle. Quelques années plus tard, en 2018, l’invention de l’architecture Transformer a fortement renforcé les capacités d’apprentissage en parallèle et permis de créer les premiers agents conversationnels généralistes comme ChatGPT (cf. l’article d’Andrei Popescu-Belis).
“Sans doute les humains ont-ils plus à craindre de ces « hallucinations » chez des modèles de langage transformés en agents pouvant agir, que de l’avènement d’une IA super intelligente et mal intentionnée.”
Nous ne trancherons pas ici le débat entre les chercheurs pour qui les réseaux actuels ne sont rien de plus que des « perroquets stochastiques », tout juste bons à interpoler dans leur ensemble d’apprentissage (le web entier !), et ceux pour qui l’intelligence artificielle générale est déjà à nos portes et les machines présentent un risque existentiel pour l’humanité. Plus modestement, nous indiquerons qu’une des voies de recherche actuelles consiste à essayer de construire des modèles hybrides qui combinent réseaux de neurones et inférence logique symbolique. Effectivement, il est notoire que les réseaux de neurones, qui n’ont pas été entraînés à conserver la valeur de vérité des propositions, produisent parfois des énoncés spectaculairement faux. Sans doute les humains ont-ils plus à craindre de ces « hallucinations » chez des modèles de langage transformés en agents pouvant agir, que de l’avènement d’une IA super intelligente et mal intentionnée.
Réseaux de neurones formels et cerveau humain
Aujourd’hui, les réseaux de neurones sont entraînés sur de vastes quantités d’images ou de textes. L’entraînement consiste à ajuster les poids des connexions pour améliorer la performance dans une tâche telle qu’essayer de deviner une partie d’image ou de texte manquant. Une fois ces réseaux entraînés, il est possible de leur présenter des images ou des textes et d’identifier les niveaux d’activation des neurones artificiels correspondant à chacun des stimuli. Il ne s’agit là, après tout, que d’un grand vecteur de nombres décimaux.
On peut réaliser une opération similaire avec un cerveau biologique, humain ou animal, la seule différence étant que nous ne disposons pas de « lecteur » d’activité neuronale qui donnerait accès aux dizaines de milliards de neurones d’un cerveau réel. Des systèmes d’électrodes existent néanmoins qui permettent d’enregistrer quelques centaines ou milliers de neurones. Ces dispositifs permettent d’ores et déjà de construire des interfaces cerveau-machine qui décodent l’activité neuronale et permettent à des personnes paralysées de contrôler des bras robotiques ou des synthétiseurs de voix.
Une première expérience prometteuse
C’est à l’aide d’un de ces systèmes que l’équipe de James DiCarlo, au MIT en 2014, a pu comparer l’activité dans le cortex visuel de macaques avec celle de réseaux artificiels convolutifs entraînés à la reconnaissance d’images. Ces chercheurs ont montré que les réseaux artificiels les plus performants dans la tâche d’identification d’image avaient des activités qui prédisaient mieux l’activité du cerveau des singes que celles des réseaux moins performants.
De plus, la structure hiérarchique de ces réseaux – des détecteurs de caractéristiques simples dans les premières couches et des représentations d’objets plus complexes dans les couches ultérieures – correspondait remarquablement avec la hiérarchie de traitement observée dans le cortex visuel des primates. Autrement dit, en ayant été entraînées purement pour la performance (et pas pour la similarité avec le cerveau des primates), les différentes couches des réseaux artificiels ont néanmoins fini par encoder le même type d’information que l’on peut retrouver dans différents modules cérébraux de la vision.

© Eickenberg, Michael, Alexandre Gramfort, Gaël Varoquaux, and Bertrand Thirion. 2017. “Seeing It All: Convolutional Network Layers Map the Function of the Human Visual System.” NeuroImage 152 (May) : 184–94. https://doi.org/10.1016/j. artificineuroimage.2016.10.001.
L’imagerie par résonance magnétique fonctionnelle
Pour obtenir des activations du cerveau entier, on doit se contenter de méthodes d’imagerie ayant une résolution spatiale bien moins grande. L’imagerie par résonance magnétique fonctionnelle (IRMf) est la méthode de choix qui permet d’obtenir, une fois par seconde, une image du cerveau entier parcellisée en voxels (= pixels 3D) de quelques millimètres cubes de volume, contenant chacun des centaines de milliers de neurones.
Le signal mesuré par l’IRMf est lié au débit sanguin et aux concentrations locales respectives en oxy- et deoxy-hémoglobine, qui reflètent indirectement l’activité moyenne des neurones dans un voxel : plus les neurones échangent de l’information, plus le signal IRMf augmente. Un grand intérêt de l’IRMf est que c’est une méthode non invasive et non dangereuse : rien de plus simple que d’installer des humains dans une IRM et de leur faire écouter ou lire des textes. Cela permet alors de comparer les séries temporelles d’activations observées dans chaque voxel de leur cerveau avec celles obtenues dans les neurones d’un réseau artificiel tels que GPT-2, Mistral, Llama3… à qui on a fourni le même texte.
En pratique, on ajuste dans chaque voxel un modèle pour expliquer le mieux possible le signal IRMf à partir des activations dans le réseau de neurones. Ensuite, on utilise ce modèle pour prédire le signal engendré par de nouveaux textes. On obtient ainsi des cartes de corrélations cross-validées, comme celle présentée à la figure 2. Ces cartes montrent les aires où l’information encodée dans le réseau artificiel explique (en partie) le signal. Un neuroscientifique reconnaît immédiatement les aires classiques du langage, mais aussi observe des zones supplémentaires dont le rôle devra être exploré dans des travaux futurs.

© 2024 L. Bonnasse-Gahot & C. Pallier, Neurips
Les pistes d’approfondissement
Comme pour les modèles de traitement visuel, plus le modèle de langage est performant dans sa tâche d’entraînement (typiquement la prédiction de mots en fonction du contexte), plus il corrèle avec l’activité cérébrale. En revanche on a montré que la structure interne des réseaux artificiels de traitement du langage ne se transposait pas précisément sur l’organisation corticale : il n’y a pas de correspondance une à une entre les couches du réseau et les aires cérébrales. Les réseaux transformers ne sont donc pas des modèles réalistes de l’architecture du système cérébral du langage.
Néanmoins, à l’instar des humains, ces réseaux ont appris à extraire dans les textes différents types d’information, notamment syntaxique (la grammaire) et sémantique (le sens). En séparant dans les modèles les deux types d’informations, on peut essayer de retrouver dans le cerveau où celles-ci sont encodées. Un autre exemple de travaux de recherche en cours concerne la question de savoir si, chez une personne bilingue, les langues différentes sont encodées exactement dans les mêmes aires cérébrales ou dans des aires (partiellement) distinctes. L’utilisation de modèles de langage multilingues doit théoriquement permettre de répondre à ce genre de question.
Quel avenir ?
Depuis leurs origines, intelligence artificielle et sciences cognitives avancent en se nourrissant mutuellement, oscillant entre deux paradigmes : l’IA symbolique, fondée sur la logique, et l’IA connexionniste, inspirée du cerveau. Le paysage contemporain offre une ironie saisissante : le langage, bastion historique de l’approche symbolique, semble aujourd’hui maîtrisé par des architectures neuronales non symboliques.
Cette situation ouvre sur une question : ces réseaux parviendront-ils un jour à modéliser le raisonnement logique et mathématique, ou l’avenir réside-t-il dans des architectures hybrides les combinant explicitement à des systèmes symboliques ? Cette interrogation est au cœur des débats actuels entre chercheurs en IA.
Ce débat résonne d’autant plus fort que l’impact sociétal de l’IA s’annonce majeur. À l’inverse des avancées en neurosciences durant la « décennie du cerveau » qui restèrent largement universitaires, l’IA générative a débordé de la sphère de la recherche pour transformer l’économie et la société. Nous sommes donc à la croisée des chemins. Loin de la simple crainte d’un « troisième hiver de l’IA » dicté par les coûts énergétiques et les limites techniques, la question véritable est de savoir si l’apprentissage profond permettra de bâtir une intelligence réellement robuste. La réponse définira non seulement l’avenir de la technologie, mais aussi notre propre conception de l’esprit.





