En 2016, le programme AlphaGo de DeepMind a marqué l'histoire en battant Lee Sedol, champion du monde du jeu de go, considéré comme l'un des jeux de stratégie les plus complexes. Cette victoire semblait annoncer l'avènement d'une intelligence artificielle capable de rivaliser avec les capacités cognitives humaines.
Pourtant, comme le souligne Melanie Mitchell, AlphaGo «n'a aucune capacité de penser sur quoi que ce soit, de raisonner sur quoi que ce soit, de faire des plans sur quoi que ce soit, à l'exception du go. [...] Cela peut paraître étrange à dire, mais vu sous cet angle, le plus modeste joueur d'échecs dans une école maternelle est plus intelligent qu'AlphaGo.» (Mitchell, 2021, p. 192).
Ce paradoxe met en lumière les différences fondamentales entre le raisonnement humain et le traitement statistique des réseaux neuronaux profonds. Comment distinguer le véritable raisonnement de ce qui n'en est que l'apparence ?
Le problème de l'explicabilité
L'IA actuelle pose un défi majeur : l'impossibilité d'expliquer son raisonnement. Mitchell compare cette situation à un professeur qui demanderait «Où sont vos calculs ?» : montrer ses calculs est «la partie la moins amusante de l'apprentissage des mathématiques, mais probablement aussi la plus importante parce qu'en montrant comment on a trouvé sa solution, on montre qu'on a réellement compris ce qu'on fait» (Mitchell, 2021, p. 121). Le raisonnement de l'IA, lui, reste une boîte noire. La conséquence est importante : «nous ne pouvons pas comprendre le fonctionnement des systèmes d'IA, nous ne pouvons leur faire confiance ou prédire les circonstances dans lesquelles ils font des erreurs» (p. 122).
Melanie Mitchell commente ainsi deux articles parus à l'automne dernier qui illustrent les limites du raisonnement des LLM.
Les limites du raisonnement des grands modèles de langage
D'un côté, McCoy et ses collègues (2024) montrent que même sur des tâches simples comme décoder un message chiffré, la performance des LLM est fortement influencée par la probabilité statistique plutôt que par un véritable raisonnement algorithmique.
Au cœur de leur fonctionnement se trouve une tâche d'apprentissage fondamentale : prédire quel mot devrait venir ensuite dans une phrase. Prenons un exemple simple. Si je vous dis «Le soleil brille dans le...», vous pensez naturellement «ciel». Notre cerveau anticipe constamment ce qui pourrait suivre dans une conversation ou un texte. Les grands modèles de langage font exactement la même chose, mais de façon systématique et à très grande échelle.
Cependant, contrairement à un humain qui raisonne, le modèle ne choisit pas un mot parce qu'il «comprend» qu'il est logique dans ce contexte. Il se base uniquement sur les statistiques : quels mots apparaissent le plus souvent après cette séquence dans les textes qu'il a analysés ? C'est comme si chaque enchaînement venait accompagné d'un nuage de termes fréquemment associés, indiquant que dans la phrase «Le soleil brille dans le...», le mot «ciel» apparaît dans 80% des cas, «jardin» dans 10% des cas, et ainsi de suite.
Cette approche statistique explique pourquoi ces modèles peuvent parfois produire des réponses qui semblent incohérentes : ils ne comprennent pas vraiment le sens des mots, ils ne font que reproduire des patterns statistiques observés dans leurs données d'entraînement. C'est un peu comme quelqu'un qui apprendrait une langue étrangère uniquement en mémorisant des phrases toutes faites, sans jamais comprendre la grammaire ou le sens des mots individuels.
Le terme «autorégressif» utilisé par les chercheurs vient de cette façon de procéder : chaque prédiction s'appuie sur les mots précédents, comme les maillons d'une chaîne. Le modèle utilise chaque nouveau mot prédit pour générer le suivant, dans un processus qui s'auto-alimente.
La chaîne de pensée
Les grands modèles de langage (LLM) comme GPT-4 impressionnent par leur capacité apparente à résoudre des problèmes complexes en détaillant leur raisonnement étape par étape. On appelle cette approche «chaîne de pensée» (Chain of Thought ou CoT). Il s'agit d'une technique de prompting qui vise à améliorer les capacités de raisonnement des grands modèles de langage. Au lieu de demander directement une réponse au modèle, on lui demande plutôt de «décomposer» son raisonnement en une séquence d'étapes intermédiaires, un peu comme un enseignant qui expliquerait sa démarche à ses élèves.
Or, en parallèle avec les chercheurs autour de McCoy, Prabhakar et son équipe (2024) démontrent que le «raisonnement» des LLM via le prompt de chaînage de pensées combine en réalité trois processus distincts.
Premièrement, il y a un effet de mémorisation pure : les modèles réussissent mieux sur des tâches qu'ils ont fréquemment rencontrées durant leur entraînement. Deuxièmement, intervient un traitement probabiliste : même pour des tâches déterministes comme le déchiffrement, les modèles sont influencés par la probabilité statistique des réponses possibles. Troisièmement, on observe un «raisonnement bruité» : c'est-à-dire que la précision diminue avec le nombre d'étapes intermédiaires nécessaires (comme si chaque étape comportait une probabilité d'erreur qui s'accumule). C'est un comportement très différent d'un algorithme déterministe qui appliquerait systématiquement la même règle.
Cette découverte a des implications importantes pour l'usage des LLM. Même lorsqu'ils semblent «raisonner» via une chaîne de pensée, leur processus reste fondamentalement statistique plutôt qu'algorithmique. Ils ne développent pas une véritable «compréhension» des principes sous-jacents comme le ferait un apprenant humain.
Il est important de comprendre le mirage du raisonnement artificiel. Cela permet de ne pas confondre la capacité à produire une séquence d'étapes qui ressemble à un raisonnement avec la compréhension profonde qui caractérise la pensée humaine. Cette différence fondamentale entre le raisonnement humain et le traitement statistique des LLM souligne l'importance de maintenir une approche critique et réfléchie dans l'utilisation de ces outils.

Les fondements du raisonnement humain
Contrairement aux LLM qui apprennent par analyse massive de données textuelles, l'apprentissage humain requiert du temps et une progression structurée qui développe explicitement la métacognition et le raisonnement autonome. Comme le souligne le neuroscientifique Antonio Damasio, «la faculté de raisonnement n'est pas aussi pure que la plupart d'entre nous le croit ou le voudrait.» En effet, le raisonnement humain «s'est probablement développé au cours de l'évolution sous l'égide de mécanismes de régulation biologique qui se traduisent notamment par la capacité d'exprimer et ressentir des émotions» (Damasio, 2017, p.8).
Cette perspective rejoint les philosophes qui, depuis Descartes, s'interrogent sur le lien entre corps et pensée. Pour Damasio, «l'activité mentale, de ses aspects les plus simples aux plus sublimes, nécessite la participation à la fois du cerveau et du corps proprement dit», car le corps «fournit un contenu fondamental aux représentations mentales» (p.15). Cette incarnation est essentielle, car elle permet de développer ce que les chercheurs appellent le «sens commun».
Mitchell identifie trois formes d'intuition fondamentales qui distinguent le raisonnement humain : une physique intuitive pour comprendre le comportement des objets, une biologie intuitive pour distinguer le vivant du non-vivant et une psychologie intuitive qui permet «de ressentir et prédire les sentiments, les croyances et les objectifs d'autrui» (Mitchell, 2021, p. 263). Ces intuitions constituent le fondement du développement cognitif humain et sous-tendent tous les aspects de l'apprentissage : notre capacité à apprendre de nouveaux concepts à partir d'un minimum d'exemples, à les généraliser et à interpréter rapidement des situations.
Damasio souligne également le rôle crucial des images mentales dans le raisonnement humain : «Les informations relatives aux faits, nécessaires au raisonnement et à la prise de décision, viennent à l'esprit sous forme d'images» (p.139). Plus important encore, il note que «les images correspondant à des événements qui ne se sont pas encore produits et qui, peut-être, ne se produiront jamais, ne sont pas d'une nature différente de celles se rapportant à des événements qui ont réellement eu lieu» (p.140). Cette capacité à imaginer et simuler mentalement des scénarios futurs distingue fondamentalement notre raisonnement du traitement statistique des LLM.
Enfin, l'apprentissage humain n'est pas linéaire. Il repose également sur la métacognition, cette capacité qui se développe progressivement à travers des activités qui sollicitent explicitement la réflexion sur son propre raisonnement.
Implications pour la pratique enseignante
Les recherches de Mitchell nous invitent à une approche critique et réfléchie de l'IA en éducation. Il est important de rester conscients des limites cognitives réelles des LLM, malgré leurs performances souvent impressionnantes, et de valider systématiquement leurs productions, particulièrement pour les tâches impliquant du raisonnement. Cette vigilance doit s'accompagner d'une pédagogie qui privilégie le développement de l'autonomie de pensée et favorise la métacognition à travers des activités structurées.
L'enseignement explicite fournit une méthodologie pour structurer cet apprentissage progressif. En décomposant les habiletés complexes en éléments plus simples et en offrant de nombreuses occasions de pratique guidée, il crée les conditions optimales pour le développement d'une réelle «chaine de pensée». De son côté, la taxonomie SOLO offre un cadre précieux pour observer et accompagner cette progression. En décrivant le passage du niveau unistructurel vers l'abstrait étendu, elle permet d'évaluer finement l'évolution de la compréhension. Cette progression reflète le développement des capacités d'abstraction et de généralisation qui sont au cœur du raisonnement humain.
Les grands modèles de langage représentent des outils puissants mais imparfaits. Comprendre leurs limites, particulièrement en matière de raisonnement abstrait, nous permet d'en faire un usage plus vigilant.
PS : On a appris il y a quelques jours qu’Open AI et Microsoft auraient signé un accord en 2023 définissant l'intelligence artificielle générale (AGI) comme «un système capable de générer 100 milliards de dollars de bénéfices». Visiblement, les big tech ne raisonnent pas comme les humains non plus…
[Publié le 6 janvier 2025]
Références :
BIGGS, J. B., & COLLIS, K. F. (1982). Evaluating the quality of learning: The SOLO taxonomy. Academic Press.
DAMASIO, A. R. (2014). Spinoza avait raison : Joie et tristesse, le cerveau des émotions. Odile Jacob.
DAMASIO, A. R. (2017). L'erreur de Descartes : La raison des émotions (Nouvelle édition). Odile Jacob.
McCOY, R. T., YAO, S., FRIEDMAN, D., HARDY, M. D., & GRIFFITHS, T. L. (2024). Embers of autoregression show how large language models are shaped by the problem they are trained to solve. Proceedings of the National Academy of Sciences, 121(41), e2322420121. [En ligne]
MITCHELL, M. (2021). L'intelligence artificielle ; Triomphes et déceptions. Dunod.
MITCHELL, M. (2024). "The LLM Reasoning Debate Heats Up" ; AI: A Guide for Thinking Humans. Substack. [En ligne]
MITCHELL, M. (2023). "Can Large Language Models Reason?" ; AI: A Guide for Thinking Humans. Substack. [En ligne]
PRABHAKAR, A., GRIFFITHS, T. L., & McCOY, R. T. (2024). Deciphering the Factors Influencing the Efficacy of Chain-of-Thought: Probability, Memorization, and Noisy Reasoning. arXiv:2407.01687v2. [En ligne]
SLOMAN, S., & FERNBACH, P. (2017). The Knowledge Illusion: Why We Never Think Alone. Riverhead Books.