LLM sous microscope

Dans quelle langue réfléchissent les LLM* ?
Est-ce que ces modèles peuvent “planifier” au-delà du prochain mot ?
Exposent-ils fidèlement leurs raisonnements quand on les leur demande ?

(*LLM : large language model, comme chatGPT par exemple)

Ces questions sont passionnantes et importantes pour évaluer les risques potentiels liés aux IA, de plus en plus performantes.
Mais, vous le savez sans doute, on peut savoir parfaitement quels calculs sont faits par un modèle mais on est bien en peine de dire pourquoi. On parle parfois de “boite noire”. En effet, les IA ne sont pas codées ligne par ligne mais sont le résultat d’un entraînement sur des masses de texte. Elles développent leurs propres stratégies, incompréhensibles même pour leurs créateurs. C’est comme si l’on avait fait pousser une créature douée de langage… sans vraiment savoir ce qu’elle pense, ni comment elle pense (et d’aucuns diraient ni si elle pense mais nous ne rentrerons pas ici dans le débat !).

Anthropic est une société qui propose des modèles de langage appelés Claude et qui est particulièrement active dans la recherche en sécurité des IA. Elle a publié en mars 2025 des recherches avec des réponses partielles à ces questions ! Pour cela, Anthropic s’est inspiré des neurosciences pour regarder directement les circuits internes d’un LLM, et voir comment se propagent les informations dans son “cerveau” numérique. Ils ont développé une sorte de “microscope de l’IA” leur permettant de relier des zones d’activation du modèle à des concepts. Leurs études, menées sur le modèle Claude 3.5 Haiku, révèlent des comportements fascinants, et parfois contre-intuitifs.

Mais trêve de suspens !

Dans quelle langue Claude pense-t-il ?

Ni l’anglais, ni le français, ni une autre langue humaine mais une sorte de langage propre de la pensée !
Comment l’équipe d’Anthropic est-elle arrivée à cette conclusion ? Ils ont donné à Claude une même phrase simple, traduite dans plusieurs langues, par exemple : “Le contraire de petit”, en anglais, français, chinois…
Ils ont alors observé les activations internes du modèle : grâce à leurs outils d’interprétabilité (le “microscope de l’IA”), ils ont identifié quelles “features” (composantes internes activées dans le modèle) sont mobilisées quand Claude traite ces phrases et ont constaté que ces activations se superposent, quelle que soit la langue utilisée : les mêmes neurones internes s’activent pour représenter les idées de “petit”, “contraire” et “grand”, avant que Claude n’écrive la réponse dans la langue demandée.

Diagramme réalisé par Claude illustrant comment la “langue de la pensée” est utilisée par Claude avant de traduire dans la langue de l’interlocuteur. Source :https://www.anthropic.com/_next/image?url=https%3A%2F%2Fwww-cdn.anthropic.com%2Fimages%2F4zrzovbb%2Fwebsite%2Fe0e156ea6c912a385d66ed562187fced8c392a58-1650×750.png&w=3840&q=75

Est-ce que Claude peut “planifier” ?

Oui. Lorsqu’on lui demande d’écrire un poème qui rime, Claude anticipe le mot de fin et structure toute la ligne pour y parvenir. Il réfléchit en amont, adapte sa stratégie si le début de la phrase change, et montre une flexibilité étonnante.

Claude expose-t-il fidèlement ses raisonnements quand on les lui demande ?

Non. En tous cas, pas toujours. Il affabule par exemple quand on lui demande de calculer 36+59 puis d’expliquer comment il a fait. Les chercheurs ont observé que, pour ce calcul, l’IA active plusieurs “chemins” dans son réseau : l’un qui lui donne un ordre de grandeur et l’autre qui calcule précisément le dernier chiffre. Mais quand on lui demande comment il a calculé, il prétend avoir utilisé l’algorithme standard de l’addition, en commençant par l’addition des unités et en utilisant une retenue.

Ajoutons encore aux découvertes de nos chercheurs en neuro-IA :
– Claude peut décomposer un raisonnement en plusieurs étapes
– Claude semble avoir une sorte de concept “je ne sais pas” qu’il active correctement mais qu’il ne respecte pas quand il est lancé dans une réponse, pris dans une sorte d’inertie.

 

L’article d’Anthropic qui résume ces découvertes se trouve ici. Il est court, passionnant et très bien illustré : j’en recommande vivement la lecture. La boîte noire perd un peu de son opacité. Et ce que l’on voit à l’intérieur est aussi fascinant qu’inquiétant. Une IA qui planifie, qui se contredit, qui sait quand elle ne sait pas, qui pense dans sa propre langue…

 

Crédit image : réalisé avec Gemini le 12 mai 2025

Laisser un commentaire

République et canton de Genève | DIP connexion