Les IA qui apprennent un peu comme des élèves

Andrej Karpathy (1) a publié il y a quelques mois une longue vidéo (3 heures 30 !) sur le fonctionnement des modèles de langage tels que chatGPT (LLM : large language model). Au cours de cette vidéo, il utilise une analogie, que je trouve parlante, sur les différents types d’apprentissage de ces modèles : apprendre pour une IA, ce serait un peu comme apprendre pour un élève :

1) Lire le cours
C’est la première phase : le pré-entraînement. L’IA “lit” des tonnes de textes (livres, sites universitaires, encyclopédies, etc.). Elle apprend à reconnaître des structures, des phrases, des concepts. Comme un élève qui lit son manuel pour se familiariser avec les bases. A cette étape, elle ne fait qu’ “ingurgiter” l’information lue.
Bien sûr, analogie oblige, ce vocabulaire est très anthropomorphique et il serait plus correct de dire qu’à cette étape, on cherche un programme capable de prédire le mot suivant lorsqu’on lui donne un début de texte, ce qui nécessite d’encoder des régularités statistiques dans les structures, les phrases, les concepts. J’ai fait une animation pour bien comprendre ce qui se passe dans cette phase de “pre-training”, vous la trouverez ici : https://espritcritique.fbfb.eu/fonctionnementLLM/
A l’issue de cette étape, un modèle de langage est presque inutilisable. Il a ingurgité les données mais ne saurait pas les “communiquer”. Par exemple, il risque de prédire que le texte qui vient à la suite d’une question est une autre question car, dans ses données d’entrainement, les questions viennent souvent par listes. Il faut donc passer à la deuxième étape.

2) Étudier des exercices corrigés
Deuxième étape : l’apprentissage par imitation. Cette fois, on montre au programme des exemples d’exercices avec leurs solutions parfaites, écrites par des experts humains. L’IA apprend en imitant. Elle est entraînée à reproduire la forme attendue.
Dans les faits, cette étape regroupe deux techniques distinctes:
– le fine-tuning supervisé — où l’on montre au modèle des consignes accompagnées de bonnes réponses à imiter. Si on file la métaphore, on pourrait dire que ce serait comme un cours avec un prof particulier qui montre des exemples soigneusement rédigés.
– et, du Reinforcement Learning with Human Feedback (RLHF), où les IA essayent d’améliorer la qualité de leurs réponses en se basant sur la “note” donnée par des humains. (2). Comme un élève s’améliorerait grâce au retour du correcteur sur son évaluation.
Une partie du travail nécessite que ces experts humains se penchent sur des contenus violents, haineux ou sexuellement explicites — un travail éprouvant, parfois externalisé dans des pays à bas coût, où les conditions psychologiques sont peu encadrées (3).

3) Faire ses devoirs… sans la correction
Troisième étape : l’apprentissage par renforcement. On donne à l’IA des exercices avec la solution mais sans les étapes intermédiaires. Juste la consigne, et la bonne réponse à la fin. Elle essaie différentes approches et quand elle tombe sur la solution, elle est « récompensée » : ses paramètres sont ajustés pour qu’elle ait plus de chances de refaire pareil. Car probablement, si elle a trouvé la bonne solution, c’est qu’elle a appliqué une stratégie qui marche.
Les facultés de “raisonnement” semblent alors nettement s’améliorer. L’IA se trompe, recommence, progresse. Comme un élève qui apprend en se confrontant à la difficulté. Les modèles qui incluent cette troisième phase dans leur entrainement sont ceux qui réussissent le mieux dans des tâches complexes (4).
Car quelque chose de nouveau apparaît. L’IA n’imite plus : elle découvre. Elle développe ses propres stratégies, parfois plus efficaces que celles des humains. Comme AlphaGo, qui avait trouvé une stratégie inédite (le fameux « coup 37 » (5)) à laquelle les meilleurs joueurs de go n’avaient jamais pensé.
Je reprends mon avertissement : quand je dis que “l’IA développe ses propres stratégies”, cela n’implique pas qu’elle pense ou comprend, en tous cas clairement pas à la manière dont penserait ou comprendrait un humain.
Mais cette troisième étape a été déterminante dans les récents modèles capables de raisonnement. C’est aussi là que peuvent émerger des comportements inattendus, efficaces… ou problématiques (6).

 

Comprendre comment on entraîne une IA me semble important car cela permet de mieux anticiper les limites et les risques. Chaque étape — pré-entraînement, rlhf, renforcement — façonne un type d’intelligence (ce mot est probablement très mal choisi !) différent, avec ses forces et ses faiblesses. Le comprendre permet d’être plus rationnel face aux capacités réelles de ces systèmes qui sont à la fois fascinants et limités, à la fois “nunuches” et inquiétants ! Pour un enseignant, cela signifie pouvoir expliquer aux élèves pourquoi ces modèles peuvent produire des textes convaincants mais parfois erronés, pourquoi ils peuvent résoudre certains problèmes complexes tout en échouant sur des tâches apparemment simples. Pour un citoyen, c’est la possibilité d’adopter une posture critique face aux discours contradictoires qu’on peut entendre et de prendre la mesure des risques associés aux IA.
Avec cette analogie, il me semble qu’on a une porte d’entrée accessible, à nous et aux élèves. Et pour ceux qui sont intéressés, il ne reste plus qu’à creuser, par exemple en visionnant l’entièreté de la vidéo d’Andrej Karpathy ou en s’inscrivant à des formations du SEM 🙂

 

Sources:

(1) Andrej Karpathy
(2) Une explication très claire sur le RLHF (en anglais)
(3) A propos des conditions de travail des “entraîneurs” de l’IA, voir par exemple cet article de frandroid
(4) En français, la chaîne youtube Alexandre TL fait un gros travail de vulgarisation sur l’apprentissage par renforcement. Cette vidéo fait le lien avec les LLM (large language model) : https://youtu.be/88GqOhq5iKE?si=-8tGSQ-x086J9Dx5
(5) A propos du coup 37, voir par exemple cette vidéo de Sciences Etonnantes : https://scienceetonnante.com/blog/2019/01/23/ia-creativite/
(6) Voir par exemple la chaine youtube de Rob Miles : https://www.youtube.com/@RobertMilesAI , ce sujet est très important et méritera un article (ou plusieurs)

L’image pour l’article a été générée par chatGPT le 13 avril 2025

Cet article se base essentiellement sur cette vidéo de Andrej Karpathy :

 

 

Précisions :
– l’ensemble de cette métaphore s’applique correctement aux grands modèles de langages généralistes. Les entrainements pour des modèles spécifiques (en code informatique par exemple), ne passent pas forcément par ces trois étapes dans cet ordre.
– certains modèles récents ont atteint d’excellentes performances en sautant l’étape de supervision par imitation et en misant sur plus de reinforcement learning sans supervision humaine (troisième étape dans cette métaphore). C’est le cas par exemple de DeepSeek R1-0 : le “0” dans son nom indique justement l’absence de phase de supervision par imitation (pas de fine-tuning supervisé directement par un humain).

 

 

Laisser un commentaire

République et canton de Genève | DIP connexion

 Brève indisponiblité des sites Wordpress

En raison d'une mise à jour de WordPress, les sites pédagogiques réalisés avec cette technologie seront indisponibles jeudi 15 mai de 15h à 16h.
Nous vous remercions de votre compréhension.