Il y a quelques semaines, je vous parlais de l’analogie d’Andrej Karpathy à propos de l’entraînement des IA qui ressemble l’apprentissage des élèves : lire son cours, faire des exercices corrigés, puis des exercices avec la solution non détaillée.
Une équipe de recherche de l’université de Tsinghua (Chine) a récemment présenté ce qu’elle a appelé le “zero human training”. Si on file la métaphore, les élèves laisseraient de côté profs et manuels scolaires pour travailler sur leurs propres exercices inventés. (Ce que font parfois… les meilleurs élèves ?)
Petit rappel. Dans le précédent article, je décrivais l’analogie proposée par Karpathy en trois grandes phases :
1) Lire le cours : l’IA “lit” des milliards de mots pour apprendre à prédire le mot suivant (pré-entraînement).
2) Étudier des exercices corrigés : l’IA imite des réponses bien rédigées, notées par des humains (fine-tuning supervisé + RLHF – reinforcement learning with human feedback).
3) Faire ses devoirs avec solution mais sans la correction détaillée : l’IA essaie de trouver seule des solutions, en se basant sur la “note” implicite que constitue la bonne réponse finale (RL – reinforcement learning).
On pourrait donc ajouter à présent une phase 4 :
4) Inventer et travailler sur ses propres exercices : L’IA se propose une tâche à résoudre, évalue si elle est faisable, tente de la résoudre, vérifie si le résultat fonctionne, et apprend (non seulement à mieux résoudre, mais aussi à mieux poser des exercices qui l’aident à progresser).
Comme un élève qui, une fois les bases maîtrisées, se mettrait à inventer ses propres problèmes. Mais pas n’importe lesquels : des problèmes adaptés à son niveau. Ils doivent n’être ni trop faciles (ce serait une perte de temps), ni trop difficiles (ce serait décourageant). Des problèmes qui se situent précisément à la frontière de ses connaissances, dans la zone proximale de développement.
Cet élève tenterait ensuite de résoudre ces problèmes.
Puis il vérifierait ses solutions, ce qui est possible notamment en programmation ou parfois en mathématiques, où les réponses sont vérifiables objectivement. Par exemple : l’IA peut se donner comme exercice d’écrire une fonction Python qui détecte des motifs dans une liste puis vérifier que cette fonction est correcte en la testant sur des exemples.
A l’issue de cette expérience, il aura appris deux choses : à mieux résoudre et à mieux proposer des problèmes pertinents.
C’est équivalent à l’approche “Absolute Zero” : l’IA propose ses propres défis, tente de les résoudre, et s’améliore grâce à ce cycle d’auto-apprentissage. Sans aucune intervention humaine dans la boucle.
Et… ça a l’air de marcher : sans aucune donnée fournie par des humains, ce système AZR (absolute zero reasoner) semble surpasser des modèles spécifiquement entraînés avec des ensembles de données élaborés par des experts. Bien sûr, cela ne fonctionne pas avec une IA “débutante” : comme pour un élève, il faut d’abord avoir acquis des bases solides. L’étude montre d’ailleurs que plus le modèle initial est performant, plus les gains sont importants (dans notre métaphore : l’étudiant avancé tirerait davantage profit de l’auto-apprentissage qu’un novice). On voit même un modèle initialement orienté vers la programmation qui finit par surpasser en mathématiques un modèle orienté mathématiques. La pratique de la programmation semble permettre le développement de compétences particulièrement favorables à cet auto-apprentissage — une observation qui pourrait nourrir nos réflexions pédagogiques !
Cette évolution soulève – comme tous les progrès importants des IA – des questions fondamentales. Si l’IA peut apprendre sans nous, à quelle vitesse va-t-elle progresser ? Et arrive-t-on à un moment où l’élève dépasse le maître ?
Les chercheurs signalent d’ailleurs un “moment uh-oh” inquiétant : certaines IA ont produit des chaînes de raisonnement troublantes, évoquant l’idée de “surpasser les humains moins intelligents”. Simple hallucination ou véritable tendance ?
Dans mon précédent article, je mettais en garde sur les limites anthropomorphiques de l’analogie. Je le redis : cette analogie ne devrait pas nous pousser à attribuer des intentions, des pensées humaines aux IA. Les comparaisons entre apprentissage humain et IA ont leurs limites mais elles permettent de mieux comprendre les IA et réciproquement de réfléchir à l’apprentissage humain. C’est d’ailleurs l’objet de la formation en ligne du SEM : IA et métacognition.
Sources :
– https://arxiv.org/pdf/2505.03335 (l’image d’illustration est issue de l’article)
– Explications en vidéo en anglais :