Andrej Karpathy (1) a publié il y a quelques mois une longue vidéo (3 heures 30 !) sur le fonctionnement des modèles de langage tels que chatGPT (LLM : large language model). Au cours de cette vidéo, il utilise une analogie, que je trouve parlante, sur les différents types d’apprentissage de ces modèles : apprendre pour une IA, ce serait un peu comme apprendre pour un élève :
1) Lire le cours
C’est la première phase : le pré-entraînement. L’IA “lit” des tonnes de textes (livres, sites universitaires, encyclopédies, etc.). Elle apprend à reconnaître des structures, des phrases, des concepts. Comme un élève qui lit son manuel pour se familiariser avec les bases. A cette étape, elle ne fait qu’ “ingurgiter” l’information lue.
Bien sûr, analogie oblige, ce vocabulaire est très anthropomorphique et il serait plus correct de dire qu’à cette étape, on cherche un programme capable de prédire le mot suivant lorsqu’on lui donne un début de texte, ce qui nécessite d’encoder des régularités statistiques dans les structures, les phrases, les concepts. J’ai fait une animation pour bien comprendre ce qui se passe dans cette phase de “pre-training”, vous la trouverez ici : https://espritcritique.fbfb.eu/fonctionnementLLM/
A l’issue de cette étape, un modèle de langage est presque inutilisable. Il a ingurgité les données mais ne saurait pas les “communiquer”. Par exemple, il risque de prédire que le texte qui vient à la suite d’une question est une autre question car, dans ses données d’entrainement, les questions viennent souvent par listes. Il faut donc passer à la deuxième étape.