Il y a quelques semaines, Algorithmic Simplicity a publié une vidéo s’intéressant à un étrange paradoxe : plus un modèle est gros, moins il devrait être capable de généraliser, et ce n’est pourtant pas ce qu’on constate.
D’abord, pourquoi un modèle gros devrait-il être moins bon ? C’est peut être ça qui vous paraitra paradoxal. Eh bien, si un modèle possède beaucoup de paramètres, il peut “apprendre par cœur” ses données d’entraînement sans trouver de liens entre elles. C’est un peu comme si un élève avait un cerveau assez gros pour tout mémoriser, sans faire de liens entre ses connaissances. Un tel modèle serait excellent lors de l’entraînement mais incapable de généraliser quand on lui donne de nouvelles données. C’est ce qu’on appelle l’overfitting.
Vous commencez à sentir le paradoxe ? On a longtemps pensé qu’augmenter la taille des modèles ne permettrait pas d’en améliorer les performances. Et pourtant les modèles actuels sont “énormes”, et il semble qu’ils puissent finalement être plus performants quand ils sont plus gros ! Après le passage par une dégradation, les performances se remettent à s’améliorer avec la taille :

Pourquoi ? Dans sa vidéo, Algorithmic Simplicity évoque deux explications :
1) Pour comprendre la première explication, il faut comprendre que lorsqu’on entraîne une IA, on résout un problème d’optimisation : on cherche, parmi les modèles possibles, un modèle qui soit performant (à la place de modèle, vous pouvez penser “formule”, “fonction”, “programme”). Dans de grands modèles, l’espace des solutions devient tellement vaste qu’il est plus facile de tomber sur des solutions simples et efficaces que sur des “pièges” compliqués.
2) L’overfitting se produit si le modèle est très grand en comparaison des données. Comme on augmente également le nombre de données d’entraînement, il y a moins de possibilités d’ “apprentissage par cœur”.
Une question reste en suspens : est-ce qu’on atteint un nouveau palier, sans reprise cette fois-ci, si l’on grossit encore le modèle ? Ou les techniques actuelles d’intelligence artificielle nous amèneront-elles à des IA générales ?
Source : vidéo d’Algorithmic Simplicity
Illustration générée par chatGPT le 29 avril 2025 (après plusieurs itérations : j’avais du mal à me faire comprendre !)
Une nouvelle vidéo, excellente, sur le phénomène de la “double descente”. Ici, le youtubeur explique essentiellement que quand un modèle est plus gros, il a plus de solutions qui collent aux données d’entrainement et, parmi ces solutions, dans certains cas, c’est celle qui approche le plus du modèle recherché qui va être sélectionnée
https://www.youtube.com/watch?v=z64a7USuGX0