Le METR (Model Evaluation and Testing for Reliability), organisation dédiée à l’évaluation des modèles d’intelligence artificielle, vient de publier un article synthétisant des recherches vraiment intéressantes. L’objectif était de mesurer l’évolution des capacités des LLM (Large Language Model, les modèles de language qu’on retrouve par exemple dans chatGPT)
1) Quelle mesure ?
Ce qui me parait particulièrement intéressant, c’est le choix fait pour mesurer les capacités des LLM : on note à quel point les LLM sont capables de réaliser des tâches longues d’humains. Ils ont commencé par établir une référence de temps pour différentes taches plus ou moins complexes en les faisant réaliser par des humains (professionnels). Puis ils ont regardé comment les LLM s’en sortaient, selon la durée (humaine) de la tâche. Typiquement, Claude 3.7 Sonnet, un des meilleurs modèles actuels, réussit 80% des tâches qui prennent 15 minutes à un humain et 50% des tâches qui prennent une heure.

En mesurant la probabilité qu’un modèle réussisse une tâche donnée en fonction du temps qu’un humain mettrait à l’accomplir, ils introduisent donc une métrique nouvelle : l’horizon temporel de complétion à 50 %.
Je trouve que c’est une manière très pertinente de mesurer les capacités des LLM et qui confirme l’expérience que j’ai de ces outils. Par exemple quand je les utilise pour coder, alors qu’ils codent beaucoup mieux que moi !, je me rends compte que je dois les guider pour des petits pas de “15-20 minutes de code”. Ils ne seraient pas encore capables de réaliser en une seule fois un projet correspondant à plusieurs heures de développement, même très bien prompté. (2)
2) Quelle évolution ?
L’objectif principal de la recherche était de mesurer la progression des modèles : la durée des tâches que les agents réussissent dans 50 % des cas – l’horizon temporel à 50% – augmente de façon exponentielle. Précisément l’horizon temporel des LLM semble doubler tous les 7 mois. Une sorte de “loi de Moore” des IA. Si cette tendance se poursuit, ce qui reste incertain, et qu’on est à 1 heure aujourd’hui, je vous laisse vérifier qu’on sera à 1 mois de travail humain en 2029… les IA pourraient alors être capables d’automatiser des tâches très complexes, ce qui aurait des implications majeures (si la tendance est bien mesurée et si elle se poursuit). Cela me rappelle aussi une idée de Stuart Russell, dans son livre passionnant Human Compatible : selon lui pour que les IA puissent gérer efficacement des tâches complexes, elles doivent être capables de raisonner à un niveau méta, en planifiant, en décomposant les tâches et en allouant judicieusement leurs ressources.
L’évolution rapide des capacités des IA devrait, je crois, nous préoccuper au plus haut point. Le problème de l’alignement, régulièrement évoqué dans ce blog, est complexe et devra impérativement être résolu avant l’émergence d’IA générales. Mais les systèmes actuels représentent déjà un risque concret : à mesure que leur horizon temporel s’étend et qu’on leur confie davantage d’initiative, nous prenons le risque d’en perdre petit à petit le contrôle.
____________________________
Sources :
Explication d’AI Digest et image en haut de ce billet : https://theaidigest.org/time-horizons
L’article de METR : https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/ et l’étude complète sur arxiv: https://arxiv.org/pdf/2503.14499
Exlications en vidéo sur computerphile :