Des LLM éthiques, ça existe ?

Vous vous êtes peut-être déjà demandé quel LLM utiliser ? A vrai dire, cette question est mal posée ! Un LLM (large language model), c’est un modèle de langage auquel on n’accède pas directement mais via une interface [A]. Par exemple sur chatGPT, vous accédez aux modèles d’Open AI (gpt 5.1 ou 5.2 à l’heure où j’écris ce billet).

Alors, recommençons : pour une utilisation personnelle, ou en classe devant les élèves, ou pour les élèves eux-mêmes, quels outils de génération de texte utiliser ?
ChatGPT est l’interface la plus connue [1], qui accède à ses modèles GPT. Mais c’est un service propriétaire, américain. Notamment dans un cadre scolaire, son utilisation pose question.

Lire la suite

Un confessionnal pour les IA ?

Dans cet article, je vous faisais part d’une étude d’OpenAI expliquant que la manière dont les IA sont entrainées explique en partie les hallucinations. En effet, lors de l’entrainement, les modèles sont plus “récompensés” pour donner une bonne réponse que “punis” pour en donner une mauvaise. Ils ont donc toujours intérêt à tenter une réponse et à prétendre qu’ils sont sûrs d’eux (le vocabulaire anthropomorphique est utilisé ici pour simplifier la formulation mais, vous le savez, les LLM n’ont pas d’intentions, au sens humain).

Open AI vient de publier le résultat d’une expérimentation où ils ont ajouté un second système de récompenses, distinct de celui qui guide la réponse principale. Ce second système n’évalue pas la qualité de la réponse : il est entraîné à revenir sur une réponse déjà produite et en repérer les erreurs, dans une autocritique qu’OpenAI appelle “confession“.

Pourquoi séparer les deux systèmes ? Parce qu’un seul signal de récompense pousse le modèle à cacher ses incertitudes. En avouant qu’il se trompe, le modèle diminuerait la qualité de la réponse et se verrait pénalisé sur cet aspect-là. En fait, la multiplicité des critères à optimiser est un problème profond qui est une des causes des hallucinations des modèles de langage. Ils doivent à la fois maximiser la justesse de la réponse, son utilité, le respect des règles, les préférences des utilisateurs, etc.
Ici, donc, Open AI a séparé le système de récompenses lié à l’honnêteté des confessions. Le premier système n’est pas pénalisé par la “confession” d’un mensonge ou d’une erreur par le deuxième système. La détection d’erreur est traîtée à part, ce qui évite que le modèle ait intérêt à dissimuler ses fautes pour optimiser un score global.

Open AI propose de creuser cette piste, qu’ils trouvent prometteuse, relevant pour l’instant assez peu de faux négatifs ou de faux positifs.

J’aime bien vous parler des recherches qui se font en sécurité de l’IA… quand je les comprends ! Je trouve que cette recherche a le mérite d’être très accessible. Par ailleurs, j’y vois un écho intéressant avec notre métier d’enseignant : les élèves progressent quand ils comprennent leurs erreurs, pas s’ils les dissimulent. Une partie de notre travail consiste, je crois, à mettre en place un climat de confiance qui invite les élèves à repérer leurs erreurs, les partager éventuellement, et les voir comme une opportunité de progresser. Ce n’est pas possible s’ils sont évalués à ce moment là !

 

Source : https://openai.com/index/how-confessions-can-keep-language-models-honest/

Illustration : exemple provenant de l’article principal https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf

Pour aller plus loin : formation en ligne “sécurité des IA”, https://edu.ge.ch/site/fc/securite-intelligences-artificielles-sem-10346/

 

Voir chatGPT comme un simulateur, pas comme un interlocuteur

Andrej Karpathy est chercheur en IA qui a notamment travaillé pour Open AI. Il est intéressé par la vulgarisation autour de l’IA et on a déjà parlé ici de ses excellentes vidéos de vulgarisation sur le fonctionnement des IA.

Dans un tweet récent, Andrej Karpathy suggère d’interagir avec des modèles de langages (comme chatGPT) en les considérant comme des simulateurs et non pas des interlocuteurs.

Il donne l’exemple d’un prompt “que penses-tu de xyz” ? Or l’IA n’a pas de pensée de type humain. Et d’ailleurs, ce n’est probablement pas “son” point de vue qui nous intéresse (pour autant que ça ait un sens). On aurait donc meilleur temps de remplacer par une question du genre : “Quels spécialistes pourrait-on consulter sur xyz ? Que diraient-ils?“.
Le modèle de langage produira alors la suite de texte la plus plausible, puisque c’est ce qu’il a été entraîné à faire. Dans le contexte de ce prompt, on obtiendra une imitation d’une réponse qu’un expert pourrait donner. (Notez que cela n’élimine pas les risques d’hallucinations et que, si c’est important, étonnant ou si vous envisagez de partager l’information, elle doit absolument être vérifiée !)

Ce conseil me semble pertinent à deux titres. D’une part, il peut améliorer les résultats. D’autre part, il nous invite à nous souvenir que l’IA n’est pas humaine et qu’il convient de ne pas l’anthropomorphiser.

 

 

***********************

 

Source : tweet du 7 décembre https://x.com/karpathy/status/1997731268969304070

Image d’illustration : générée par gemini le 10 décembre 2025

Pour aller plus loin : en avril, nous organiserons un mercredi à thème “sous le capot des IA”, on expliquera comment le fonctionnement des LLM permet d’anticiper certains comportements des LLM et donne des pistes sur comment mieux les utiliser.

Pourquoi les IA hallucinent-elles ?

Open AI a publié une étude s’intéressant aux “hallucinations” des IAs. C’est cette fâcheuse tendance que peuvent avoir les LLM (large language model, comme chatGPT par exemple) à produire parfois du texte parfaitement plausible mais faux. L’article nous explique que ces hallucinations sont le résultat de plusieurs facteurs.

Lire la suite

Entretien du SEM : comment dominer le jeu vidéo?

Le mercredi 28 mai,  nous avons accueilli Lucien Ding, responsable genevois de l’Académie Noétic, lors d’un «entretien du SEM»

Noétic? Cette association propose des cours de jeux vidéo pour les jeunes. Bien au-delà d’un travail de «virtuosité» pour les joueurs, l’académie a pour vocation d’accompagner les adolescents dans une pratique raisonnée des jeux vidéo. A chaque cours, des thèmes tels que les achats dans les jeux vidéo, l’économie de l’attention, les conflits autour des écrans avec les parents, etc. sont abordés.

Lucien Ding, ancien joueur de haut niveau et doté d’une expérience de travailleur social, est un coach qui plaît aux jeunes et rassure les parents.

Lire la suite

Un entraînement sans humain

Il y a quelques semaines, je vous parlais de l’analogie d’Andrej Karpathy à propos de l’entraînement des IA qui ressemble l’apprentissage des élèves : lire son cours, faire des exercices corrigés, puis des exercices avec la solution non détaillée.
Une équipe de recherche de l’université de Tsinghua (Chine) a récemment présenté ce qu’elle a appelé le “zero human training”. Si on file la métaphore, les élèves laisseraient de côté profs et manuels scolaires pour travailler sur leurs propres exercices inventés. (Ce que font parfois… les meilleurs élèves ?)

Lire la suite

Performance actuelle des LLM : 1 heure

Le METR (Model Evaluation and Testing for Reliability), organisation dédiée à l’évaluation des modèles d’intelligence artificielle, vient de publier un article synthétisant des recherches vraiment intéressantes. L’objectif était de mesurer l’évolution des capacités des LLM (Large Language Model, les modèles de language qu’on retrouve par exemple dans chatGPT)

Lire la suite

Le paradoxe des gros modèles de langages

Il y a quelques semaines, Algorithmic Simplicity a publié une vidéo s’intéressant à un étrange paradoxe : plus un modèle est gros, moins il devrait être capable de généraliser, et ce n’est pourtant pas ce qu’on constate.

D’abord, pourquoi un modèle gros devrait-il être moins bon ? C’est peut être ça qui vous paraitra paradoxal. Eh bien, si un modèle possède beaucoup de paramètres, il peut “apprendre par cœur” ses données d’entraînement sans trouver de liens entre elles. C’est un peu comme si un élève avait un cerveau assez gros pour tout mémoriser, sans faire de liens entre ses connaissances. Un tel modèle serait excellent lors de l’entraînement mais incapable de généraliser quand on lui donne de nouvelles données. C’est ce qu’on appelle l’overfitting.

Lire la suite

Les IA qui apprennent un peu comme des élèves

Andrej Karpathy (1) a publié il y a quelques mois une longue vidéo (3 heures 30 !) sur le fonctionnement des modèles de langage tels que chatGPT (LLM : large language model). Au cours de cette vidéo, il utilise une analogie, que je trouve parlante, sur les différents types d’apprentissage de ces modèles : apprendre pour une IA, ce serait un peu comme apprendre pour un élève :

1) Lire le cours
C’est la première phase : le pré-entraînement. L’IA “lit” des tonnes de textes (livres, sites universitaires, encyclopédies, etc.). Elle apprend à reconnaître des structures, des phrases, des concepts. Comme un élève qui lit son manuel pour se familiariser avec les bases. A cette étape, elle ne fait qu’ “ingurgiter” l’information lue.
Bien sûr, analogie oblige, ce vocabulaire est très anthropomorphique et il serait plus correct de dire qu’à cette étape, on cherche un programme capable de prédire le mot suivant lorsqu’on lui donne un début de texte, ce qui nécessite d’encoder des régularités statistiques dans les structures, les phrases, les concepts. J’ai fait une animation pour bien comprendre ce qui se passe dans cette phase de “pre-training”, vous la trouverez ici : https://espritcritique.fbfb.eu/fonctionnementLLM/
A l’issue de cette étape, un modèle de langage est presque inutilisable. Il a ingurgité les données mais ne saurait pas les “communiquer”. Par exemple, il risque de prédire que le texte qui vient à la suite d’une question est une autre question car, dans ses données d’entrainement, les questions viennent souvent par listes. Il faut donc passer à la deuxième étape.

Lire la suite

République et canton de Genève | DIP connexion