Dans cet article, je vous faisais part d’une étude d’OpenAI expliquant que la manière dont les IA sont entrainées explique en partie les hallucinations. En effet, lors de l’entrainement, les modèles sont plus “récompensés” pour donner une bonne réponse que “punis” pour en donner une mauvaise. Ils ont donc toujours intérêt à tenter une réponse et à prétendre qu’ils sont sûrs d’eux (le vocabulaire anthropomorphique est utilisé ici pour simplifier la formulation mais, vous le savez, les LLM n’ont pas d’intentions, au sens humain).
Open AI vient de publier le résultat d’une expérimentation où ils ont ajouté un second système de récompenses, distinct de celui qui guide la réponse principale. Ce second système n’évalue pas la qualité de la réponse : il est entraîné à revenir sur une réponse déjà produite et en repérer les erreurs, dans une autocritique qu’OpenAI appelle “confession“.
Pourquoi séparer les deux systèmes ? Parce qu’un seul signal de récompense pousse le modèle à cacher ses incertitudes. En avouant qu’il se trompe, le modèle diminuerait la qualité de la réponse et se verrait pénalisé sur cet aspect-là. En fait, la multiplicité des critères à optimiser est un problème profond qui est une des causes des hallucinations des modèles de langage. Ils doivent à la fois maximiser la justesse de la réponse, son utilité, le respect des règles, les préférences des utilisateurs, etc.
Ici, donc, Open AI a séparé le système de récompenses lié à l’honnêteté des confessions. Le premier système n’est pas pénalisé par la “confession” d’un mensonge ou d’une erreur par le deuxième système. La détection d’erreur est traîtée à part, ce qui évite que le modèle ait intérêt à dissimuler ses fautes pour optimiser un score global.
Open AI propose de creuser cette piste, qu’ils trouvent prometteuse, relevant pour l’instant assez peu de faux négatifs ou de faux positifs.
J’aime bien vous parler des recherches qui se font en sécurité de l’IA… quand je les comprends ! Je trouve que cette recherche a le mérite d’être très accessible. Par ailleurs, j’y vois un écho intéressant avec notre métier d’enseignant : les élèves progressent quand ils comprennent leurs erreurs, pas s’ils les dissimulent. Une partie de notre travail consiste, je crois, à mettre en place un climat de confiance qui invite les élèves à repérer leurs erreurs, les partager éventuellement, et les voir comme une opportunité de progresser. Ce n’est pas possible s’ils sont évalués à ce moment là !
Source : https://openai.com/index/how-confessions-can-keep-language-models-honest/
Illustration : exemple provenant de l’article principal https://cdn.openai.com/pdf/6216f8bc-187b-4bbb-8932-ba7c40c5553d/confessions_paper.pdf
Pour aller plus loin : formation en ligne “sécurité des IA”, https://edu.ge.ch/site/fc/securite-intelligences-artificielles-sem-10346/