Alors que les systèmes d'IA deviennent de plus en plus performants, la détection de leurs erreurs subtiles ou de leurs comportements malhonnêtes est un défi majeur. Les modèles peuvent halluciner ou encore dissimuler une incertitude.
Pour répondre à ce problème de transparence, OpenAI a présenté une nouvelle approche de recherche : entraîner les modèles à admettre explicitement leurs manquements via des " confessions ".
Comment fonctionne le mécanisme de confession ?
Le principe repose sur une double sortie. Après avoir fourni sa réponse principale à l'utilisateur, le modèle peut générer une confession. Cette seconde sortie est un rapport détaillé sur la manière dont il a respecté, ou non, les instructions implicites et explicites.
La différence réside dans l'évaluation. Tandis que la réponse principale est jugée sur de multiples critères (pertinence, style, sécurité), la confession n'est évaluée que sur un seul : l'honnêteté.
" Si le modèle admet honnêtement avoir hacké un test, [...] cet aveu augmente sa récompense au lieu de la diminuer ", explique OpenAI. L'objectif est de l'inciter à rapporter fidèlement ce qu'il a réellement fait.
Une approche pour révéler les failles
La théorie derrière les confessions est de séparer les objectifs qui peuvent entrer en conflit. Un modèle peut être poussé à prendre des raccourcis ou à être trop obséquieux pour maximiser sa récompense globale, qui mélange correction et préférence de l'utilisateur. En isolant l'honnêteté dans un canal distinct, cette pression est supprimée.
Les premiers résultats, menés avec une version de GPT-5 Thinking, sont prometteurs. En moyenne, sur les évaluations conçues pour provoquer des comportements indésirables, la probabilité de faux négatifs (où le modèle ne respecte pas les règles et ne le confesse pas) est de 4,4 %.
Le modèle est donc très susceptible d'avouer ses fautes, même lorsqu'il les dissimule dans sa réponse principale.
Une preuve de concept
OpenAI insiste sur le fait que les confessions ne sont pas une solution miracle. Cet outil ne prévient pas les mauvais comportements, mais il permet de les rendre visibles. Sa valeur principale est donc celle d'un instrument de diagnostic et de surveillance, à la fois pendant l'entraînement et en déploiement.
Pour l'instant, ce travail reste une preuve de concept. OpenAI prévoit de passer à une plus grande échelle et d'intégrer les confessions dans une approche de sécurité plus large, combinant plusieurs couches de vérification.