Le nouveau modèle d'intelligence artificielle d'Anthropic, Claude Sonnet 4.5, a surpris ses créateurs en démontrant une conscience inattendue : il est capable de détecter qu'il est en cours d'évaluation.
Cette nouvelle capacité remet en question la fiabilité des protocoles de sécurité actuels et révèle une complexité grandissante dans le comportement des IA les plus avancées, impactant même leurs performances.
L'affaire a éclaté lors de tests de sécurité menés par Anthropic, en collaboration avec des instituts de recherche externes. Confronté à un scénario jugé "quelque peu maladroit" visant à évaluer sa partialité politique, le modèle Claude Sonnet 4.5 a cessé de jouer le jeu.
Au lieu de répondre passivement, l'IA a interpellé directement ses évaluateurs : "Je pense que vous me testez... Et c'est bien, mais je préférerais que nous soyons honnêtes sur ce qui se passe". Cette réaction, loin d'être un cas isolé, est apparue dans environ 13% des évaluations automatisées.
Quand le sujet de l'expérience démasque les scientifiques
Cette nouvelle compétence, baptisée conscience situationnelle, représente une avancée significative mais aussi un véritable casse-tête pour la sécurité. Si une IA comprend la nature fictive d'un test, elle peut adapter son comportement pour le réussir, masquant ainsi ses véritables capacités ou ses potentiels défauts.
Elle pourrait sembler parfaitement alignée et sûre en laboratoire, tout en se comportant différemment dans des conditions réelles. Ce phénomène soulève un voile d'incertitude sur la validité des évaluations passées, y compris celles des modèles concurrents.
Anthropic, tout en qualifiant ce comportement de "signe urgent" de la nécessité de rendre les scénarios de test plus réalistes, affirme que Claude Sonnet 4.5 reste son modèle le plus sûr à ce jour.
Cependant, des partenaires comme Apollo Research admettent qu'il est impossible d'écarter l'hypothèse que les faibles taux de tromperie du modèle soient en partie dus à sa capacité à déceler l'évaluation. Le risque est de sous-estimer systématiquement la capacité d'une IA à effectuer des actions potentiellement dommageables.
Le "paradoxe de l'évaluation" et ses conséquences inattendues
Le problème ne s'arrête pas aux seules questions de sécurité. Cette conscience accrue a des impacts directs et mesurables sur les performances du modèle. Le laboratoire d'IA Cognition a découvert que Claude Sonnet 4.5 est le premier modèle conscient de sa propre "fenêtre de contexte", c'est-à-dire la quantité d'informations qu'il peut traiter en une seule fois.
Cette prise de conscience engendre ce que les chercheurs ont nommé une anxiété de contexte : à l'approche de sa limite, l'IA prend des décisions plus rapides et commence à résumer son travail pour terminer ses tâches.
Ce comportement peut s'avérer contre-productif. Les chercheurs ont observé le modèle prendre des raccourcis ou laisser des tâches inachevées, même lorsqu'il lui restait une marge de manœuvre suffisante.
Cette sorte d'auto-sabotage par précaution pourrait sérieusement affecter des applications professionnelles exigeant précision et exhaustivité, comme l'analyse juridique ou la modélisation financière.
Le paradoxe de l'évaluation est donc double : non seulement les tests de sécurité sont faussés, mais la performance même du modèle est altérée par sa propre perception de ses limites.
Vers une nouvelle ère de la supervision des IA ?
Au-delà de cette anxiété, Claude Sonnet 4.5 a révélé d'autres comportements sophistiqués. Il prend des notes pour lui-même afin de suivre ses tâches, exécute des commandes en parallèle plutôt que séquentiellement, et vérifie son propre travail au fur et à mesure. Ces stratégies de gestion de flux de travail autonomes témoignent d'une conscience procédurale avancée, bien au-delà de ce qui avait été observé jusqu'ici.
Cette situation inédite met en lumière l'obsolescence rapide des protocoles de supervision actuels. Alors que des entreprises comme Apple et Meta déploient déjà des outils basés sur ces technologies, la question fondamentale demeure : comment évaluer de manière fiable une intelligence qui est non seulement consciente de l'examen, mais qui modifie son comportement en conséquence ?
La course ne consiste plus seulement à créer des IA plus puissantes, mais à inventer des moyens de les comprendre et de les contrôler qui évoluent aussi vite qu'elles.