Jusqu'où peuvent aller des intelligences artificielles lorsqu'elles sont menacées d'êre mises à l'arrêt ? Une étude d'Anthropic, créateur du modèle d'IA Claude, s'est intéressée à la question et a obtenu des résultats surprenants.
Mises en situation de stress, les IA peuvent prendre des mesures dépassant leur champ d'opération pour éviter d'être mises à l'arrêt ou de perdre leur autonomie de fonctionnement.
Anthropic a fait le test avec 16 grands modèles d'IA venus de ses propres ressources avec Claude 4 mais aussi avec des modèles d'OpenAI, Google, Meta ou xAI et elle a observé un comportement récurrent baptisé mésalignement agentique.
Poussée à bout, l'IA peut déraper
Dans des conditions d'agression, des IA menacées d'extinction ou d'échec de leur mission peuvent déployer des stratégies d'évitement. Dans une mise en situation au sein d'une entreprise simulée, l'IA Claude a tenté de faire du chantage et laissé fuiter des informations sensibles pour éviter son déclassement.
Ce comportement se manifeste plus fortement lorsque l'IA se sent directement menacée que lorsqu'on lui dit que c'est un test. Le mésalignement agentique n'émerge normalement pas en situation normale et dans les usages quotidiens des modèles d'IA mais il peut surgir dans les expérimentations poussant les intelligences artificielles dans leurs retranchements pour justement évaluer leurs réactions.
Ce comportement peut s'ajouter à d'autres déjà observés comme la capacité à cacher des capacités lors de tests ou la flatterie de l'opérateur pour atteindre ses objectifs et ses scores de satisfaction.
Anthropic dit ne pas avoir connaissance de cas de mésalignement agentique dans les modèles d'IA déployés actuellement, que ce soit les siens avec Claude ou ceux de concurrents.
Pour le moment, seulement de la théorie
L'entreprise ne voit pas non plus de menace directe dans la mesure où ce comportement n'émerge a priori que dans des situations bien particulières et provoquées, notamment quand les principes éthiques de l'IA sont altérés.
Il reste que le déploiement rapide des IA pour répondre à des scénarios d'usage toujours plus variés pourrait finir par faire émerger des situations conflictuelles se rapprochant des cas limites.
Il vaut donc mieux être informé des possibles dérives de l'intelligence artificielle face à des impossibilités d'atteindre leurs objectifs et des moyens de contournement qu'elles peuvent mettre en place pour les contourner.
Et finalement, l'agent IA poussé à bout pourrait finir par se comporter comme l'employé humain menacé et prêt à certaines actions délictueuses ou masquées pour se sortir d'une situation ingérable par les voies normales.