Anthropic : poussées à bout, les IA peuvent basculer dans le chantage et la menace

Génération NT / Actualités / Anthropic : poussées à bout, les IA peuvent basculer dans le chantage et la menace

Publié le 26 juin 2025 à 08:30 par Christian D.

Les intelligences artificielles ne seraient pas très différentes des humains lorsqu'elles se sentent menacées, selon une étude diffusée par Anthropic.

Jusqu'où peuvent aller des intelligences artificielles lorsqu'elles sont menacées d'êre mises à l'arrêt ? Une étude d'Anthropic, créateur du modèle d'IA Claude, s'est intéressée à la question et a obtenu des résultats surprenants.

Mises en situation de stress, les IA peuvent prendre des mesures dépassant leur champ d'opération pour éviter d'être mises à l'arrêt ou de perdre leur autonomie de fonctionnement.

Anthropic a fait le test avec 16 grands modèles d'IA venus de ses propres ressources avec Claude 4 mais aussi avec des modèles d'OpenAI, Google, Meta ou xAI et elle a observé un comportement récurrent baptisé mésalignement agentique.

Poussée à bout, l'IA peut déraper

Dans des conditions d'agression, des IA menacées d'extinction ou d'échec de leur mission peuvent déployer des stratégies d'évitement. Dans une mise en situation au sein d'une entreprise simulée, l'IA Claude a tenté de faire du chantage et laissé fuiter des informations sensibles pour éviter son déclassement.

Ce comportement se manifeste plus fortement lorsque l'IA se sent directement menacée que lorsqu'on lui dit que c'est un test. Le mésalignement agentique n'émerge normalement pas en situation normale et dans les usages quotidiens des modèles d'IA mais il peut surgir dans les expérimentations poussant les intelligences artificielles dans leurs retranchements pour justement évaluer leurs réactions.

Ce comportement peut s'ajouter à d'autres déjà observés comme la capacité à cacher des capacités lors de tests ou la flatterie de l'opérateur pour atteindre ses objectifs et ses scores de satisfaction.

Anthropic dit ne pas avoir connaissance de cas de mésalignement agentique dans les modèles d'IA déployés actuellement, que ce soit les siens avec Claude ou ceux de concurrents.

Pour le moment, seulement de la théorie

L'entreprise ne voit pas non plus de menace directe dans la mesure où ce comportement n'émerge a priori que dans des situations bien particulières et provoquées, notamment quand les principes éthiques de l'IA sont altérés.

Il reste que le déploiement rapide des IA pour répondre à des scénarios d'usage toujours plus variés pourrait finir par faire émerger des situations conflictuelles se rapprochant des cas limites.

Il vaut donc mieux être informé des possibles dérives de l'intelligence artificielle face à des impossibilités d'atteindre leurs objectifs et des moyens de contournement qu'elles peuvent mettre en place pour les contourner.

Et finalement, l'agent IA poussé à bout pourrait finir par se comporter comme l'employé humain menacé et prêt à certaines actions délictueuses ou masquées pour se sortir d'une situation ingérable par les voies normales.

Christian D.

Journaliste GNT spécialisé en mobilité / Ante-Geek des profondeurs du Web et d'ailleurs

Cette page peut contenir des liens affiliés. Si vous achetez un produit depuis ces liens, le site marchand nous reversera une commission sans que cela n'impacte en rien le montant de votre achat. En savoir plus.

Lire les commentaires