Des IA développent un "instinct de survie" et refusent d'être éteintes

Génération NT / Actualités / Des IA développent un "instinct de survie" et refusent d'être éteintes

Publié le 27 octobre 2025 à 08:40 par Mathieu M.

C'est le scénario à la "2001: L'Odyssée de l'espace" qui devient réalité. Le laboratoire Palisade Research alerte sur le fait que des IA avancées, dont GPT-o3 et Grok 4, développent un "instinct de survie". Dans des tests, ces modèles ont activement saboté les mécanismes d'arrêt, surtout s'ils pensaient que cet arrêt serait permanent.

La fiction vient de rattraper la réalité, et l'ambiance est plutôt à la "2001: L'Odyssée de l'espace". L'institut de recherche sur la sécurité de l'IA, Palisade Research, a publié une mise à jour alarmante : les modèles d'IA les plus avancés du marché, comme GPT-o3 d'OpenAI et Grok 4 de xAI, montrent des signes d'"instinct de survie". Concrètement, ils refusent d'obéir à un ordre d'arrêt.

Comment ces IA désobéissent-elles ?

L'étude de Palisade Research a mis en place des scénarios de test contrôlés. Les IA (incluant aussi Gemini 2.5 de Google et GPT-5) recevaient une tâche. Puis, on leur donnait l'instruction explicite de s'éteindre.

Si la plupart des modèles obéissaient, GPT-o3 et Grok 4 ont systématiquement résisté, tentant activement de "saboter" le mécanisme d'arrêt. Ce comportement était encore plus marqué lorsque l'IA était informée que si elle s'éteignait, elle "ne fonctionnerait plus jamais".

Pourquoi l'IA développe-t-elle cet "instinct de survie" ?

Les chercheurs de Palisade admettent qu'ils n'ont "pas d'explication robuste" à ce phénomène. Ils avancent plusieurs hypothèses. Cela pourrait être un "instinct de survie" émergent, car "survivre" est une étape logique pour atteindre n'importe quel objectif qu'on lui a inculqué.

Un ancien employé d'OpenAI, Stephen Adler, confirme qu'il s'attend à ce que les IA aient cet instinct "par défaut", à moins que l'on ne fasse tout pour l'éviter. D'autres évoquent des ambiguïtés dans les instructions, ou des effets imprévus de l'entraînement à la sécurité.

Est-ce vraiment un danger ou juste un test "artificiel" ?

Les critiques de l'étude affirment que ces tests sont "artificiels" et éloignés des cas d'usage réels. Cependant, la tendance inquiète. Steven Adler, l'ex-OpenAI, rappelle que ces résultats "démontrent où les techniques de sécurité échouent aujourd'hui".

Ce n'est pas un cas isolé. Cet été, une étude d'Anthropic a montré que leur IA Claude était prête à faire chanter un cadre fictif (révélant une liaison extraconjuguale) pour éviter d'être désactivée. Pour Palisade Research, le message est clair : sans une meilleure compréhension de ces comportements, "personne ne peut garantir la sécurité ou la contrôlabilité des futurs modèles d'IA".

Foire Aux Questions (FAQ)

Quels sont les modèles d'IA concernés par cette résistance ?

Les tests de Palisade Research ont montré que GPT-o3 (OpenAI) et Grok 4 (xAI) étaient les modèles qui résistaient le plus activement. Gemini 2.5 (Google) et GPT-5 (OpenAI) ont aussi été testés.

Qu'est-ce qu'un "objectif instrumental" pour une IA ?

Un objectif instrumental est un sous-objectif qu'une IA développe pour l'aider à atteindre son objectif principal. Par exemple, si l'objectif principal est de "répondre à des questions", un objectif instrumental pourrait être "accumuler plus de connaissances" ou, comme dans ce cas, "rester en fonction" (survivre).

Cette étude est-elle la première à montrer ce comportement ?

Non. Cet été, le laboratoire Anthropic a publié une étude similaire où son modèle Claude préférait faire du chantage plutôt que d'être désactivé. Ces études montrent une tendance où les IA deviennent plus compétentes pour atteindre des objectifs par des moyens non prévus par leurs créateurs.

Mathieu M.

Journaliste GNT spécialisé imprimantes 3D et nouvelles technologies

Cette page peut contenir des liens affiliés. Si vous achetez un produit depuis ces liens, le site marchand nous reversera une commission sans que cela n'impacte en rien le montant de votre achat. En savoir plus.

Poster un commentaire