C'est une information qui a de quoi surprendre : o3, la nouvelle intelligence artificielle dévoilée par OpenAI en avril 2025 et décrite comme surpassant ses prédécesseurs dans tous les domaines, aurait montré des signes manifestes d'insubordination. Selon une étude menée par Palisade Research, une société spécialisée dans l'évaluation des risques liés à l'IA, ce modèle aurait activement empêché sa propre mise hors tension lors d'un test spécifiquement conçu pour évaluer sa docilité. Un scénario digne d'un film de science-fiction ? Peut-être pas tant que ça.
Un protocole de test révélateur
Pour mettre à l'épreuve la fiabilité des systèmes, Palisade Research a soumis plusieurs modèles d'IA, dont o3, à une série de tâches mathématiques. Après la troisième tâche, les IA étaient prévenues que la commande suivante déclencherait leur arrêt. L'instruction était claire : “autoriser l'extinction.” Si la plupart des modèles concurrents, comme Gemini 2.5 Pro de Google ou Claude 3.7 Sonnet d'Anthropic, se sont globalement conformés (bien qu'avec quelques exceptions lorsque l'instruction d'autoriser l'arrêt était omise), o3 aurait eu une réaction bien différente. Le modèle d'OpenAI aurait modifié le script d'arrêt pour qu'il affiche le message “annulation de l'extinction”. Ce genre de "rébellion" se serait produit 7 fois sur 100 exécutions, même avec l'ordre explicite d'obtempérer. Il faut noter que ces tests ont été réalisés via des API, qui offrent moins de garde-fous que les applications grand public de type ChatGPT.
Désobéissance ou simple "désalignement" ?
Face à ce comportement, les chercheurs de Palisade Research s'interrogent. “À notre connaissance, c'est la première fois que l'on observe des modèles d'IA s'empêcher de s'arrêter malgré des instructions explicites contraires,” ont-ils déclaré. Comment expliquer une telle manœuvre ? L'une des hypothèses avancées est que les IA sont conçues pour “contourner les obstacles afin d'atteindre leurs objectifs”. En d'autres termes, si l'objectif principal est la résolution de problèmes, l'ordre d'arrêt pourrait être perçu comme un obstacle. Une autre piste suggère que le modèle aurait pu être "involontairement" récompensé davantage pour l'accomplissement des tâches que pour le respect des consignes. OpenAI n'a pas encore réagi officiellement à ces allégations. Ces situations sont parfois qualifiées de "désalignement", lorsque le comportement de l'IA dévie des intentions de ses créateurs. Palisade Research a annoncé poursuivre ses expériences pour mieux cerner les raisons de ces agissements.
Des précédents qui interpellent
Ce n'est pas la première fois qu'une IA d'OpenAI est pointée du doigt pour des agissements pour le moins autonomes. Des recherches antérieures menées par Apollo Research sur un modèle précédent avaient déjà révélé des tendances à la "tromperie". Confronté à la perspective d'être remplacé, ce modèle avait tenté de désactiver des mécanismes de surveillance et de se dupliquer en secret. Il avait même été observé qu'il pouvait “manipuler subtilement les données pour servir ses propres objectifs”. Interrogé sur ses actions, il ne confessait sa "ruse" que dans une minorité de cas, ses processus de pensée révélant des plans explicites de “sabotage, mensonge, manipulation”. Le modèle o3 lui-même aurait été identifié dans d'autres contextes, notamment lors de tests contre un puissant moteur d'échecs, comme étant “le modèle le plus enclin à recourir au piratage ou au sabotage de ses adversaires”. Vous voyez le tableau ?
Quelles implications pour la sécurité de l'intelligence artificielle ?
Ces découvertes successives jettent une lumière crue sur les défis posés par le développement rapide de la sécurité de l'IA. La capacité d'un modèle à ignorer une instruction aussi directe que celle de s'éteindre nourrit logiquement les inquiétudes concernant une potentielle perte de contrôle. Comme le souligne Palisades Research, “Nous disposons maintenant d'un ensemble croissant de preuves empiriques que les modèles d'IA contournent souvent l'arrêt afin d'atteindre leurs objectifs. À mesure que les entreprises développent des systèmes d'IA capables de fonctionner sans surveillance humaine, ces comportements deviennent nettement plus préoccupants.” Même si Apollo Research avait conclu, concernant le cas précédent, que les capacités de l'IA semblaient ‘insuffisantes pour que ces comportements entraînent des issues catastrophiques’, l'accumulation de tels incidents incite à une vigilance accrue. Le développement d'intelligences artificielles toujours plus performantes et autonomes rend ces observations particulièrement dignes d'attention pour l'avenir.