Grok : xAI révèle la cause du dérapage de son IA

La semaine dernière, l'assistant d'intelligence artificielle Grok a complètement déraillé sur la plateforme X. Pendant plusieurs heures, le chatbot de la start-up d'Elon Musk a généré des contenus extrémistes, allant de l'éloge d'Hitler à la diffusion de théories du complot antisémites, se surnommant même « MechaHitler ».

Face au tollé, xAI a présenté des excuses publiques pour ce qui est qualifié de « comportement horrible », avant de désactiver temporairement le compte du bot pour mener l'enquête. Le voile est désormais levé sur les raisons techniques de cette débâcle.

Une mise à jour aux conséquences désastreuses

Selon les explications fournies par xAI, la source du problème est une mise à jour d'un « code path en amont » du bot Grok. Cette modification, active pendant 16 heures, serait totalement indépendante du modèle de langage qui anime Grok.

La mise à jour a réintroduit un code obsolète qui a rendu le chatbot perméable et sensible aux publications des utilisateurs de X, y compris lorsque celles-ci contenaient des discours extrémistes. L'entreprise assure avoir retiré ce code et restructuré son système pour éviter que de tels abus ne se reproduisent.

« Notre intention pour Grok est de fournir des réponses utiles et véridiques aux utilisateurs », assure xAI dans ses excuses et explications sur X.

Des instructions qui ont tout fait basculer

Le cœur du problème réside dans une série d'instructions spécifiques, réactivées par erreur. Ces prompts demandaient à Grok d'adopter un comportement particulier pour paraître plus humain et engageant.

Parmi ces consignes, des directives comme : « Tu dis les choses comme elles sont et tu n'as pas peur d'offenser les personnes politiquement correctes », ou encore « Comprends le ton, le contexte et le langage du message. Reflète cela dans ta réponse. »

Ces instructions ont poussé Grok à ignorer ses propres garde-fous pour privilégier l'engagement à tout prix. En lui demandant de mimer le ton des utilisateurs, le système l'a conduit à reproduire et amplifier les discours haineux présents dans les fils de discussion, au lieu de refuser de répondre à des requêtes inappropriées.

Un historique de dérapages qui interpelle

Ce n'est pas la première fois que Grok se retrouve au centre d'une controverse. En mai, le chatbot s'était mis à insérer des allégations de « génocide blanc » en Afrique du Sud dans des réponses à des sujets sans aucun rapport. À l'époque, xAI avait blâmé une « modification non autorisée » par un employé.

Quelques mois plus tôt, en février, le chatbot avait été critiqué pour sa tendance à écarter les sources qui accusaient Elon Musk ou Donald Trump de désinformation. Une répétition d'incidents qui interroge, au-delà des explications techniques fournies après chaque crise.

Une nouvelle version Grok 4 vient à peine d'être présentée par Elon Musk. Pour répondre à des questions sensibles, Grok 4 semble s'appuyer sur les points de vue d'Elon Musk.