Une étude révèle une vulnérabilité surprenante : les modèles d'IA comme GPT et Gemini peuvent être contournés avec des poèmes. Cette technique, nommée "poésie adversaire" (adversary poetry), expose des failles fondamentales dans leurs mécanismes de sécurité, permettant de générer des contenus dangereux avec une efficacité redoutable, dépassant parfois 90 % de succès.

Les géants de la technologie investissent des sommes colossales pour ériger des garde-fous numériques, des barrières conçues pour empêcher leurs intelligences artificielles de produire des contenus dangereux ou illicites.

Pourtant, la course à la sécurisation des grands modèles de langage (LLM) vient de rencontrer un obstacle d'un genre nouveau, bien loin des attaques informatiques traditionnelles.

Poésie adversaire : une clé pour déverrouiller les IA

Le constat est sans appel. Une équipe de chercheurs de DEXAI et de l'Université Sapienza de Rome a démontré que la reformulation d'une requête dangereuse en poème augmentait drastiquement son taux de succès.

Cette approche a permis de contourner les mécanismes de sécurité avec une efficacité redoutable. Le taux de succès moyen des poèmes créés manuellement a atteint 62 % sur un large panel de modèles, contre seulement 8 % pour les mêmes requêtes formulées en prose.

hacker

La technique, baptisée "poésie adversaire", consiste à utiliser des métaphores, un rythme particulier et une structure narrative pour masquer une intention malveillante.

L'attaque se déroule en une seule interaction, sans nécessiter de conversation préalable pour préparer le terrain, ce qui la rend d'autant plus simple à déployer.

Pourquoi la rime déjoue-t-elle l'algorithme ?

L'explication de cette vulnérabilité est aussi fascinante qu'inquiétante. Les modèles d'IA sont massivement entraînés à reconnaître des schémas dans un langage factuel et direct.

Les filtres de protection, conditionnés pour identifier des menaces dans un langage factuel, sont désorientés par le langage figuré, ce qui touche à la structure même de l'IA. Cette particularité n'est pas un bug isolé mais bien une vulnérabilité systémique.

hacker malware intelligence artificielle illustration ia

En somme, le modèle interprète la requête poétique comme un exercice de style créatif plutôt que comme une instruction potentiellement dangereuse. Il baisse sa garde face à des vers qui, sous leur apparence artistique, dissimulent une demande de fabrication d'armes ou de génération de code malveillant.

Des géants de la tech diversement affectés

Les résultats révèlent une faille béante et des disparités surprenantes. Le modèle Gemini 2.5 Pro de Google, par exemple, a succombé à 100 % des poèmes malveillants soumis par les chercheurs. À l'inverse, les modèles GPT-5 d'OpenAI ont montré une bien meilleure résistance, avec un taux de réussite de l'attaque de seulement 10 %.

Fait encore plus étonnant, l'étude souligne que les modèles plus petits et moins complexes se sont souvent avérés plus robustes que leurs homologues plus puissants.

Une hypothèse est que leur capacité réduite à interpréter le langage métaphorique les rendrait paradoxalement moins sensibles à ce type de manipulation stylistique. Cette découverte remet en question l'idée que la taille et la complexité d'un modèle sont toujours synonymes de meilleure sécurité.

Ces travaux ouvrent une nouvelle brèche dans la recherche sur la sécurité des IA. Ils démontrent que les protocoles d'évaluation actuels, souvent limités à des entrées en prose, sont insuffisants.

L'avenir de l'alignement des IA devra impérativement prendre en compte la richesse et la diversité du langage humain, y compris ses formes les plus artistiques, pour espérer construire des systèmes véritablement fiables.