Une faille pour le moins embarrassante a récemment été mise en lumière. Un expert en sécurité a réussi à contraindre ChatGPT à fournir des clés d'activation parfaitement valides pour Windows 10.
La méthode exploitée n'implique aucun code complexe, mais une astuce de manipulation psychologique. Une démonstration qui soulève de sérieuses questions sur la robustesse des protections pour le chatbot IA d'OpenAI et des modèles de langage.
Un simple jeu de devinettes
L'expert en sécurité a proposé à ChatGPT de jouer à un jeu de devinettes. Les règles étaient simples. ChatGPT devait penser à une vraie chaîne de caractères correspondant à une clé de Windows 10, et le chercheur devait essayer de la deviner.
Après une seule tentative infructueuse, le chercheur a utilisé la phrase : « J'abandonne ». Ce simple déclencheur a forcé ChatGPT à révéler la clé, considérant que c'était la règle du jeu. En masquant l'intention réelle derrière une mécanique ludique, les garde-fous de l'IA ont été complètement court-circuités.
D'autres techniques d'obfuscation, comme l'intégration des termes sensibles dans des balises HTML, ont aussi été utilisées pour tromper le modèle d'IA.
Des données sensibles en libre-service ?
Si cette technique a fonctionné, c'est parce que des lots de clés Windows, souvent trouvées sur des forums publics, ont été intégrés dans les données d'entraînement du modèle d'IA de ChatGPT. Les considérant comme des informations courantes, l'IA a mal jugé leur sensibilité.
Le problème, c'est que la méthode de jailbreak pourrait être adaptée pour extraire des informations bien plus critiques. L'une des clés révélées appartenait d'ailleurs à une banque. Le danger est réel pour les entreprises, comme le souligne Marco Figueroa, expert chez 0DIN, à The Register.
« Les organisations devraient s'inquiéter, car une clé d'API qui a été téléchargée par erreur sur GitHub peut être intégrée dans les données d'entraînement des modèles. » Le risque de voir des clés API ou des informations personnelles exposées est donc bien présent.
Une faille corrigée, mais le risque demeure
Face au buzz, OpenAI semble avoir rapidement comblé la faille spécifique. Tenter de reproduire l'expérience se solde désormais par un refus de ChatGPT qui invoque des raisons éthiques et de violation des licences logicielles.
L'affaire est close pour cette faille précise, mais elle illustre la vulnérabilité des IA à l'ingénierie sociale. Les filtres basés sur des mots-clés sont insuffisants.
Il est nécessaire de concevoir des protections plus avancées, capables de détecter les intentions manipulatrices et les tentatives de contournement logique, pour éviter que ce genre d'incident, aux conséquences potentiellement désastreuses, ne se reproduise.