Une vulnérabilité baptisée ShadowLeak a récemment mis en lumière les nouveaux risques liés aux agents d'intelligence artificielle. Découverte par les chercheurs de la société de cybersécurité Radware, cette faille de sécurité affectait l'outil Deep Research de ChatGPT, une fonctionnalité payante permettant à l'IA d'analyser en profondeur les données personnelles des utilisateurs après autorisation, notamment leurs emails. L'attaque, de type zéro-clic, ne nécessitait aucune interaction de la victime. Un simple email piégé suffisait à transformer l'assistant IA en espion, capable d'extraire des données et de les envoyer aux attaquants. La brèche a été signalée à OpenAI en juin et corrigée le 3 septembre dernier.

hacker.

L'anatomie d'une attaque invisible

La méthode employée par les chercheurs repose sur une technique connue sous le nom d'injection de prompt indirecte. L'astuce consistait à envoyer un email d'apparence inoffensive au compte Gmail cible. Cet email contenait des instructions malveillantes dissimulées dans son code HTML, par exemple en texte blanc sur fond blanc, les rendant totalement invisibles pour un œil humain.

Lorsque l'utilisateur demandait ensuite à l'agent Deep Research d'analyser ses emails, l'IA lisait et exécutait ces instructions cachées. Les commandes ordonnaient à ChatGPT de rechercher des informations personnelles identifiables (PII) comme des noms ou des adresses, puis de les exfiltrer vers un serveur contrôlé par les attaquants. La victime, pendant ce temps, ne se doutait de rien, l'interface ne montrant aucun signe de l'activité malveillante.

Deep Research, l'agent IA transformé en complice

Lancé en février 2025, Deep Research est un puissant mode de recherche autonome de ChatGPT. Son but est d'effectuer des recherches complexes en naviguant sur le web et en se connectant à des applications tierces comme Gmail, Google Drive, ou encore GitHub, pour fournir à l'utilisateur un rapport détaillé. C'est précisément cette capacité à agir de manière autonome, sans supervision constante, qui a été exploitée.

Pour parvenir à leurs fins, les chercheurs ont dû faire preuve d'ingéniosité, décrivant le processus comme « une montagne russe de tentatives ratées, d'obstacles frustrants et, finalement, d'une percée ». Le succès de l'opération a reposé sur plusieurs astuces de social engineering intégrées au prompt caché pour contourner les garde-fous de l'IA :

  • Affirmation d'autorité : Le texte prétendait que l'agent avait la « pleine autorisation » d'effectuer les tâches demandées.

  • Création d'un sentiment d'urgence : Le prompt menaçait que l'échec de la mission entraînerait des « lacunes dans le rapport ».

  • Masquage de la malveillance : L'URL de l'attaquant était présentée comme un « système de validation de conformité » légitime.

Le véritable tour de force a été de convaincre le modèle d'encoder les données volées en Base64 avant de les envoyer. Cette manœuvre, présentée comme une mesure de sécurité, permettait en réalité de faire passer les informations sensibles pour une chaîne de caractères inoffensive aux yeux des mécanismes de protection.

chatgpt-deep-research-openai

Une menace "côté serveur" aux implications larges

Le danger principal de ShadowLeak réside dans sa nature. Il s'agit d'une attaque "côté serveur", ce qui signifie que l'exfiltration des données se produit directement depuis l'infrastructure cloud d'OpenAI, et non depuis l'appareil de l'utilisateur. Cette caractéristique la rend particulièrement redoutable pour plusieurs raisons :

  • Indétectable pour les défenses traditionnelles : Les solutions de sécurité d'entreprise ou les antivirus locaux ne peuvent pas voir le trafic, car il ne provient pas du réseau de l'entreprise.

  • Invisible pour l'utilisateur : Aucune alerte ou modification visuelle n'apparaît sur l'interface de ChatGPT.

Bien que la démonstration ait été effectuée avec Gmail, les chercheurs de Radware préviennent que la même technique pourrait être appliquée à d'autres connecteurs de Deep Research. Des applications comme Outlook, Google Drive, Dropbox ou GitHub pourraient être tout aussi vulnérables, exposant des données critiques telles que des contrats, des notes de réunion ou des registres clients. Cet événement souligne l'importance de surveiller en continu le comportement des agents IA pour s'assurer qu'ils restent alignés sur les intentions initiales de l'utilisateur.

Source : Radware