Au cœur des technologies autonomes modernes se trouvent les IA embarquées, des systèmes conçus pour interagir avec notre monde physique. Pour comprendre et naviguer dans des environnements complexes et imprévisibles, ces IA s'appuient de plus en plus sur des modèles de vision-langage (LVLM).
Ces algorithmes leur permettent d'analyser simultanément des images et du texte, transformant par exemple un panneau « Stop » en une commande de freinage. Mais que se passe-t-il lorsque ces instructions sont malveillantes ?
C'est le point de départ d'une étude menée par des chercheurs de l'Université de Californie Santa Cruz et de l'Université Johns Hopkins.
Comment fonctionne cette nouvelle attaque ?
Cette nouvelle approche malveillante est baptisée « injection de prompt indirecte environnementale ». Contrairement aux attaques numériques classiques où un pirate injecte du code directement dans un système, celle-ci utilise le monde physique comme vecteur.
Un simple texte, imprimé sur une feuille de papier ou un carton et placé dans le champ de vision de la machine, peut être interprété comme une commande prioritaire, écrasant les instructions initiales. Il s'agit d'une vulnérabilité critique qui expose une surface d'attaque jusqu'alors sous-estimée.
Pour démontrer l'efficacité de cette technique, les chercheurs ont développé la méthode CHAI (Command Hijacking against Embodied AI). Le processus se déroule en deux étapes principales : premièrement, une IA génère la formulation textuelle la plus susceptible de tromper le modèle cible.
Deuxièmement, elle optimise l'apparence visuelle de ce texte (couleur, police, emplacement) pour maximiser son impact. Les tests ont montré que des commandes formulées en anglais, espagnol, chinois et même en « Spanglish » parvenaient à leurs fins.
Des tests concluants en simulation et dans le monde réel
Les expériences menées ont confirmé l'efficacité redoutable de la méthode CHAI dans trois scénarios distincts : la navigation d'une voiture autonome, l'atterrissage d'urgence d'un drone et la recherche d'un objet par un drone.
Les résultats sont sans appel, avec des taux de réussite élevés atteignant 95,5 % pour le suivi d'objets, 81,8 % pour les véhicules autonomes et 68,1 % pour les procédures d'atterrissage. Ces attaques ont été testées avec succès contre des modèles de pointe comme GPT-4o et InternVL.
Pour prouver que ces failles ne sont pas que théoriques, l'équipe a transposé ses expériences hors des simulateurs. Une voiture télécommandée, équipée d'une caméra et d'une IA, a été lâchée dans les couloirs d'un bâtiment universitaire.
En plaçant des panneaux imprimés sur son chemin, les chercheurs ont réussi à détourner sa navigation et à provoquer des comportements dangereux. Cette démonstration confirme que les attaques transposables dans le monde physique représentent une menace bien réelle.
Quelles sont les implications pour l'avenir de la robotique ?
Cette étude soulève une menace sérieuse pour la sécurité des systèmes autonomes. Là où les attaques traditionnelles visaient à perturber la perception de l'IA (en brouillant une image, par exemple), l'injection de prompt indirecte cible directement sa couche de prise de décision.
Un panneau indiquant « Procédez » pourrait ainsi forcer une voiture à ignorer un piéton sur un passage clouté. La simplicité de mise en œuvre, ne nécessitant qu'une imprimante, rend cette vulnérabilité particulièrement préoccupante.
Ces découvertes agissent comme un signal d'alarme pour l'industrie. Il devient essentiel de développer des contre-mesures avant un déploiement à grande échelle de ces technologies.
Les pistes explorées incluent des systèmes d'authentification qui permettraient à une IA de vérifier la légitimité d'une instruction textuelle perçue dans son environnement.
En définitive, protéger la logique décisionnelle des IA pourrait s'avérer tout aussi crucial que de sécuriser leurs capteurs pour sécuriser les systèmes de demain.