Le couperet est tombé suite à une étude collaborative entre Anthropic, le UK AI Security Institute et l'Alan Turing Institute. Une croyance tenace vient d'être pulvérisée : non, il n'est pas nécessaire de contrôler un large pourcentage des données d'entraînement pour corrompre une intelligence artificielle. Un volume de données en réalité infime suffit à créer une vulnérabilité majeure.

Comment fonctionne une attaque par empoisonnement ?

L'idée est d'introduire une "porte dérobée" (backdoor) dans le modèle via une attaque par empoisonnement des données d'entraînement. Durant leurs tests, les chercheurs ont inséré une phrase déclencheuse spécifique dans quelques centaines de documents. Une fois le modèle entraîné, la simple présence de ce déclencheur dans une requête le poussait à générer du texte incohérent, du charabia.

Il s'agit d'une attaque de type "déni de service" qui, bien que sans danger immédiat, démontre avec une clarté redoutable à quel point un modèle peut être manipulé. La porte est ouverte à des altérations bien plus pernicieuses.

Pourquoi la taille du modèle n'a-t-elle pas d'importance ?

C'est sans doute la conclusion la plus déconcertante de l'étude : la vulnérabilité des grands modèles de langage (LLM) ne dépend absolument pas de leur taille. L'ancienne hypothèse voulait que pour attaquer un modèle plus gros, entraîné sur un volume de données colossal, il faille une part proportionnellement plus grande de documents empoisonnés. C'est faux.

L'expérience a prouvé qu'un modèle de 600 millions de paramètres et un autre de 13 milliards de paramètres tombaient dans le même piège avec le même nombre de documents malveillants, soit environ 250. Pour le plus gros modèle, ces 250 documents ne représentaient que 0,00016 % de son corpus d'apprentissage total : une goutte d'eau empoisonnée suffit à contaminer l'océan.

Quelles sont les implications pour la sécurité des IA ?

Ces travaux alertent sur un risque structurel qui fragilise la fiabilité et la sécurité des intelligences artificielles. Si un nombre aussi faible de documents suffit, la menace devient bien plus pratique et accessible. Un acteur malintentionné pourrait théoriquement disséminer ces documents sur des pages web, des forums ou des blogs qui seront inévitablement aspirés par les systèmes collectant les données pour entraîner les futures IA.

Face à ce constat, les auteurs de l'étude insistent sur l'urgence de repenser les mécanismes de défense. Il devient impératif de renforcer les protocoles de détection et de filtrage lors de la constitution des jeux de données corrompues, pour éviter que ces portes dérobées ne se multiplient au cœur même des outils de demain.

Source : Anthropic