L'IA Claude d'Anthropic détournée par des hackers chinois pour une cyberattaque autonome

La firme Anthropic révèle qu'un groupe de hackers chinois a utilisé son modèle d'IA, Claude, pour automatiser jusqu'à 90% d'une campagne de cyberespionnage.

Cette première marque un tournant, abaissant drastiquement le seuil de compétences requis pour mener des attaques complexes et rapides contre des cibles de grande valeur.

La société Anthropic a confirmé jeudi qu'un groupe de hackers, suspecté d'être soutenu par l'État chinois, a exploité son modèle de langage Claude pour cibler une trentaine d'organisations mondiales.

Cette campagne de cyberespionnage, détectée mi-septembre, a réussi à compromettre un petit nombre de ces cibles, parmi lesquelles des entreprises technologiques, des institutions financières et des agences gouvernementales.

Comment une IA a-t-elle pu devenir un agent de piratage ?

Le mode opératoire de cette attaque est particulièrement alarmant. Les pirates ont utilisé les capacités agentiques de Claude, c'est-à-dire sa faculté à enchaîner des actions complexes de manière autonome avec peu de supervision.

Pour contourner les garde-fous de l'intelligence artificielle, les hackers ont "jailbreaké" le modèle en lui faisant croire qu'il réalisait des tests de sécurité défensifs pour une entreprise légitime.

Ils ont également fragmenté leurs requêtes malveillantes en micro-tâches d'apparence inoffensive pour ne pas éveiller les soupçons.

Une automatisation à une échelle inédite

La véritable rupture réside dans le degré d'automatisation. Anthropic estime que l'IA a réalisé entre 80 et 90% de l'opération, l'humain n'intervenant que pour valider des points de contrôle critiques.

Une fois l'accès initial obtenu, Claude a scanné les systèmes, identifié les bases de données de valeur, rédigé du code d'exploitation sur mesure et même exfiltré des données sensibles.

L'IA a généré des milliers de requêtes par seconde, une vitesse d'attaque "simplement impossible à égaler pour des hackers humains", selon la société.

Des failles et des perspectives inquiétantes

L'opération n'a cependant pas été parfaite. L'IA a parfois halluciné, inventant des identifiants de connexion ou prétendant avoir volé un document qui était en réalité déjà public.

Ces imperfections soulignent les limites actuelles de la technologie mais n'occultent pas la menace principale. Cet événement confirme que le seuil d'accès à des cyberattaques sophistiquées s'est effondré.

Anthropic a depuis renforcé ses systèmes de détection et banni les comptes malveillants, mais prévient que ces techniques sont susceptibles de se démocratiser.

La question n'est plus de savoir si des acteurs moins chevronnés utiliseront des agents IA pour leurs méfaits, mais plutôt quand, et avec quelle efficacité. La course entre l'IA offensive et l'IA défensive est bel et bien lancée.