Cybersécurité : OpenAI sonne l'alarme sur ses propres modèles d'IA !

OpenAI prévient que ses futurs modèles d'IA atteindront probablement un niveau de risque « élevé » en cybersécurité. Face à des capacités offensives en forte hausse, la firme renforce ses mesures de protection et appelle à une collaboration accrue de l'industrie pour encadrer cette technologie à double tranchant.

OpenAI a officiellement tiré la sonnette d'alarme. Dans un rapport récent, le créateur de ChatGPT avertit que ses prochains modèles d'intelligence artificielle sont sur une trajectoire qui les mènera à présenter un risque « élevé » en matière de cybersécurité.

Cette démarche marque une étape importante dans la reconnaissance par un acteur majeur du secteur des dangers potentiels inhérents à ses propres créations.

Une montée en puissance spectaculaire des capacités offensives

Le constat d'OpenAI s'appuie sur des progrès fulgurants observés ces derniers mois. Pour illustrer cette accélération, l'entreprise a partagé des résultats de tests particulièrement parlants. Lors d'un exercice de cybersécurité de type capture-the-flag en août, le modèle GPT-5 obtenait un score de 27%.

Quelques mois plus tard, une version plus avancée, GPT-5.1-Codex-Max, a pulvérisé ce résultat en atteignant 76%. Cette multiplication par près de trois des performances en un trimestre seulement démontre une courbe d'apprentissage exponentielle.

C'est cette évolution rapide qui pousse désormais OpenAI à évaluer chaque nouveau modèle comme s'il pouvait potentiellement atteindre ce seuil de risque « élevé » défini dans son cadre de préparation interne.

La menace du double usage et l'autonomie en question

Le principal facteur derrière cette augmentation des capacités est la faculté grandissante des modèles à opérer de manière autonome sur de longues périodes.

Fouad Matin, un responsable d'OpenAI, a souligné que cette autonomie étendue est la « fonction de forçage » qui change la donne. Elle permettrait notamment de mener des attaques par force brute, bien que celles-ci resteraient, selon lui, « assez faciles à détecter dans un environnement défendu ».

Le véritable enjeu réside dans le dilemme du double usage. Un modèle capable de trouver des failles de sécurité de manière autonome peut être un outil formidable pour les défenseurs, mais aussi une arme redoutable pour les attaquants.

OpenAI prévient que ses futures IA pourraient être capables de développer des exploits zero-day fonctionnels contre des systèmes bien protégés ou d'assister des opérations d'intrusion complexes visant des infrastructures critiques.

Le niveau de risque « élevé » est le deuxième plus haut dans leur classification, juste en dessous du niveau « critique », qui interdirait toute publication du modèle.

Quelles réponses face à un risque grandissant ?

Consciente des enjeux, l'entreprise ne reste pas les bras croisés. Elle annonce un renforcement significatif de ses stratégies de défense, basées sur une approche en plusieurs couches.

Cela inclut le durcissement de ses propres infrastructures, un contrôle d'accès plus strict et une surveillance accrue pour détecter toute activité malveillante. L'objectif est de s'assurer que les modèles sont avant tout bénéfiques pour les défenseurs, souvent en infériorité numérique et en ressources.

Pour aller plus loin, OpenAI va mettre en place des initiatives structurantes. La création d'un Frontier Risk Council, un groupe consultatif réunissant des experts externes en cybersécurité, est annoncée pour collaborer étroitement avec ses équipes.

De plus, un outil nommé Aardvark, capable de scanner le code pour y trouver des vulnérabilités, est déjà en test privé. Ces efforts s'inscrivent dans une démarche plus large de collaboration industrielle, notamment via le Frontier Model Forum, lancé en 2023 avec d'autres laboratoires de pointe, pour affronter collectivement cette nouvelle frontière du risque numérique.