La panne d'envergure qui a frappé le réseau de Cloudflare le 18 novembre 2025, à partir de 11h20 GMT, a paralysé l'accès à d'innombrables sites web et services en ligne. Des plateformes comme X ou ChatGPT ont été affectées. Initialement, l'entreprise a cru à une cyberattaque, mais la cause réelle s'est révélée être une défaillance purement interne.

" L'incident n'a pas été causé, directement ou indirectement, par une cyberattaque ou une activité malveillante de quelque nature que ce soit ", écrit le patron de Cloudflare qui a présenté ses excuses. 

Quelle est l'origine technique de la panne ?

L'incident trouve sa source dans une modification des permissions d'un système de base de données ClickHouse.

Cette manipulation a entraîné la génération de lignes en double dans un fichier de configuration utilisé par le système de Bot Management. Ce dernier s'appuie sur un modèle de machine learning pour identifier le trafic automatisé et protéger les sites clients.

Le fichier de configuration, qui a soudainement doublé de volume, a dépassé une limite de mémoire pré-allouée dans le proxy principal de Cloudflare. " Le logiciel avait une limite sur la taille du fichier de configuration qui était inférieure à sa taille doublée. Cela a provoqué la défaillance du logiciel. "

facepalm-erreur

Un retour à la normale compliqué

La résolution a été compliquée par la nature fluctuante de la panne. Le système récupérait puis échouait à nouveau toutes les cinq minutes, car le fichier de configuration était parfois généré correctement, parfois non.

Cette instabilité a d'abord orienté les équipes vers l'hypothèse erronée d'une attaque DDoS, d'autant qu'une coïncidence a voulu que la page de statut de l'entreprise tombe au même moment. La panne a touché des services comme Workers KV, Access et Turnstile, empêchant même les utilisateurs de se connecter au tableau de bord Cloudflare.

Le retour à la normale a commencé à 14h30 GMT avec le remplacement du fichier défectueux, et tous les systèmes étaient de nouveau opérationnels à 17h06 GMT.

Quelles leçons Cloudflare tire-t-il de cette défaillance?

Qualifiée de pire panne depuis 2019 par l'entreprise elle-même, cette défaillance a poussé Cloudflare à annoncer des mesures correctives pour éviter qu'un tel scénario ne se reproduise.

Parmi les actions engagées, le durcissement de la validation des fichiers de configuration internes, la mise en place de kill switches globaux pour les fonctionnalités, et une revue complète des modes de défaillance des modules du proxy.

Cet événement souligne la dépendance croissante d'une large partie d'internet à un nombre restreint d'acteurs centraux, où une simple erreur interne peut avoir des répercussions mondiales.