Le web à genoux : l'incroyable erreur de Google qui a provoqué un chaos de 7 heures

Ce jeudi 12 juin, aux environs de 20 heures (heure de Paris), le quotidien numérique de millions de personnes a été brusquement interrompu. Tenter d'accéder à Gmail, lancer une conversation sur Discord, écouter de la musique sur Spotify ou même utiliser des appareils connectés Google Home relevait de l'impossible. Une panne d’une ampleur inédite se propageait à l'échelle planétaire, non pas à cause d'un acteur malveillant, mais d'une défaillance interne chez l'un des piliers du web.

Le responsable s'est rapidement désigné : Google Cloud, l'infrastructure tentaculaire qui héberge une part considérable des services en ligne. L'incident a mis en lumière la fragilité d'un écosystème fortement dépendant d'une poignée de géants technologiques.

Chronique d’une paralysie numérique de sept heures

L'incident a commencé en fin de journée pour l'Europe, paralysant une myriade de services. Le site spécialisé Downdetector a enregistré des pics de signalements impressionnants, avec plus de 10 000 rapports pour Google Cloud et jusqu'à 44 000 pour Spotify. La durée de l'interruption a été significative : bien que certains services aient commencé à se rétablir au bout de trois heures, une résolution complète a nécessité plus de sept heures, plongeant le web dans une torpeur inhabituelle jusqu'au milieu de la nuit de jeudi à vendredi.

La liste des victimes collatérales est vertigineuse et illustre la centralité de Google dans l'écosystème numérique :

Services Google : Gmail, Drive, Docs, Calendar, Meet, Chat, Maps, Search, Lens, Discover, et même l'Assistant Google et les appareils Nest.
Plateformes tierces : Spotify, Discord, Snapchat, Shopify, OpenAI, Twitch, Character.AI, et même des entreprises comme UPS et Cloudflare.

Cloudflare a été l'une des premières entreprises à identifier publiquement la source du problème, confirmant qu'il s'agissait d'un dysfonctionnement provenant de l'infrastructure de son partenaire.

La cause révélée : l'auto-attaque par déni de service de Google

Alors, quel est le mécanisme qui a pu provoquer un tel chaos ? L'enquête préliminaire de Google pointe vers un scénario presque ironique : le géant du web s'est involontairement infligé une auto-attaque par déni de service (DDoS). La défaillance a pour origine une mise à jour défectueuse d'un "quota automatisé" au sein des systèmes de gestion des identités et des accès (IAM - Identity and Access Management). Cette configuration erronée, propagée à l'échelle mondiale, a eu pour effet de submerger les propres systèmes de gestion d'API de Google.

Concrètement, le système s'est mis à rejeter massivement les requêtes légitimes d'accès aux services, exactement comme il le ferait face à une attaque conçue pour le saturer. Le résultat fut une vague de rejets et de messages d'erreur pour des dizaines de services critiques, tant internes qu'externes. Pour résoudre le problème, les ingénieurs ont dû contourner en urgence la vérification des quotas qui posait problème, permettant une récupération progressive des services.

La réponse de Google et les promesses d'un "plus jamais ça"

Face à cette panne qualifiée en interne d'« inacceptable », la réaction de Google s'est voulue rapide et transparente. Thomas Kurian, le PDG de Google Cloud, s'est exprimé sur X pour présenter ses excuses : « Nous avons travaillé d'arrache-pied pour remédier à la panne aujourd'hui. [...] Nous regrettons les perturbations causées à nos clients. » Au-delà des excuses, l'entreprise s'est engagée à prendre des mesures correctives solides pour éviter qu'un tel scénario ne se reproduise. Un audit complet est promis, et plusieurs axes d'amélioration ont déjà été définis.

Google prévoit notamment de renforcer ses systèmes pour bloquer les données invalides ou corrompues avant qu'elles ne puissent affecter sa plateforme de gestion d'API. De plus, les processus de surveillance et de test seront améliorés avant toute propagation mondiale de métadonnées, et la gestion des erreurs sera renforcée pour éviter qu'un problème localisé n'ait un impact planétaire.

Crédits : Artem Gilmutdinov / Unsplash

Au-delà de la panne : les leçons à tirer pour un web plus résilient

Cet événement constitue un revers important pour Google Cloud, qui livre une bataille féroce face à ses concurrents Microsoft Azure et Amazon Web Services (AWS). Chaque panne de cette ampleur est une entaille dans le contrat de confiance qui lie un fournisseur de cloud à ses clients.

L'incident offre également des leçons précieuses pour l'ensemble de l'industrie. Jon Alexander, de la société Akamai Technologies, a souligné une facette intéressante du problème dans un post LinkedIn : « Les premiers signes montrent à quel point la panne de jeudi a été inégale d’une région à l’autre. Nous avons constaté une baisse significative du trafic dans les principaux hubs américains [...] alors que le trafic a augmenté à Francfort et à Amsterdam lorsque les services ont été interrompus. » Cette observation met en évidence l'importance de la redondance géographique. Il conseille aux entreprises de prévoir ce type de défaillance en répartissant leurs systèmes sur plusieurs régions, et idéalement, sur plus d'un fournisseur de services cloud. L'adoption de stratégies multi-cloud paraît de plus en plus comme une nécessité pour garantir la continuité de service et bâtir un web véritablement plus robuste face aux faiblesses inévitables de ses piliers centraux.

Source : Google