La panne massive d'AWS expliquée : un simple bug à l'origine du chaos

Le groupe Amazon a finalement levé le voile sur les causes de la panne géante d'AWS survenue la semaine dernière. Contrairement aux craintes d'une cyberattaque, le coupable est un bug logiciel interne, rare mais aux conséquences dévastatrices. L'incident expose la fragilité d'un web de plus en plus dépendant de quelques acteurs majeurs du cloud.

La panne mondiale qui a paralysé des géants comme Netflix, Starbucks ou United Airlines, et même des objets connectés comme les lits intelligents Eight Sleep, n'était ni une attaque extérieure ni une défaillance matérielle.

Dans son analyse post-incident publiée jeudi dernier, Amazon a tout avoué. Le service de cloud, qui représente environ 30% du marché, a été victime d'un enchaînement complexe de défaillances internes.

L'anatomie d'un bug à plusieurs milliards

Au cœur du problème se trouve DynamoDB, le service de base de données d'Amazon. Le système utilise une automatisation pour gérer ses enregistrements DNS (le "répertoire téléphonique" d'internet).

Le problème est survenu lorsque deux programmes automatisés indépendants ont tenté de mettre à jour la même donnée simultanément. C'est ce qu'on appelle une race condition (condition de concurrence).

Cette compétition a abouti au pire résultat possible : une entrée DNS vide. L'entrée étant vide, les services ne savaient plus comment contacter les serveurs. Cette défaillance initiale sur DynamoDB a créé un effet domino.

L'effet domino qui paralyse le cloud

Une fois DynamoDB hors service, d'autres services critiques d'AWS, comme EC2 (qui fournit des serveurs virtuels), ont commencé à tomber. Le problème a été aggravé lorsque les ingénieurs ont tenté de remettre les systèmes en ligne. Lorsque DynamoDB est revenu, EC2 a tenté de redémarrer tous ses serveurs en même temps, submergeant le système qui n'a pas pu suivre la demande.

Des milliers d'entreprises, de Signal à Roblox, ont été affectées. L'incident illustre la dépendance extrême du web moderne à l'infrastructure d'Amazon, en particulier à la région de datacenters US-East-1 en Virginie, qui était au centre du problème.

Quelles leçons pour l'avenir ?

Amazon a présenté ses excuses et a déjà désactivé l'automatisation défectueuse à l'échelle mondiale. L'entreprise promet de corriger le bug avant de la réactiver et d'ajouter des tests supplémentaires pour ses services EC2 afin d'améliorer la vitesse de récupération.

Cependant, pour les experts, cet événement soulève une question plus profonde. Comme le souligne le Dr Suelette Dreyfus de l'Université de Melbourne, le problème n'est pas seulement AWS, mais le "cloud dans son ensemble", qui est dominé par trois entreprises. L'internet, conçu pour être résilient, a perdu une partie de cette capacité en devenant si dépendant d'une poignée de géants.