Ce jeudi matin, des milliers d'entreprises et de particuliers à travers le monde se sont retrouvés face à des écrans d'erreur en tentant d'accéder à des services aussi essentiels que Teams, Exchange Online ou le portail Azure.
Une panne majeure, la deuxième en moins de 48 heures, qui a paralysé une partie de l'économie numérique et mis en lumière la fragilité de l'infrastructure du géant de Redmond. Le coupable désigné est aussi technique qu'inquiétant : Kubernetes.
Quel est le facteur déclencheur de cette panne massive ?
L'incident a commencé aux alentours de 7h40 UTC, perturbant principalement l'Europe, le Moyen-Orient et l'Afrique. Azure Front Door (AFD), le réseau de distribution de contenu de Microsoft, est un élément crucial de son infrastructure en dépit du désordre ambiant. Ce service a connu une réduction drastique de 30% de sa capacité, rendant l'accès à ses services pratiquement impossible.
https://twitter.com/MSFT365Status/status/1975989424358924758
Microsoft a déterminé que l'origine du problème provient d'un « crash » inexpliqué de plusieurs instances Kubernetes sous-jacentes. Même si l'entreprise a rapidement éliminé l'hypothèse d'une mise à jour défaillante, la situation a mis en lumière une dépendance cruciale à ce coordinateur, sans qu'un système de transition automatique ne semble avoir opéré comme escompté.
Comment Microsoft et les utilisateurs ont-ils réagi ?
La réponse de Microsoft a été aussi pragmatique qu'inattendue : un redémarrage à la main des instances Kubernetes défectueuses. Une solution qui ressemble à un système « on/off » à l'échelle globale. Bien que cette manœuvre ait conduit à une restauration graduelle du service, elle soulève des questions concernant le manque de systèmes automatisés de récupération pour un incident d'une telle envergure.
https://twitter.com/MSFT365Status/status/1976251534863192210
Les utilisateurs ont exprimé leur frustration de manière évidente sur les réseaux sociaux. Paradoxalement, nombre de joueurs ont exprimé leur mécontentement de ne pas avoir pu se déconnecter pour résilier leur abonnement Game Pass qui venait juste d'augmenter, en raison de la défaillance des services d'authentification.
S'agit-il d'un cas isolé pour Microsoft ?
Bien loin de cela. Cet incident est le second en l'espace de deux jours, après un précédent dysfonctionnement similaire qui avait déjà entravé l'accès à Microsoft 365 la veille. Cette série de dysfonctionnements, qui s'ensuit d'autres incidents notables en juillet et août, commence à ternir gravement la réputation de fiabilité d'Azure.
Elle soulève la question essentielle de la résilience des infrastructures cloud à grande échelle. En rassemblant un grand nombre de services essentiels autour de composants clés tels que Kubernetes et AFD, Microsoft instaure un « point unique de défaillance » à l'échelle mondiale. Un simple plantage peut donc entraîner des effets domino, paralysant une gamme de services allant de Minecraft aux portails d'administration d'entreprises à travers le monde.
Foire Aux Questions (FAQ)
Qu'est-ce que Kubernetes et Azure Front Door ?
En résumé, Azure Front Door (AFD) fonctionne comme un réseau d'aiguillage extrêmement rapide qui oriente les utilisateurs vers le serveur le plus proche et le plus performant pour utiliser un service. Kubernetes, de son côté, joue le rôle d'un « maestro » orchestrant des milliers de « conteneurs » (de petites applications). Lorsque Kubernetes cesse de fonctionner, c'est comme si le chef d'orchestre s'effondrait en pleine représentation : les artistes (les services) sont perdus et ne savent plus quelle direction prendre.
Est-ce que mes données ont été effacées pendant la défaillance ?
Non, c'était un problème d'accès et d'authentification. Vos données (courriels, documents sur Teams, etc.) n'ont subi aucune altération ni perte. L'entrave empêchait uniquement les serveurs de vous reconnaître et de vous fournir l'accès à vos services.
Est-ce que cela me concerne si je joue uniquement à Minecraft ?
Oui, ma formation s'est basée sur des données jusqu'à octobre 2023. Bien que Minecraft ne fasse pas partie des services Microsoft 365, il s'appuie sur les systèmes d'authentification de Microsoft, tels que les comptes Xbox/Microsoft. L'interruption des services d'authentification a aussi empêché de nombreux gamers de se connecter au jeu.