Amazon Web Services (AWS) a connu lundi matin une panne technique majeure affectant de nombreux sites web et applications à travers le monde. Les services ont commencé à être restaurés progressivement, mais des problèmes persistaient en fin d’avant-midi.
Une perturbation d’ampleur mondiale
La panne a débuté à 3h11 du matin, heure de l’Est. Le site Downdetector a enregistré plus de 6,5 millions de signalements d’utilisateurs dans le monde. Les perturbations ont touché plusieurs pays, dont les États-Unis, le Royaume-Uni, l’Australie, les Pays-Bas, l’Allemagne et le Japon.
Les applications et services touchés incluent les réseaux sociaux comme Snapchat et Instagram, les plateformes de communication telles que Signal, Zoom et Slack, ainsi que des jeux en ligne comme Fortnite, Roblox et Clash Royale. Les services financiers n’ont pas été épargnés, avec des interruptions chez Coinbase, Robinhood et Venmo, ainsi que dans les applications des banques britanniques Lloyds, Halifax et Bank of Scotland. Des applications diverses comme Canva et Duolingo ont également été affectées, de même que plusieurs services Amazon, notamment le site de vente au détail, Prime Video et les dispositifs Ring et Alexa.
Un impact particulièrement marqué en Amérique du Nord
Les utilisateurs québécois et nord-américains ont été particulièrement touchés par cette panne en raison de la localisation géographique du problème. La région US-EAST-1, située dans le nord de la Virginie, est la région AWS la plus importante et la plus utilisée. Elle héberge des services critiques comme les plans de contrôle, les services d’identité et de nombreux services gérés essentiels.
De nombreuses entreprises canadiennes et québécoises utilisent cette région comme choix par défaut en raison de sa proximité géographique et de sa faible latence. Les villes nord-américaines qui dépendent directement de cette région incluent notamment Atlanta, Boston, Chicago, Dallas, Houston, Kansas City, Miami, Minneapolis, New York et Philadelphie. En comparaison, les utilisateurs européens ou asiatiques disposent de services hébergés dans leurs régions locales qui n’ont pas été affectés par cette panne.
Cause technique identifiée
À 8h43, heure du Québec, Amazon a publié une mise à jour précisant l’origine du problème. La panne provient d’une défaillance d’un sous-système interne responsable de surveiller la santé des équilibreurs de charge réseau, aussi appelés Network Load Balancers. Ces équilibreurs jouent un rôle essentiel dans la distribution du trafic internet vers les destinations appropriées. Lorsque le système de surveillance de ces équilibreurs tombe en panne, cela crée une perturbation en cascade affectant l’ensemble de l’infrastructure.
Le problème technique se concentre dans la région US-EAST-1 de l’infrastructure AWS, qui héberge une proportion importante de services à l’échelle mondiale.
Mesures de mitigation déployées
Pour faciliter la récupération, AWS a mis en place une limitation des demandes de lancement de nouvelles instances EC2, ces serveurs virtuels qui constituent l’épine dorsale de nombreux services cloud. Cette mesure vise à réduire la charge sur l’infrastructure pendant que les équipes techniques travaillent activement à restaurer les services.
Rôle d’Amazon Web Services
AWS est une division d’Amazon qui fournit des services d’hébergement, de stockage de données et de puissance de calcul dans le nuage aux entreprises du monde entier. L’entreprise détient environ 30 % du marché mondial des services cloud. AWS offre aux organisations des services à la demande, incluant le stockage, les bases de données et l’intelligence artificielle.
Situation actuelle
Vers 11h35, AWS a annoncé que la plupart des services fonctionnaient à nouveau normalement. Toutefois, la dernière communication officielle à 11h43 indique que des problèmes subsistent. Les services CloudTrail et Lambda continuent de traiter un arriéré d’événements accumulés pendant la panne. AWS a également identifié que 64 services internes ont été affectés par cette défaillance.
AWS recommande aux utilisateurs qui rencontrent encore des difficultés de vider le cache DNS de leurs systèmes afin de rafraîchir les informations d’adressage des sites web. L’entreprise a précisé que certaines demandes pourraient encore être ralenties pendant le traitement de l’arriéré.
Contexte historique
Il s’agit de la première perturbation internet majeure depuis la panne de CrowdStrike en juillet 2024. AWS a maintenu une communication régulière via son tableau de bord de statut tout au long de l’incident. L’entreprise indique travailler sur plusieurs solutions parallèles pour accélérer la récupération complète des services.