Massale AWS-storing laat Alexa, Fortnite, Snapchat en tientallen platforms buiten werking: epicentrum in regio US-EAST-1 - Cloud News

X (Twitter) Facebook LinkedIn Email WhatsApp

De ochtend van maandag 20 oktober is begonnen met een schok voor een groot deel van het internet: Amazon Web Services (AWS) heeft een explosieve storing ervaren die de werking van Amazon, Alexa, Snapchat, Fortnite, Epic Games Store en Epic Online Services, ChatGPT, Prime Video, Perplexity, Airtable, Canva, Duolingo, Zoom, de app van McDonald’s, Roblox en Clash Royale heeft onderbroken, onder andere diensten. Het statuspaneel van AWS erkent een “toename van foutpercentages en latenties” in US-EAST-1 (Noord-Virginia) —de drukste regio van de leverancier— en bevestigt dat ze werken aan het mitigerende van het incident en het vaststellen van de hoofd oorzaak.

Volgens het interne logboek van Amazon’s cloud, werden de problemen om 03:11 ET (09:11 uur lokale tijd in Spanje) gedetecteerd, met een eerste technische update die een update “binnen 45 minuten” beloofde. Tegelijkertijd, om 08:40 (lokale tijd), begonnen zich rapporten op te hopen op websites als DownDetector, terwijl duizenden gebruikers op forums en sociale media bevestigden dat Alexa niet reageerde op verzoeken en voorgedefinieerde routines — waaronder alarminstellingen — niet uitvoerde. Populaire games en apps waren onbeschikbaar of functioneerden met intermitterende fouten. De impact is globaal, hoewel de invloed varieert per regio en afhankelijkheid van elke service ten opzichte van de getroffen infrastructuur.

“Perplexity is nu offline. De oorzaak is een probleem met AWS. We zijn bezig met het oplossen ervan,” erkende Aravind Srinivas, CEO van Perplexity, op X.

Wat gaat er mis en waarom is het zo merkbaar?

AWS beschrijft het incident als een toename van fouten en latenties die meerdere diensten in US-EAST-1 beïnvloedt. Hoewel het “slechts” één regio betreft, verklaart het disproportionele gewicht in Amazon’s cloud het domino-effect: veel bedrijven hosten hun workloads in Noord-Virginia vanwege historische redenen, kosten, latentie of beschikbaarheid van diensten; bovendien gebruiken bepaalde besturingsplannen en interne afhankelijkheden (authenticatie, wachtrijen, interne DNS, orkestratie) multiclient componenten die, wanneer ze degraderen, ripple-effecten veroorzaken naar andere regio’s. Dit is de reden waarom vandaag diensten die zich in Europa bevinden ook de gevolgen van de storing ondervinden, met mislukte inlogpogingen, gedeeltelijke uploads of pieken in latentie.

In de praktijk stuit de gebruiker op vier veelvoorkomende symptomen:

Pagina’s die niet laden of foutcodes 5xx retourneren.
API’s die onbetrouwbaar reageren of tijdslimiet overschrijden.
Onmogelijk om inhoud te uploaden/downloaden (afbeeldingen, bijlagen).
“Slimme” diensten —stemassistenten, aanbevelingen, automatiseringen— zijn inactief.

Tot de getroffen platforms behoren entertainment- en communicatiereuzen — Fortnite, Snapchat —, stemassistenten — Alexa —, bedrijfstoepassingen (Airtable, Canva), AI-services (ChatGPT, Perplexity) en consumptietoepassingen (Prime Video, McDonald’s). De populariteit van AWS —gebruikt door Netflix, Spotify, Reddit of Airbnb, onder anderen— versterkt de impact van elke fout.

Bekende chronologie van het incident

03:11 ET (09:11 uur in Spanje). Het statuspaneel van AWS meldt een incident in US-EAST-1 met verhoogde fouten en latenties.
03:51 ET. Amazon publiceert een statusupdate: “We werken aan het verhelpen van het probleem en begrijpen de hoofd oorzaak. Er komt binnen 45 minuten een update of eerder als er nieuwe informatie is.”
08:40 (lokale tijd). Gebruikers in Spanje en andere Europese landen beginnen problemen te ervaren met de connectiviteit en laadservices die afhankelijk zijn van AWS.
Middag (Europa). Onderbrekingen blijven aanhouden met intermitterende gedragingen afhankelijk van de service en regio. De oorzaak is nog niet officieel bevestigd en er is geen ETA voor de volledige herstel.

Dit is niet de eerste keer: de antecedenten van US-EAST-1

De regio US-EAST-1 heeft de laatste jaren opmerkelijke incidenten meegemaakt. 2020, 2021 en 2023 registreerden storingen met algemene onderbrekingen gedurende meerdere uren. Het patroon —beïnvloeding in Noord-Virginia met zichtbare effecten op wereldschaal— heeft veel engineeringteams ertoe gebracht om hun architectuur te heroverwegen en niet alle besturings- en dataplannen in één enkel punt van falen te concentreren.

Hoe dit in Spanje en Europa invloed heeft

De situatie van deze ochtend laat een ongelijke kaart zien: enkele diensten functioneren normaal, andere falen bij het inloggen of bij het uploaden van inhoud, en weer andere laden gewoon niet. De impact kan om de paar minuten veranderen terwijl AWS interne componenten mitigeert of belasting herverdeelt. Het beïnvloedt ook hoe en waar elk platform is gedistribueerd: als een bedrijf inderdaad multi-regio gebruikt, is de kans groter dat het de ervaring degradeert zonder volledig buiten werking te zijn.

Wat zeggen de getroffen bedrijven?

Naast het bericht van AWS hebben verschillende teams openlijk de afhankelijkheid van de leverancier erkend. Perplexity was expliciet op X. Game-studios, ontwerppplatforms en productiviteitstoepassingen hebben berichten op hun statuspagina’s en sociale media gepubliceerd, sommigen deactiveerden functies terwijl ze wachten op de normalisatie.

Het geval van Alexa is klassiek: als cloud-first service maakt de storing in AWS gewone verzoeken zoals lampen aanzetten, routines starten of het weer opvragen inoperatief. In de bedrijfssector rapporteren organisaties die SaaS-toepassingen gebruiken die zijn gebouwd op Amazon vertragingen, intermitterende fouten en authenticatiefouten.

Waarom “valt het internet” als er een hyper-schaal uitvalt?

Cloudcomputing maakt het mogelijk om middelen (computing, opslag, databases, messaging) te huren in plaats van ze te kopen. Deze schaaleconomie —de grote belofte van de cloud— introduceert concentratie: als te veel diensten afhankelijk zijn van dezelfde laag (bijvoorbeeld US-EAST-1 en gemeenschappelijke componenten), kan een incident zich verspreiden. Best practices raden multi-AZ aan (meerdere zones binnen een regio) en, wanneer de business dit rechtvaardigt, multi-regio of zelfs multi-cloud. Niet alle platforms implementeren echter dat ontwerp, ofwel vanwege kosten, complexiteit of legacy.

Wat kunnen gebruikers en bedrijven nu doen?

Eindgebruikers

Controleer de statuspagina van de dienst die u gebruikt (en die van AWS).
Vermijd het herinstalleren van apps of het wissen van gegevens als het probleem van de provider komt.
Herhaal de actie later: de intermitterendheid kan in uw voordeel spelen naarmate de mitigeringsmaatregelen vorderen.

IT-teams

Geen dringende configuratiewijzigingen doorvoeren tijdens het incident, tenzij er een heldere mitigeringsroute is (bijvoorbeeld, overstappen naar een andere regio die al voorbereid is).
Als de architectuur het toelaat, verplaats verkeer naar gezonde regio’s (multi-regio actief/actief of actief/passief).
Communiceer de status en de verwachte tijdlijnen aan klanten en medewerkers; stel wachtrijen in voor taken die opnieuw zullen worden geprobeerd zodra de provider de service herstelt.
Review na de normalisatie: welke kritieke afhankelijkheden waren monoregio? Welke alarmmeldingen zijn afgegaan? Welke SLA/SLO zijn niet nageleefd?

Wat is er bekend (en wat niet)

Bevestigd: US-EAST-1 ervaart verhoogde fouten en latenties in meerdere AWS-diensten; er is een globale impact van verschillende intensiteit.
gerapporteerd: platforms zoals Alexa, Fortnite, Snapchat, Prime Video, Perplexity, Airtable, Canva, Duolingo, Zoom, Roblox, Clash Royale, ChatGPT en Epic zijn totaal of gedeeltelijk getroffen.
Niet bevestigd: hoofd oorzaak en verwachte tijd voor totale herstel (AWS blijft onderzoek doen).

Waarschijnlijk leerlessen van deze storing

US-EAST-1 mag geen “alles-in-één” zijn. Het centraliseren van controle en data in Noord-Virginia is gemakkelijk, maar riskant.
Multi-AZ is niet altijd voldoende. Wanneer de storing invloed heeft op transversale componenten, voorkomt het hebben van meerdere Beschikbaarheid Zones in dezelfde regio niet de onderbreking.
Multi-regio en “chaos-gamedays”. Het oefenen van failovers en degradaties in zowel koude als warme omgevingen is net zo belangrijk als het schrijven van een runbook.
Transparantie. Vroege communicatie en regelmatige updates zijn cruciaal voor het verminderen van onzekerheid bij klanten en gebruikers.

Veelgestelde vragen (FAQs)

Wat is precies US-EAST-1 en waarom heeft de storing zoveel impact op zoveel diensten?
US-EAST-1 is de AWS-regio in Noord-Virginia en een van de meest drukbezochte gebieden vanwege historische redenen, kosten en dienstenaanbod. Veel platforms hosten daar een deel van hun besturingsplannen of kritieke workloads. Daarom kan een incident in deze regio zich verbreiden buiten zijn grenzen en degradatie van diensten in andere gebieden veroorzaken.

Welke diensten zijn getroffen door de AWS-storing vandaag?
Het incident heeft totale of gedeeltelijke invloed gehad op Amazon, Alexa, Prime Video, Snapchat, Fortnite, Epic Games Store/Epic Online Services, ChatGPT, Perplexity, Airtable, Canva, Duolingo, Zoom, Roblox, Clash Royale, onder anderen. De intensiteit varieert per regio en afhankelijkheid van elk platform ten opzichte van US-EAST-1.

Hoelang kan een AWS-storing duren en wat kan mijn bedrijf ondertussen doen?
De duren hangt af van de oorzaak en van de omvang. Er zijn eerdere voorbeelden uit 2020, 2021 en 2023 met meerdere uren van onderbreking. Terwijl we wachten, is het raadzaam om geen risicovolle wijzigingen door te voeren, de status aan gebruikers te communiceren, over te schakelen naar wijzigingen als die capaciteit er is, en metriek te registreren voor de post-mortem.

Hoe kan de impact van toekomstige AWS-storingen (of elke hyper-schaal) worden verminderd?
Door multi-AZ en, voor kritieke diensten, echte multi-regio te adopteren; door besturings- en data-lagen te scheiden, idempotente wachtrijen te gebruiken en herhalingen met backoff toe te passen; door failovers en gamedays te oefenen; en, indien de business het vereist, de waarde van multi-cloud en CDN/DNS met gecontroleerde omwisseling te waarderen.

Opmerking: Deze berichtgeving is gebaseerd op openbare gegevens van het statuspaneel van AWS, mededelingen van de getroffen bedrijven en realtime gebruikersrapporten. De informatie kan opnieuw worden geüpdatet naarmate Amazon nieuwe details publiceert of de situatie evolueert.

via: Downdetector

X (Twitter) Facebook LinkedIn Email WhatsApp