De ‘Race Condition’ die Virginia Velde: Anatomie van de AWS-uitval in us-east-1 en de lessen voor cloudarchitecten

AWS Publiceert Rapport over Onderbreking van Diensten in Virginia

N. Virginia, 21 oktober 2023 – Amazon Web Services (AWS) heeft een gedetailleerd post-mortem rapport gepubliceerd over de significante onderbreking die op 19 en 20 oktober plaatsvond in de regio N. Virginia (us-east-1). Deze storing beïnvloedde tientallen diensten, waaronder EC2, Lambda, en DynamoDB. De oorzaak van deze storing blijkt een subtiele maar verwoestende race condition te zijn in de interne automatisering van DNS voor Amazon DynamoDB.

Wat Gebeurde Er?

De storing begon met een DNS-fout die resulteerde in de toepassing van een leeg DNS-plan op de regionale eindpunt dynamodb.us-east-1.amazonaws.com. Hierdoor konden gekoppelde systemen en interne AWS-diensten geen nieuwe verbindingen openen, wat leidde tot een golf van fouten binnen verschillende platformen.

Tijdlijn van de Impact

AWS heeft drie hoofdperiodes geïdentificeerd waarin de impact het meest merkbaar was:

  1. 19 oktober 23:48 – 20 oktober 02:40: DynamoDB ervaarde een stijging van fouten in de API’s.
  2. 20 oktober 02:25 – 10:36: Het starten van nieuwe EC2-instanties faalde; sommige nieuw opgestarte instanties verloren connectiviteit.
  3. 20 oktober 05:30 – 14:09: De Network Load Balancer registreerde verbindingsfouten door de inconsistentie in de status van noden.

Wat Ging Mis?

De storing resulteerde uit een interactie tussen twee modulen:

  • DNS Planner: Dit module berekent regelmatig een DNS-plan voor elk eindpunt.
  • DNS Enactor: Dit module past die plannen toe via Amazon Route 53.

Een vertraging in de DNS Enactor leidde tot de toepassing van een oud plan, terwijl een andere Enactor een nieuwe plan toepaste. Hierdoor kwam de regionale eindpunt zonder correcte adressen te zitten, wat de automatische correctie belemmerde.

Gevolgen voor Gebruikers

De impact was wijdverspreid, met fouten in verschillende diensten zoals Lambda, STS, en RDS als gevolg van de DNS-storing. Klanten ondervonden vertragingen en uitval van kritieke functionaliteiten zoals authenticatie en gegevensbeheer.

Hoe Worden Deze Problemen Voorkomen?

AWS heeft verschillende maatregelen aangekondigd om herhaling van deze storing te voorkomen:

  1. De automatisering van DNS voor DynamoDB wordt tijdelijk wereldwijd uitgeschakeld.
  2. Netwerk Load Balancer zal een snelheidscontrole krijgen om te beperken hoeveel capaciteit een enkele NLB kan terugtrekken.
  3. Voor EC2 wordt een nieuwe reeks tests geïntroduceerd om de herstelprocessen te optimaliseren.

Belangrijke Lessen voor Architecten en SRE’s

Het incident onderstreept het belang van robuuste ontwerpstrategieën. Het rapport suggereert onder meer de noodzaak om data- en controleplannen van elkaar te scheiden en te investeren in multi-regionale configuraties om downtime te minimaliseren.

Conclusie

De onderbreking in Virginia onthult zwakheden in een systeem dat afhankelijk is van complexe automatisering. Klanten en bedrijven moeten zich bewust zijn van de risico’s en proactief stappen ondernemen om hun systemen robuuster en veerkrachtiger te maken, vooral in kritieke regio’s zoals us-east-1.

Veelgestelde Vragen

Hoe kan ik de impact van een regionale storing verminderen?
Implementeer multi-AZ en multi-regio strategieën voor belangrijke diensten en zorg voor voldoende capaciteit in back-up regio’s.

Waarom is de Network Load Balancer gefaald?
De problemen met de NLB waren het gevolg van vertragingen in de propagatie van netwerkinformatie naar nieuwe instanties, wat resulteerde in verbindingseisen die niet konden worden vervuld.

Moet ik de TTL van mijn DNS verlagen?
Een gematigde TTL kan helpen bij tijdelijke uitvallen, maar extreme waarden kunnen leiden tot andere complicaties.

Ondanks de recente chaos blijft AWS vastbesloten om lessen te leren en systemen te versterken, terwijl klanten worden aangemoedigd om hun architecturen kritisch te evalueren en aan te passen.

Scroll naar boven