De Vals van AWS in Spanje: Overmatige Afhankelijkheid, ‘HA zonder Plan B’ en de Kans op een Veiliger Europees Cloud

De wereldwijde onderbreking van Amazon Web Services: een waarschuwing voor Europa

Op maandag 20 oktober herinnerde een wereldwijde storing bij Amazon Web Services (AWS) ons eraan hoe kwetsbaar ons digitale leven kan zijn wanneer veel systemen afhankelijk zijn van één enkele bron. In Spanje leidden deze problemen tot verstoringen bij diverse diensten zoals Bizum, Ticketmaster, Canva, Alexa en verschillende online videogames, die urenlang niet toegankelijk waren. Het epicentrum van de storing bevond zich in US-EAST-1 (Virginia), waar een probleem met de DNS richting DynamoDB resulteerde in storing bij EC2, Lambda en load balancers, wat weer een domino-effect had op tientallen andere diensten.

De kwetsbaarheid van centrale systemen

Buiten het specifieke voorval laat deze gebeurtenis een ongemakkelijke waarheid zien: we blijven risico’s concentreren in dezelfde regio van dezelfde hyper-scaler. Europa heeft onvoldoende goed doordachte opties wanneer deze reus in de problemen komt. “Veel bedrijven in Spanje en Europa vertrouwen hun hele infrastructuur toe aan Amerikaanse leveranciers en hebben bovendien geen plan B, zelfs niet wanneer hun diensten cruciaal zijn”, zegt David Carrero, mede-oprichter van Stackscale. “Hoogtebeschikbaarheid (HA) is mooi, maar als alles afhankelijk is van één enkel element, dan zal de HA falen.”

Wat er precies gebeurde

  • Trigger: DNS-resolutieproblemen voor DynamoDB in US-EAST-1.
  • Domino-effect: Problemen bij het opstarten van EC2-instanties, netwerkloadbalancers en Lambda-invocaties, plus wachttijden en throttling bij afhankelijke diensten.
  • Impact in Europa: Hoewel veel workloads in Europese regio’s draaien, zijn globale controleplannen en interne afhankelijkheden (identiteit, queues, orkestratie) verankerd in Virginia, wat leidde tot mislukte logins, 5xx-pagina’s en latentie in Spanje.

“Dit zien we keer op keer omdat de architectuur eigenlijk niet multi-regio is,” voegt Carrero toe. “Controleplannen in één regio, gecentraliseerde data voor het gemak en failovers die niet worden geoefend – als er dan een grote verstoring is, staat alles stil.”

Technische lessen uit het voorval

  1. US-EAST-1 kan niet alles zijn: Het is gemakkelijk en goedkoop, maar het concentreert systeemrisico.
  2. Multi-AZ betekent niet automatisch veerkracht: Als een kritisch component (zoals de DNS van een kernservice) uitvalt, hebben alle zones te lijden.
  3. Plan B moet getest worden: Een runbook zonder regelmatige gamedays is waardeloos.
  4. Observabiliteit en DNS zijn cruciaal: Als je monitoring en identiteitsbeheer ook afhankelijk zijn van de geraakt regio, ben je blind wanneer je zicht nodig hebt.
  5. Communicatie: Duidelijke en frequente rapportages verminderen onzekerheid en de ondersteuningskosten.

Wat moet er veranderen in cloud-first architecturen?

  1. Echte multi-regio: Scheid controle- en dataplannen en test switchoverprocedures. “Niet alles hoeft actief-actief te zijn, maar de kritische onderdelen wel,” zegt Carrero.
  2. DNS/CDN met failover: Beleid voor failover in DNS/GTM op basis van servicegezondheid, en alternatieve oorsprongen in CDN.
  3. Back-ups en timing restauraties: Inwisselbare en losgekoppelde back-ups, met tests in realistische tijden.
  4. Globale afhankelijkheden onder controle: Identificeer “global” services die afhangen van US-EAST-1 en bereid alternatieve routes of mitigaties voor.
  5. Multi-cloud… waar het zinvol is: Voor continuïteit, soevereiniteit of regulatoir risico, gebruik een tweede leverancier voor essentieelste diensten.

Europa heeft opties

De andere kant van dit debat is industrieel. “In Europa zijn er veel winnende opties die soms worden onderschat door de druk om ‘bij de groten’ te horen,” merkt Carrero op. “Niet alleen Stackscale kan een alternatief zijn: het Europese en Spaanse ecosysteem — private cloud, bare-metal, housing, connectiviteit, back-up en beheerde diensten — is uitgebreid en professioneel.”

Praktische stappen:

  • Plaats kritische data en apps in Europese infrastructuur en koppel ze aan SaaS/hyper-scalers waar dat waarde toevoegt.
  • Zorg ervoor dat lagen voor continuïteit geen impact-domein delen met de hoofdleverancier.
  • Werk samen met lokale partners voor echte SLA’s en nabijheidssteun.

Wat te doen vandaag

Gebruikers:

  • Controleer de statuspagina van de betreffende dienst.
  • Probeer het later opnieuw; de herstelprocessen zijn geleidelijk.

IT-teams (nu):

  • Voorkom overhaaste wijzigingen; schakel alleen over als er een bewezen route is.
  • Communiceer de status en verzamel statistieken voor de post-mortem.

IT-teams (komende weken):

  • Map RTO/RPO per dienst en pas architectuur/budget aan op basis van die doelen.
  • Oefen switchoverprocedures en documenteer de resultaten.
  • Externaliseer observatie/identiteit naar buiten het hoofd-impact-domein.
  • Ontkoppel globale afhankelijkheden; controleer wat er kapot gaat als US-EAST-1 offline gaat.

De kern van de zaak: afhankelijkheid en autonomie

De storing werd in enkele uren opgelost, maar het patroon herhaalt zich (in 2020, 2021, 2023 en nu 2025). De les is niet om “van de cloud weg te rennen”, maar om te ontwerpen voor falen en te diversifiëren. “Veerkracht is geen slogan,” concludeert Carrero. “Het is engineering en discipline. Als je bedrijf afhankelijk is van je platform, moet het blijven draaien, ook als de hoofdleverancier faalt. HA is geen plan B; plan B is een volledige alternatieve route naar hetzelfde resultaat.”

In het kort: in Spanje en Europa hebben we nog steeds geen plan B als een hyper-scaler in de problemen komt. Het is tijd om de last te herverdelen, de continuïteit te testen en de Europese focus te activeren als aanvulling. De volgende storing is geen kans, het is een vraag van wanneer. Het verschil tussen een schrikmoment en een crisis zal, opnieuw, worden bepaald door voorbereiding.

Scroll naar boven