Wereldwijde Uitval in Google Cloud: Quota Fout Veroorzaakt Urenlange Onderbrekingen

Grote Storing van Google Cloud Verstoort Diensten Wereldwijd

Op 12 juni beleefde de Google Cloud een van de grootste wereldwijde onderbrekingen van de afgelopen jaren, die essentiële diensten voor bedrijven en gebruikers over de hele wereld beïnvloedde. Het incident begon om 19:51 uur (Spaanse tijd) en duurde minimaal drieënhalf uur, met gevolgen voor tientallen producten van Google Cloud Platform (GCP) en Google Workspace, variërend van infrastructuurdiensten tot e-mail, opslag en data-analyse.

Wat Is Er Gebeurd?

Volgens officiële informatie van Google was de belangrijkste oorzaak een onjuiste automatische update van quota in het API-beheer systeem, die wereldwijd werd verspreid en leidde tot massale afwijzing van externe verzoeken. De fout beïnvloedde de quota-beheer van API’s, waardoor legitieme verzoeken werden geblokkeerd en 503-fouten in cascade optraden in diensten zoals Compute Engine, Cloud Storage, BigQuery, App Engine, Cloud SQL, Cloud Run, Vertex AI, Cloud Pub/Sub, Cloud DNS, Gmail, Google Drive en Google Calendar, onder andere.

Hoewel Google de fout snel detecteerde en een tijdelijke oplossing toepaste door de conflictueuze quota-controle uit te schakelen, was het herstelproces ongelijkmatig. In de regio us-central1 (Iowa), waar veel middelen zijn geconcentreerd, verliep de herstelling trager door overbelasting van de database van quota-beheer.

Impact Voor Bedrijven en Gebruikers

Tijdens urenlange onderbrekingen ervoeren duizenden organisaties in Europa, Azië en Amerika intermittente storingen in de toegang tot dashboards, API’s, automatische backups, applicatie-executies, automatiseringen en AI-diensten, evenals kantoorprogramma’s zoals Gmail en Drive. Hoewel de draaiende resources niet zijn gestopt, veroorzaakte het onvermogen om toegang te krijgen tot het beheer, logs te raadplegen, incidenten te monitoren of middelen op te schalen, onzekerheid en continuïteitsproblemen voor IT-teams.

De impact was vooral ernstig voor beheerde dataservices, zoals Cloud Bigtable, BigQuery, Spanner, Firestore, Cloud SQL en Cloud Storage, waar onderbrekingen van lezen en schrijven werden geregistreerd, evenals bij belangrijke AI-producten zoals Vertex AI en Looker Studio.

Google geeft aan dat het incident niet had mogen gebeuren en heeft onmiddellijk maatregelen aangekondigd:

  • De beheersplatformen voor API’s beschermen tegen fouten door middel van corrupte of ongeldige gegevens.
  • Verbetering van validatie, testen en monitoring voordat wijzigingen in metadata wereldwijd worden verspreid.
  • Versterking van foutafhandelingssystemen en testen in geval van ongeldige gegevensscenario’s.

Hoe Beïnvloedde Het Spanje en Europa?

Onder de getroffen datacenters waren die in Madrid, Finland, Parijs, Berlijn, Londen, Milaan, Frankfurt, Brussel en Warschau, evenals de Europese multi-zone regio’s. Het incident verspreidde zich over de gehele cloud- en workspace-infrastructuur en heeft impact gehad op zowel grote als kleine bedrijven, overheden, startups en publieke instellingen die afhankelijk zijn van Google voor hun dagelijkse activiteiten.

Herstel En Huidige Status

Om 22:49 uur (Spaanse tijd) bevestigde Google dat de meeste diensten hersteld waren, met uitzondering van bepaalde residuele operaties in zeer getroffen regio’s (zoals us-central1) en AI-diensten zoals Vertex AI Online Prediction, die enkele uren later de normale gang van zaken hervatten. Desondanks erkende het bedrijf de ernst van het incident en verplichtte het zich tot het publiceren van een gedetailleerd technisch rapport met de analyse van de oorzaak en verbetermaatregelen.

Reflectie: Wat Kunnen We Leeren?

Dit incident herinnert ons eraan dat, hoewel de cloud hoge beschikbaarheid, automatisering en schaalbaarheid biedt, geen enkele provider gevrijwaard is van catastrofale fouten in hun beheersysteem. Bedrijven moeten:

  • Multicloudstrategieën en onafhankelijke backups implementeren.
  • Contingentieplannen en responsdocumentatie opstellen voor uitval van externe providers.
  • Kritische diensten van externe platforms monitoren.
  • Periodiek de SLA’s en herstelcapaciteit bij systeembreuken evalueren.

Google staat, aan de andere kant, onder druk om het vertrouwen van duizenden getroffen bedrijven te herwinnen. Het ecosysteem verwacht details over de ontwerpfout en de maatregelen die zijn genomen om te voorkomen dat een simpele quota-fout opnieuw een wereldwijde storing veroorzaakt.

Bron: Google Status

Scroll naar boven