Grote Uitval van Yandex Cloud: Een Waarschuwing voor de Technologie Sector
Op 30 maart jl. heeft het belangrijkste datacenter van Yandex een ongekende serviceonderbreking ervaren die meerdere kritieke diensten van het bedrijf heeft getroffen, waaronder het cloudplatform Yandex Cloud. Deze verstoring werd veroorzaakt door een gelijktijdige storing in beide hoogspanningslijnen die van een nabijgelegen onderstation in de buurt van Moskou kwamen. Yandex beschrijft het incident als de eerste van deze omvang in vijftien jaar en meldt dat de kans op een dergelijk voorval eens in de twintig jaar is.
Het datacenter, dat in het begin van de jaren 2010 werd geopend op een voormalig industrieel terrein, bevindt zich strategisch dicht bij een krachtige 220 kV onderstation. Dit onderstation had sinds de ingebruikname in 1960 geen storingen gekend. Yandex had daarom twee onafhankelijke voedinglijnen van 110 kV voorzien, die in theorie voldoende redundantie boden om onderbrekingen te voorkomen. Echter, beide lijnen faalden gelijktijdig en veroorzaakten een grote schok voor de organisatie.
Een Stroomuitval die Systemen op de Proef Stelde
De stroomuitval begon om 12:25 uur lokale tijd, wat ertoe leidde dat nooddieselgeneratoren moesten worden ingeschakeld en de bedrijfskritische infrastructuur afhankelijk werd van diesel-rotatieve ononderbroken stroomvoorzieningen (DUPS). Terwijl de kerncomponenten zoals netwerk-infrastructuur en monitoringsystemen operationeel bleven, viel de beschikbaarheid van de ‘ru-central1-b’ zone van Yandex Cloud urenlang stil. Sommige diensten die in meerdere zones waren uitgerold, ondervonden ook beschikbaarheidsproblemen.
Het herstel van de stroomvoorziening vanuit het onderstation vond plaats om 15:30 uur, maar het volledige heractiveringsproces voor de infrastructuur en diensten duurde tot middernacht. De complexiteit van het herstel vereiste handmatige controles en directe supervisie door ingenieurs, wat de hersteltijd verder verlengde.
Lessen en Toekomstige Maatregelen
Yandex heeft aangekondigd dat dit voorval heeft geleid tot een grondige herziening van zijn energieresilientiemodel. Dit omvat de mogelijkheid om een derde niveau van back-up op basis van generators toe te voegen, naast de twee bestaande niveaus. Het bedrijf zal ook strengere rampenherstel-oefeningen uitvoeren, inclusief simulaties van dubbele storingen, en de automatisering van koude opstartprocessen verbeteren.
Tevens wordt de focus gelegd op het versterken van de multi-zone veerkrachtige tools in Yandex Cloud. Een opvallend voorbeeld is ‘Zonal Shift’, een technologie voor verkeersomleiding die al heeft bewezen effectief te zijn door klanten met gedistribueerde architecturen in staat te stellen de impact te verminderen door automatisch de belasting naar andere beschikbare zones om te leiden.
Een Waarschuwing voor de Hele Sector
Dit incident fungeert als een belangrijk signaal voor operators van kritieke infrastructuren: zelfs de robuuste systemen kunnen falen als uitzonderlijke risico’s niet in overweging worden genomen. "Multi-zone is geen optie meer, het is een noodzaak voor elke missie-kritische dienst," waarschuwde Yandex in zijn rapport.
Yandex, ook wel de ‘Russische Google’ genoemd, heeft vijf datacenters in Rusland, gelegen in Vladimir, Sasovo, Ivanteevka, Mytishchi en Kaluga Oblast. Laatstgenoemde werd recent geopend met een capaciteit van 63 MW. Na de structurele afscheiding van zijn Europese operaties, nu onder de naam Nebius, heeft Yandex zijn inzet verhoogd om de infrastructuur binnen Rusland te versterken.
Dit voorval, hoewel zonder significante verliezen onder controle gebracht, zal dienen als een case study voor de hele technologiesector, en benadrukt het belang van extreme planning, redundantie en transparantie in de crisisbeheerprocessen.