Google neemt een sprong voorwaarts met multi-architectuur strategie
Google heeft een belangrijke stap gezet in zijn strategie voor multi-architectuur. Met de introductie van Axion, de eerste op maat gemaakte Arm® CPUs, heeft het bedrijf onthuld hoe tienduizenden interne applicaties gelijktijdig kunnen worden gecompileerd en uitgevoerd op zowel x86 als ARM binnen hun productie-clusters. Dit is geen test: grote diensten zoals YouTube, Gmail, en BigQuery draaien al verkeer op beide architecturen, terwijl het gebruik van ARM-hardware stijgt met elke maand meer servers.
Incentives voor de overstap
De voordelen zijn duidelijk. Volgens gegevens van Google bieden Axion-gebaseerde instaties tot 65% betere prijs-prestatieverhouding en zijn ze tot 60% energie-efficiënter in vergelijking met vergelijkbare instaties in Google Cloud. Naarmate deze verbeteringen op datacenter-schaal worden doorgevoerd, heeft dit een aanzienlijke impact: lagere energiekosten en meer bruikbare capaciteit per watt voor klanten en interne diensten.
Migreren naar “multiarch”: de onverwachte uitdagingen
Het technische verhaal verbreekt enkele veelvoorkomende aannames. Het multiplaatformteam ging ervan uit dat architectuurverschillen, zoals floating-point precisie en concurrency, de grootste obstakels zouden zijn. Echter, bij de migraties van topdiensten zoals F1, Spanner en Bigtable ontdekten de ingenieurs dat dergelijke verschillen veel minder problemen veroorzaakten dan verwacht. De grootste uitdagingen lagen in:
- Overgecompliceerde x86-tests die aannamen deden over timing en platformdetails.
- Verouderde build- en release-systemen die geen rekening hielden met ARM-varianten.
- Implementatieconfiguraties die niet begrepen hoe een enkele service op twee architecturen kon draaien.
- Operationele risico’s bij het aanpassen van kritieke systemen in productie.
Een ingenieur vatte het samen: “Iedereen was gefocust op de totaal andere toolchain, ervan uitgaande dat alles zou stukgaan. De meeste moeilijkheden bleken te liggen in configuraties en andere ‘saaiere’ zaken.”
Het echte probleem: de ‘long tail’
Het verplaatsen van een handvol kritieke jobs met toegewijde teams werkt goed, maar schaalt niet. Ondanks dat ongeveer 60% van de actieve berekeningen zijn geconcentreerd in de 50 grootste applicaties, blijft de rest van de 100.000+ applicaties in een “lange staart”. Om Borg (de interne orchestrator) efficiënt te laten werken met taken op zowel x86 als ARM, is de sleutel: automatisering.
Google benadert dit met een set tools en een nieuwe AI-agent die de kloof moet dichten.
Automatisering: Massale commits en handloze validatie
- Rosie: genereert grootschalige commits en begeleidt deze door het revisieproces. Bijvoorbeeld: het inschakelen van de ARM-modus in de configuratie van een job met één regel.
- Sanitizers en fuzzers: detecteren uitvoeringsverschillen tussen x86 en ARM voordat deze in productie gaan, om onvoorspelbare gedrag te voorkomen.
- CHAMP (Continuous Health Monitoring Platform): een geautomatiseerd kader voor multi-architectuur jobs. Als een job crasht op ARM, wordt deze automatisch uit de roulatie gehaald voor offline afstelling.
Met deze middelen begon het team de migratie “te industrialiseren”.
Analyseren van de migratie: 38.156 commits en drie fasen
Google analyseerde 38.156 commits in hun monorepo Google3—bijna 700.000 gewijzigde regels—toegewijd aan de migratie. Deze veranderingen werden gecategoriseerd in 16 categorieën, wat een helder inzicht gaf in de evolutie van de migratie:
- Tools en testadaptatie: De meeste commits waren aanpassingen van tooling en tests.
- Code-aanpassing: Bij de migratie van de eerste grote applicaties steeg het aandeel code-wijzigingen.
- Configuratie en processen: In de laatste fase waren bijna alle commits gerelateerd aan configuratiebestanden en ondersteuningsprocessen.
Opmerkelijk is dat de meeste commits klein waren; de grootste zijn vaak het resultaat van grote lijsten of configuraties, niet van ingewikkelde aanpassingen aan een enkel bestand.
De rol van AI: CogniPort
Om de nog overgebleven applicaties die niet compileren of falen bij tests in ARM aan te pakken, heeft Google CogniPort ontwikkeld, een generatieve AI-agent gericht op het automatiseren van de resterende migratie.
CogniPort werkt op build- en testfouten. Wanneer iets niet compileert of faalt, grijpt de agent in en probeert het probleem zonder menselijke tussenkomst op te lossen. Dit gebeurt via drie geneste agent-buizen.
In tests met historische commits kon de agent 30% van de testfouten oplossen zonder extra prompts.
Wat betekent dit voor de toekomst van Google en de sector?
Implicaties voor de industrie
- Elasticiteit op een nieuwe schaal: De scheduler kan dezelfde workloads op x86 of ARM plaatsen afhankelijk van beschikbaarheid en kosten, wat leidt tot lagere kosten per service.
- Duurzaamheid: Tot 60% verbetering in energie-efficiëntie heeft aanzienlijke impact op verbruik en emissies.
- Minder afhankelijkheid van ISA-aanbieders: Het vooraf ontwerpen van applicaties voor multi-architectuur vermindert technologie-risico’s.
- Culturele veranderingen: De migratie heeft aangetoond dat de echte frictie lag in tests, builds, en pipelines. Deze laag is diegene die moet worden ontworpen voor portabiliteit.
Wat klanten van Google Cloud kunnen verwachten
Hoewel de nadruk ligt op interne infrastructuur, zijn er enkele implicaties voor klanten:
- Meer instantiemogelijkheden met betere prijs-prestatieverhouding.
- Verbeterde TCO voor elastische workloads.
- Een handleiding voor realistische migratieprocessen in grote organisaties, die gebruik maakt van automatisering en AI als multiplier.
De toekomst: “multiarch by default”
Google is van plan om automatisering te gebruiken om tientallen duizenden pending apps aan te pakken en heeft de beleidslijn “multiarch by default” voor nieuwe applicaties vastgesteld. Met de juiste structuren en Cognito in de back-end, is het doel om de diensten naar een striktere architectonale neutraliteit te brengen.
De onderliggende boodschap voor de sector is duidelijk: de migratie van ISA is geen science fiction meer, maar een industriële operatie. Het richt zich op de randzaken: tests, builds, configuraties en pipelines — en hier kan generatieve AI een cruciale rol spelen.
