Google Cloud en NVIDIA hebben hun samenwerking uitgebreid om de volgende generatie Vera Rubin GPUs te integreren in de AI Hypercomputer-infrastructuur van Google. De aankondiging richt zich op de A5X, een nieuwe familie van bare-metal instanties ontworpen voor agentgebaseerde en fysieke AI-workloads, met een indrukwekkend schaalpotentieel: tot wel 80.000 NVIDIA Rubin GPU’s in één datacenter en tot 960.000 GPU’s verspreid over meerdere locaties via een cluster.
Dit betekent niet dat elke klant zomaar met één klik bijna een miljoen GPU’s kan reserveren. Het geeft wel duidelijk de richting aan waarin de AI-infrastructuur van grote cloudproviders zich ontwikkelt: systemen die chips, netwerken, opslag en software-orkestratie combineren, zodat steeds complexere modellen efficiënt kunnen worden getraind, aangepast en uitgevoerd met minimale knelpunten. Google presenteert dit als een uitbreiding van zijn AI Hypercomputer, dezelfde technologiebasis die wordt gebruikt voor Gemini en hun zakelijke en consumentgerichte AI-diensten.
A5X: Google’s inzet op Rubin binnen de AI Hypercomputer
A5X is gebaseerd op het NVIDIA Vera Rubin NVL72-platform, de volgende generatie architectuur van NVIDIA voor rack-scale AI-systemen. Google geeft aan dat het een van de eerste aanbieders zal zijn die instanties op basis van Vera Rubin aanbieden zodra het platform eind 2026 beschikbaar komt. Het gaat hierbij niet om een reeds uitgerolde instantie, maar om een infrastructuur die wordt aangekondigd als onderdeel van Google’s volgende groeifase voor de Cloud.
De focus op A5X sluit aan bij een markt die steeds meer verschuift van puur grootschalig trainen van grote modellen naar andere AI-taken. Lage-latentie inferentie, agenten die taken uitvoeren, redeneerprocessen, modelafstemming en fysieke AI voor robotica of digitale tweelingen vereisen flexibelere architecturen. Het gaat niet alleen om veel GPU’s hebben; ze moeten ook met lage latentie verbonden worden, gegevens kunnen ontvangen, taken kunnen worden herstart bij fouten, en een hoge benuttingsgraad behouden blijven voor een rendabele investering.
NVIDIA verzekert dat A5X, door de combinatie van Vera Rubin NVL72, ConnectX-9 SuperNICs en Google’s Virgo-netwerk, tot wel 10 keer lagere inferentiekosten per token en tot 10 keer meer verwerkingssnelheid per megawatt kan bieden vergeleken met de vorige generatie. Dit zijn inschattingen van prestatieniveaus in specifieke scenario’s, maar illustreren wel een concreet probleem: AI draait niet meer alleen om precisie, maar ook om operationele kosten en energie-efficiëntie.
Google integreert ook concepten uit het Falcon-netwerkprotocol, ontwikkeld in samenwerking met NVIDIA via het Open Compute Project. Het doel is om de betrouwbaarheid en efficiëntie van datatransport binnen AI-clusters te verbeteren, waar zelfs kleine efficiëntieverliezen zich kunnen opstapelen bij tienduizenden accelerators.
Virgo en ConnectX-9: het netwerk als kerncomponent
De vermelding van 960.000 GPU’s trekt de aandacht, maar de kern van de schaal ligt in het netwerk. Google’s Virgo-netwerk is de interconnectietechnologie die het bedrijf gebruikt om AI-ladingen op datacenterniveau en tussen meerdere locaties op te schalen. Met zijn achtste generatie TPUs claimt Google dat Virgo tot 134.000 TPUs in één datacenter kan verbinden, en meer dan een miljoen TPUs tussen meerdere locaties. Voor A5X wordt dezelfde technologie uitgebreid naar NVIDIA Vera Rubin NVL72, met de aangekondigde limieten van 80.000 GPU’s per locatie en 960.000 in multisite-configuraties.
Een dergelijke schaalgrootte verandert de aard van de uitdaging. In kleine clusters ligt de focus vaak op GPU-prestaties, maar bij grote clusters wordt de bottleneck meestal gevormd door communicatie, synchronisatie, opslagtoegang, foutherstel of het efficiënt verdelen van workloads. Daarom benadrukken NVIDIA en Google het belang van een geïntegreerde aanpak van GPU’s, NIC’s, netwerken, software en beheerde diensten.
ConnectX-9 SuperNICs versnellen de netwerkcommunicatie in cloudinfrastructuren via Ethernet, waardoor de negatieve effecten van workload-verdeling over vele servers verminderd worden. Google’s Virgo-netwerk faciliteert het verbinden van deze capaciteit binnen de AI Hypercomputer, zodat datacenters niet meer als geïsoleerde systemen functioneren, maar als onderdelen van een grotere architectuur.
Google’s strategie toont ook dat het niet kiest tussen eigen TPU’s en NVIDIA GPU’s. Het bedrijf versterkt zijn interne chips, zoals TPU 8t voor training en TPU 8i voor inferentie en reinforcement learning, terwijl het tegelijkertijd zijn aanbod van NVIDIA-gebaseerde hardware uitbreidt. Voor klanten betekent dat een flexibele aanpak, waarbij sommige modellen beter op TPU passen, andere op GPU, en veel bedrijven graag compatibel willen blijven met CUDA, NVIDIA-bibliotheken en bestaande ecosystemen.
Agentgerichte AI vereist meer dan alleen accelerators
Google Cloud presenteert deze ontwikkelingen als onderdeel van een bredere infrastructuur voor zogenaamde agentgerichte AI. Naast A5X en Virgo heeft het bedrijf nieuwe machines met CPU’s op basis van Arm, native support voor PyTorch op TPU’s, verbeteringen in Google Kubernetes Engine (GKE), nieuwe opslagdiensten met hoge doorvoer en functies voor snellere opstart van nodes en pods aangekondigd.
De technische boodschap is duidelijk: AI-agents opereren niet alleen binnen het model zelf, maar moeten ook calls naar tools maken, databases raadplegen, taken coördineren, context bewaren, antwoorden evalueren, code verwerken, documenten ophalen en met lage latency reageren. GPU’s en TPU’s vormen de kern, maar er is rondom een I/O- en orkestratielaag van CPU, netwerken en opslag die het verschil maken tussen een indrukwekkende demonstratie en een robuuste productie-omgeving.
Google benadrukt dit met de introductie van Axion N4A-instanties voor agentroutines, reward-berkeningen, orchestratie en ondersteunende taken. Ook heeft het de GKE-omgeving verbeterd om nodes en pods sneller te starten en een Inference Gateway geïntroduceerd met voorspellende routing om lagere latentie te bereiken bij het eerste token. In conversational AI-toepassingen beïnvloedt die latentie de gebruikerservaring direct.
Opslag blijft een cruciaal onderdeel. Google Cloud Managed Lustre verhoogt de bandbreedte tot 10 TB/s en de capaciteit tot 80 PB. Ook zijn er snelkoppelingen in Google Cloud Storage, zoals Rapid Buckets, die checkpoints en herstel van training mogelijk maken met uiterst lage latentie — essentieel als data niet op tijd beschikbaar zijn en dure accelerators geen resources willen verspillen.
Google en NVIDIA: meer samen dan rivalen
Het nieuws komt op een moment dat Google fors investeert in eigen TPU’s, terwijl NVIDIA nog altijd een dominante marktpositie voor AI-accelerators inneemt. Op het eerste gezicht lijkt het een tegenstelling: Google concurreert met NVIDIA in chips, maar heeft tegelijkertijd grote behoefte aan NVIDIA-GPU’s vanwege compatibiliteit, prestatie-eisen en het ecosysteem rondom CUDA.
NVIDIA profiteert weer door onderdeel te zijn van een van ’s werelds grootste cloudplatforms. Google Cloud biedt klanten, datacenters, netwerken, beheerde diensten, veiligheid, Kubernetes en opslag — de hele infrastructuur die helpt om modellen in productie te krijgen. Voor NVIDIA is het niet genoeg om alleen hardware te verkopen; het belang is steeds meer dat hun platforms volledig geïntegreerd worden in AI-architecturen.
De samenwerking strekt zich uit tot Gemini op Google Distributed Cloud, met Blackwell GPU’s en Blackwell Ultra, vertrouwelijke machines met NVIDIA Blackwell, én het gebruik van modellen zoals Nemotron en frameworks zoals NeMo binnen agenten, robotica en industriële toepassingen. Daarmee positioneert NVIDIA zich niet alleen als chip-leverancier, maar ook als speler in de volledige softwarestack die bedrijven inzetten voor agenten, simulaties, robotica en meer.
De club van bijna een miljoen GPU’s klinkt misschien onrealistisch, maar de kern van het bericht is dat de volgende fase van AI niet puur afhangt van de kracht van de chip, maar van het vermogen om accelerators, netwerken, opslag, software en energie efficiënt te integreren. Google en NVIDIA willen aantonen dat zulke schaal haalbaar is in de cloud.
Voor klanten biedt A5X een optie voor het trainen van enorme modellen, grootschalige inferentie of complexe agenten met hoge prestatie-eisen. Het onderstreept dat AI nu zich bevindt in een infrastructuurniveau waarin de cijfers van snelheden én schaal steeds indrukwekkender worden, met een steeds verfijndere industriële architectuur achter elke gegenereerde token.
Veelgestelde vragen
Wat is Google Cloud A5X?
A5X is een nieuwe familie van bare-metal instances van Google Cloud op basis van NVIDIA Vera Rubin NVL72, ontworpen voor agentgebaseerde AI, grootschalige inferentie, training en fysieke AI-toepassingen.
Hoeveel GPU’s kan A5X schalen?
Google en NVIDIA spreken van tot 80.000 NVIDIA Rubin GPU’s in één datacenter en tot 960.000 GPU’s verdeeld over meerdere locaties.
Is A5X al beschikbaar?
Google geeft aan dat A5X gebaseerd zal zijn op NVIDIA Vera Rubin NVL72 zodra dit platform in 2026 beschikbaar is. Het betreft dus een aankondiging voor de volgende generatie infrastructuur, niet een reeds uitgerolde dienst.
Waarom gebruikt Google NVIDIA GPU’s als het ook TPU’s heeft?
Omdat veel klanten GPU’s nodig hebben vanwege compatibiliteit, prestatie en het ecosysteem van software. Google combineert eigen TPU’s met NVIDIA GPU’s om zo je verschillende workload-eisen te kunnen bedienen.
