Arm reivindigt het “brein” van het IA-datacentrum: de CPU keert terug naar de kern met NVIDIA Rubin

Jarenlang leek het verhaal over AI-infrastructuur één hoofdrolspeler te hebben: de GPU. Maar Arm brengt een ander (en voor velen onvermijdelijk) idee naar voren: de enige echte manier om AI op te schalen is via volledig systeemontwerp, waarbij de CPU — en steeds meer ook de DPU — de lijm vormen die accelerators daadwerkelijk waarde laten leveren.

Dit voorstel gebruikt Arm om de aankondiging van NVIDIA Rubin op CES 2026 te interpreteren als een onderliggende bevestiging: de sector beweegt zich richting racks en supercluster-‘co-designs’ (waar compute, netwerken, opslag en beveiliging als één geïntegreerd product worden benaderd). En in die sprong winnen Arm-gebaseerde CPUs aan belang als laag voor orkestratie, coördinatie en controle.

Van “meer GPU’s” naar “convergerend datacenter”

Arm vat de verandering kernachtig samen met een krachtige uitspraak: accelerators voeren de berekeningen uit, maar zijn het de CPUs die die rekenkracht omzet in werkbare systemen, door data te beheren, synchroniseren, isoleren en betrouwbaarheid op schaal te garanderen. In een wereld van grotere modellen en vooral meer ‘agents’ (AI die plant, redeneert en handelt via ketens van hulpmiddelen), is de bottleneck niet meer alleen de FLOP:

het is het voeden, coördineren en beveiligen van de AI-assemblage.

Hier past het concept van het “convergerende AI-datacenter”: dicht op elkaar geïntegreerde, modulaire infrastructuren die maximale compute per vierkante meter bieden én tegelijk energie- en operationele kosten proberen te beperken.

Rubin: zes chips, één ‘supercomputer’ in platformvorm

NVIDIA presenteert Rubin als een ‘extreem co-design’ platform, bestaande uit zes onderdelen: Vera CPU, Rubin GPU, NVLink 6 Switch, ConnectX-9 SuperNIC, BlueField-4 DPU en Spectrum-6 Ethernet Switch. Het doel is niet alleen meer prestaties, maar vooral de tijd en kosten verminderen voor training en inferentie bij volledige rackschaal.

In samenvatting spreekt NVIDIA over:

  • Tot 10× lagere kosten per token bij inferentie vergeleken met Blackwell.
  • Tot 4× minder GPU’s nodig voor het trainen van MoE-modellen dan bij de vorige generatie.
  • Een extra impuls via Ethernet Photonics in Spectrum-X voor hogere energie-efficiëntie en beschikbaarheid.

Bovendien koppelt de aankondiging al aan concrete implementaties: van ‘Fairwater AI superfabrieken’ van Microsoft (gebaseerd op NVL72-systemen met Vera Rubin) tot de plannen van leveranciers zoals CoreWeave om Rubin snel in productie te brengen.

De cruciale verschuiving: de DPU als ‘infrastructuurserver’ (en opslag als concurrentievoordeel)

Een interessant aspect van Arm’s aanpak is dat deze niet beperkt blijft tot de host-CPU. De sprong van BlueField-4 onderstreept dat: meer dan een ‘standaard’ netwerkkaart, gedraagt het zich als een infrastructuurprocessor die kritieke functies van de host kan overnemen.

NVIDIA noemt deze ideeën met een specifiek opslagplatform voor AI: NVIDIA AI Inference Context Memory (AICON), ontwikkeld om de tokens/sec en energie-efficiëntie te verhogen, ondersteund door BlueField-4 als kerncomponent.

De impliciete conclusie is duidelijk: aangezien reasoning- en agentmodellen afhankelijk zijn van context en geheugen, vervagen de lijnen tussen “compute” en “data”. Opslag wordt geen periferie meer, maar een integraal onderdeel van de uiteindelijke prestatie.

AWS volgt hetzelfde patroon met Trainium3: geïntegreerde systemen om kosten per nuttige eenheid te verlagen

Arm benadrukt dit door te verwijzen naar AWS Trainium3: een systeem waarin accelerator, CPU (Graviton) en infrastructuurcomponenten (Nitro) worden ontworpen als één geheel.

AWS beweert dat Trainium3 biedt:

  • Tot 4,4× meer compute en tot 4× efficiëntere energiegebruik dan Trainium2.
  • 128 GB HBM3e per chip en bijna 4× meer bandbreedte.
  • Configurable op schaal van “UltraServer” met meerdere chips en uitgebreide HBM-geheugenaggregatie.

De boodschap blijft hetzelfde: niet slechts ‘een nieuwe accelerator’, maar geïntegreerde, gesloten platformen waar elke laag bijdraagt aan minder frictie, lagere latentie en minder energieverlies.


Vergelijkende tabel: twee wegen naar een ‘volledig systeem’

PlatformFilosofieBelangrijkste onderdelenOpschalingsaanpakBelofte
NVIDIA RubinExtreem co-design (6 chips als één systeem)Vera CPU, Rubin GPU, NVLink 6, ConnectX-9, BlueField-4, Spectrum-6Rack- en supercluster-schaalLagere kosten per token en minder GPU’s voor MoE
AWS Trainium3Eigen silicon en verticale integratie (compute + CPU + infrastructuur)Trainium3 + Graviton + NitroUltraServers en AWS-implementatiesMeer prestaties en energie-efficiëntie per generatie

Wat betekent dit voor de markt?

  1. De CPU stopt niet langer als ‘secundair’: orkestratie, beveiliging en dataverkeer worden de bottlenecks in dicht op elkaar aangesloten rack-omgevingen.
  2. De infrastructuur ‘productenmarkt’ wordt: het kopen van AI op grote schaal wordt steeds meer het kopen van complete platformen, niet slechts losse onderdelen.
  3. Netwerken en opslag worden strategischer: DPU’s, NICs en ‘context memory’ worden echte differentiators voor reasoning en agent-gedreven toepassingen.

Veelgestelde vragen

Wat is een ‘convergerend AI-datacenter’?
Een benadering waarbij compute, netwerken, opslag en beveiliging als één geïntegreerd systeem ontworpen worden, geoptimaliseerd voor efficiënte AI-scaling met energiebeheer en operationele controle.

Waarom benadrukt Arm de rol van de CPU, zeker als de GPU de zware taken uitvoert?
Omdat het bij grootschalige AI niet alleen om rekenen gaat, maar vooral om het coördineren van duizenden GPU’s: data voeden, werk synchroniseren, omgevingen isoleren, fouten monitoren en het systeem stabiel houden.

Wat doet een DPU zoals BlueField-4 in AI?
Hij fungeert als een ‘infrastructuurprocessor’: hij neemt taken voor netwerk, beveiliging en opslag over van de host, waardoor resources vrijkomen en isolatie en efficiëntie verbeteren in grote clusters.

Wat is er nieuw aan Rubin ten opzichte van vorige generaties?
Het bestaat uit zes chips die samen ontworpen zijn om inferentiekosten te verlagen, training te versnellen en nieuwe lagen voor reasoning en agents te integreren.

vía: newsroom.arm

Scroll naar boven