NVIDIA koelt Rubin CPX af en herstructureert haar inferentiestrategie

NVIDIA lijkt haar plannen rond Rubin CPX, de inferentieversneller die in september 2025 werd gepresenteerd als een belangrijk onderdeel van het toekomstige Vera Rubin-platform, te heroverwegen. Volgens industriebronnen geciteerd door The Elec heeft het bedrijf geen bestellingen geplaatst noch ontwikkelingsstappen gezet voor geheugen met GDDR7 of de benodigde substraten voor dit product, ondanks dat de lancering oorspronkelijk werd verwacht in de tweede helft van 2026.

Deze informatie betekent niet automatisch dat het product officieel wordt geannuleerd. NVIDIA heeft nog geen officiële verklaring afgelegd over het verdwijnen van Rubin CPX. Het ontbreken van bestellingen voor geheugen en substraten, gecombineerd met de afwezigheid ervan op de roadmap getoond tijdens GTC 2026, doet echter vermoeden dat het product is gecanceld, uitgesteld of ingrijpend herontworpen. In een bedrijf dat de toeleveringsketen zeer ver van tevoren plant, is de afwezigheid van beweging op dit moment een teken dat niet makkelijk te negeren is.

Rubin CPX had een duidelijke functie: de markt voor inferentie met lange context aan te spreken met een andere architectuur dan traditionele GPU’s voor training. In plaats van HBM, het hoge-bandreik geheugen dat de duurdere AI-versnellers domineert, had NVIDIA aangekondigd dat het apparaat zou beschikken over 128 GB GDDR7. Die keuze was niet toevallig. Inferentie vereist niet altijd het extreem hoge bandbreedte datTraining vraagt, maar wel de capaciteit, betaalbaarheid en een lager energieverbruik per bewerking.

Van GDDR7 naar SRAM: prioriteiten verschuiven

Toen NVIDIA Rubin CPX presenteerde, beschreef het het als een nieuwe klasse GPU geoptimaliseerd voor grootschalige inferentie met lange context. Het bedrijf sprak over tot wel 30 petaflops in NVFP4 precisie, 128 GB GDDR7 en een verdrievoudiging van de aandachtscapaciteit vergeleken met systemen zoals GB300 NVL72. Het heldere bericht was dat AI-systemen met enorme contexten en lange termijn toepassingen een specifieke versneller nodig zouden hebben om de eerste fase van contextverwerking te kunnen afhandelen.

Het plan leek op papier logisch. In een decentrale inferentie-architectuur verwerkt een deel van het systeem de input- context, terwijl een ander deel zich richt op token-generatie. Rubin CPX zou die eerste, intensieve fase met veel berekeningen en geheugen moeten afhandelen, gebruikmakend van GDDR7 als een kosteneffectievere en makkelijker schaalbare oplossing dan HBM.

Het probleem is dat de markt razendsnel is veranderd. Tijdens GTC 2026 zette NVIDIA de low-latency oplossing Groq 3 LPX centraal in haar narratief. Deze oplossing is gebaseerd op LPUs met geïntegreerd SRAM en biedt extreem lage vertraging en hoge doorvoer. De officiële NVIDIA-website presenteert Groq 3 LPX als het inferentieversneller voor Vera Rubin, ontworpen voor systemen met lage latency, grote contextvensters en veel tokens.

ProductHoofdgeheugenAanpakOpenbaarheidsstatus
Rubin CPX128 GB GDDR7Langetermijn-inferentie en contextverwerkingAangekondigd in 2025, afwezig op GTC 2026
Rubin GPUHBM4Primair rekenen in Vera RubinKernonderdeel van platform
Groq 3 LPU / LPXSRAM + DDR5 in rackZeer lage latency en hoog doorvoervolume voor inferentieDoor NVIDIA gepromoot voor Vera Rubin
GB300 NVL72HBM3E / BlackwellGrote schaal training en inferentieVorige referentieplatform

De technische verschillen zijn significant. GDDR7 is goedkoper en eenvoudiger te leveren dan HBM, maar blijft externe geheugen met hogere latency dan geïntegreerd SRAM. Groq 3 LPU vertrouwt op veel kleinere, maar uiterst snelle SRAM-modules. Elke LPU bevat 500 MB SRAM met een bandbreedte van 150 TB/s, en een LPX-rack bestaat uit 256 LPUs, 128 GB SRAM, 12 TB DDR5 en 40 PB/s SRAM-bandbreedte per rack, volgens gegevens van NVIDIA.

In agentgerichte inferentie, waarbij meerdere systemen onderling moeten communiceren, tokens snel gegenereerd moeten worden en interacties tussen agents real-time moeten verlopen, kan deze architectureel benadering aantrekkelijker zijn dan een GDDR7-gebaseerde oplossing. Niet noodzakelijk voor alle toepassingen, maar wel voor de vormen van inferentie met lage latentie en hoge prestaties die NVIDIA ziet als de volgende grens van de “AI factories”.

Signaal uit de toeleveringsketen

Het meest opvallende uit de informatie van The Elec betreft de toeleveringsketen. Bronnen binnen de industrie melden dat er geen bestellingen of ontwikkelingsaanvragen voor GDDR7-geheugen voor Rubin CPX zijn, en ook geen bewegingen in substraten. Een geheugenleverancier stelt dat NVIDIA had aangegeven dat Rubin CPX GDDR7 zou gebruiken, maar dat er nu geen actieve gesprekken meer zijn over het project.

Voor geheugen- en substratenproducenten zou Rubin CPX een nieuwe markt kunnen openen. GDDR7 wordt momenteel vooral toegepast in high-end grafische kaarten, zoals de GeForce RTX 5090 en 5080. Een inferentieversneller voor datacenters had dat veld aanzienlijk kunnen uitbreiden, met grote bestellingen en een positie buiten gaming en workstations.

Als Rubin CPX niet op de markt komt, wordt die kans vertraagd. De geheugenindustrie hoopte dat GDDR7 een bredere rol zou krijgen in AI, vooral als tussenstap tussen conventionele DRAM en HBM. Het verdwijnen van het product uit NVIDIA’s roadmap vermindert deze verwachting, althans op korte termijn.

ImplicatieVoor wie relevant
Minder potentiële vraag naar GDDR7 in AIGeheugenfabrikanten
Verminderd volume voor bijbehorende substratenLeveranciers van PCB’s en geavanceerd verpakkingsmateriaal
Meer gewicht voor SRAM en LPUs in inferentieNVIDIA en het Groq-ecosysteem
Verminderde afhankelijkheid van een tweede massieve geheugentypePlanning van Vera Rubin-platform
Mogelijk toekomstige herontwerp van CPXKlanten die uitkeken op een route met GDDR7

De bedrijfseconomische lijn is duidelijk: wanneer er enkele maanden voor de geplande lancering geen bestellingen of substraatontwikkelingen zichtbaar zijn, is de kans klein dat het product nog ongewijzigd blijft. Interne versies, herontwerpen, klantwijzigingen of onderdelen buiten de publieke roadmap kunnen nog voorkomen, maar de oorspronkelijke planning wordt ter discussie gesteld.

Inferentie: het nieuwe strijdveld

De mogelijke terugtrekking of herziening van Rubin CPX weerspiegelt een bredere verschuiving in de AI-markt. Tijdens de eerste fase van de AI-boom lag de focus op het trainen van enorme modellen, waarbij GPU’s met HBM de dominante oplossing waren. Nu verschuift de aandacht naar inferentie: het uitvoeren van modellen voor miljoenen gebruikers, agents, assistenten, zoekmachines, spraak-, video- en zakelijke automatiseringstoepassingen.

Inferentie vereist een andere economische aanpak. Het is niet alleen belangrijk dat de chip krachtig is; de tokens moeten snel, goedkoop en met lage latency gegenereerd worden. Een model kan indrukwekkend zijn, maar als het te laat reageert, te veel energie verbruikt of niet economisch schaalbaar is, wordt het een zakelijk probleem.

Daarom breidt NVIDIA haar architectuur uit. Vera Rubin wordt niet langer alleen gepresenteerd als een krachtigere GPU. Het wordt een platform van meerdere chips: CPU Vera, GPU Rubin, NVLink, BlueField, ConnectX, Spectrum-X en nu Groq 3 LPX als gespecialiseerde inferentieversneller. Het bedrijf probeert de controle te behouden over het hele systeem, zelfs nu de bottleneck verschuift van training naar real-time tokengeneratie.

Deze beweging ondergraaft ook de concurrentie. Bedrijven als Cerebras, Groq en andere gespecialiseerde chipfabrikanten benadrukken dat traditionele GPU’s niet altijd de beste optie zijn voor lage-latentie inferentie. NVIDIA lijkt die kritiek akkoord te gaan en haar GPU’s te omringen met aanvullende versnellers.

Wat betekent dat voor klanten en concurrenten?

Voor grote cloudklanten kunnen de onzekerheden rond Rubin CPX praktische gevolgen hebben. Sommige inferentie-architecturen begonnen al te overwegen dat er een splitsing zou komen tussen chips geoptimaliseerd voor contextverwerking en chips voor generatie. Als CPX wordt vertraagd of verdwijnt, wordt planning mogelijk verlegd naar LPX, standaard Rubin of andere interne versnellers.

Voor concurrenten is de boodschap gemengd. Aan de ene kant toont de mogelijke annulering van Rubin CPX dat zelfs NVIDIA haar roadmap aanpast wanneer marktomstandigheden of technologische ontwikkelingen dat vereisen. Aan de andere kant versterkt de integratie van Groq 3 LPX in Vera Rubin NVIDIA’s vermogen om ideeën die haar dominantie konden bedreigen, te absorberen of te incorporeren.

Voor geheugenproducenten is het minder gunstig. De vraag naar HBM is door AI explosief gestegen, terwijl GDDR7 vooral in gaming-GPU’s wordt toegepast. Rubin CPX leek een markt voor GDDR7 in AI te kunnen openen. Het wegvallen ervan vertraagt die ontwikkeling: GDDR7 zal wel blijven groeien in high-end grafische kaarten, maar het zal langer duren voordat het een relevante geheugentechnologie voor grote AI-inferentie wordt.

NVIDIA lijkt een pragmatische keuze te maken. In plaats van twee parallelle inferentieroutes te ondersteunen – een gebaseerd op GDDR7 en een op SRAM met LPUs – lijkt het platform te prioriteren dat beter geschikt is voor lage latentie, agenten en efficiëntie per watt. Als die strategie slaagt, wordt Rubin CPX mogelijk een overgangsfase die niet voltooid wordt. Mocht het falen, dan kan NVIDIA het concept later op een andere manier, met ander geheugen of een nieuwe generatie, weer oppakken.

De inferentie-markt bevindt zich momenteel in een meer uitdagende fase. Het gaat niet alleen om het uitvoeren van modellen, maar om dat te doen met de juiste kosten, latentie en energie-verbruik zodat agents op grote schaal kunnen functioneren. Rubin CPX was een antwoord daarop, maar Groq 3 LPX lijkt nu deze rol over te nemen.

Veelgestelde vragen

Heeft NVIDIA Rubin CPX officieel geannuleerd?
Nee. NVIDIA heeft geen officiële annulering aangekondigd. De twijfel ontstaat door het ontbreken van het product op de GTC 2026-roadmap en door het uitblijven van bestellingen voor geheugen en substraten zoals industriele bronnen melden.

Wat was Rubin CPX?
Het was een GPU voor inferentie aangekondigd door NVIDIA, gericht op lange contexten, met 128 GB GDDR7 en tot 30 petaflops in NVFP4 precisie.

Waarom is de verschuiving naar Groq 3 LPX relevant?
Omdat LPX LPUs gebruikt met SRAM met zeer lage latency, wat beter aansluit bij agentgerichte inferentie, grote volumina tokens en real-time multi-agent systemen.

Wat betekent dit voor GDDR7?
Als Rubin CPX niet op de markt komt zoals gepland, mist GDDR7 een belangrijke kans om zich te ontwikkelen buiten high-end grafische kaarten en zich te vestigen in datacenters voor grote AI-toepassingen.

Scroll naar boven