In de afgelopen dagen is er een virale discussie ontstaan rondom NVIDIA en hun recente hardwareontwikkelingen voor Kunstmatige Intelligentie (AI). Een populair argument beweert dat NVIDIA “heeft toegegeven” dat hun architectuur “gebroken” is omdat ze een chip hebben gepresenteerd die geen gebruikmaakt van High Bandwidth Memory (HBM), maar in plaats daarvan GDDR-geheugen gebruikt. Deze bewering klinkt als een krachtig koptekst voor sociale media, maar de realiteit is genuanceerder en wijzer: NVIDIA reageert op een fundamentele verandering in de manier waarop AI in productie wordt gebruikt. De focus ligt nu niet alleen op het trainen van modellen, maar vooral op het kosteneffectief inzetten van deze modellen op grote schaal wanneer de context tot honderdduizenden of miljoenen tokens kan oplopen.
De sleutel tot deze shift is de introductie van Rubin CPX, een speciale accelerator ontworpen voor één aspect van de inference-fase: het prefill-proces, oftewel het verwerken van de context. In plaats van te streven naar een alles-in-één oplossing, scheidt Rubin CPX de verschillende fasen van het inferentieproces om de kosten te optimaliseren en de efficiëntie te verhogen.
Wat is Rubin CPX en waarom wordt het zo belangrijk genoemd? Volgens NVIDIA richt deze chip zich op scenario’s met enorme contexten waarbij het systeem grote hoeveelheden informatie (zoals documenten, code repositories, lange historie, getranscribeerde video’s, etc.) leest voordat het een antwoord genereert. In dergelijke gevallen is de knelpunthier niet altijd dezelfde als bij het token-voor-token genereren (decode), en daarom maakt het gebruik van een ander soort geheugen, namelijk GDDR, meer economische zin dan HBM.
Rubin CPX wordt gepositioneerd binnen een rack-scale platform, genaamd Vera Rubin NVL144, waar verschillende accelerators samenwerken om diverse inferentietaken te ondersteunen. NVIDIA benadrukt dat dit platform gericht is op het afstemmen van hardware op het werkelijke gebruikspatroon, dat steeds meer fasegewijs en geoptimaliseerd plaatsvindt. In eenvoudige bewoordingen: als een deel van de workload veel rekencracht vereist en een ander deel vooral datagedittributie, dan is het inefficiënt om alles met hetzelfde soort hardware te doen. Rubin CPX illustreert dat NVIDIA voorspelt dat prefill niet langer marginale taak is, maar een kostenblok dat in bepaalde scenario’s door het hardware-ontwerp kan worden gedomineerd.
De kern van de verandering ligt in het feit dat prefill en decode niet meer gelijk gedrag vertonen; ze vereisen verschillende optimalisaties. Door de toenemende praktijk van AI met lange contexten, zoals in zakelijke assistenten, agenten, documentanalyse of programmering, moeten systemen eerst grote hoeveelheden informatie verwerken voordat ze antwoorden genereren. Dit betekent dat de traditionele benadering van inference, waarin alles wordt geoptimaliseerd voor token-voor-token generaties, niet altijd meer past. Het scheiden van deze fasen, met bijbehorende hardware- en software-aanpassingen zoals Dynamo (NVIDIA’s orkestratielaag voor inferentie), laat toe om kosten en prestaties beter af te stemmen op deze nieuwe realiteit.
Het hardware- en softwareverbinding is hierbij cruciaal. Het scheiden van fasen brengt namelijk datastromen en status (zoals KV-cache) over verschillende systemen moeten worden gestuurd, zonder dat dat de latentie en efficiëntie negatief beïnvloedt. NVIDIA werkt daarom aan oplossingen zoals Dynamo, een laag die de orkestratie en data-overdracht stroomlijnt, waardoor de voordelen van speciale chips zoals Rubin CPX niet verloren gaan door coördinatiekosten.
Deze nieuwe aanpak past binnen een bredere trend van hyperoptimale AI-infrastructuur, waar grote cloudproviders hun eigen chips ontwikkelen, zoals Google met TPUs en Ironwood, en AWS met Trainium. Ook marktdynamiek speelt een rol: zelfs bedrijven die sterk investeren in GPU’s, zoals Meta, onderzoeken alternatieve infrastructuren en hardware-optimalisaties om de kosten te beheersen. De verwachting is dat de markt zich de komende jaren steeds meer richt op hardware dat specifiek ontworpen is voor de verschillende fasen van AI-inference, vooral bij gebruik van lange contexten en meer complexe interacties.
Kortom, NVIDIA erkent niet zomaar dat haar aanpak “gebroken” is, maar dat de markt en technologische eisen veranderen. Het accent verschuift van alles-in-één GPU’s met HBM naar gespecialiseerde processors die kostenefficiëntie verbeteren door fases te scheiden en hardware en software beter af te stemmen op nieuwe gebruikspatronen. Dit onderstreept dat de evolutie in AI-infrastructuur niet alleen een kwestie is van sneller en krachtiger, maar vooral van slimmer en gerichter ontwerpen, afgestemd op de diverse eisen van productie-omgevingen. In de komende maanden en jaren zullen we zien hoe deze strategie zich vertaalt in de operationele efficiëntie van AI in de praktijk, en of het de markt kan stimuleren tot verdere innovaties.
