NVIDIA probeert de taal van de hele datacenterindustrie te veranderen. Het spreekt niet langer alleen over GPU’s, servers of geclusterde versnellers, maar over “AI-fabrieken”: fabrieken die ontworpen zijn om continu tokens te produceren, vergelijkbaar met een industriële plant die elektriciteit, staal of componenten produceert. De metafoor is commercieel, maar helpt om een reële verandering te begrijpen: AI kan niet langer worden beschouwd als een softwarelaag die draait op generieke infrastructuur.
Volgens NVIDIA transformeert een AI-fabriek energie in intelligentie. De productieveeenheid is niet een fysieke component, maar de token die een model genereert bij het redeneren, antwoorden, code schrijven, agenten coördineren of taken uitvoeren. Daarom lijken de belangrijke metrics steeds meer op die van een zware industrie dan van SaaS-applicaties: tokens per seconde, tokens per watt, kosten per token, infrastructuurgebruik en beschikbaarheid.
Inference is niet langer een geïsoleerde query
De grote verandering zit in de workload. Generatieve AI begon voor veel gebruikers als een tekstvak: je typt een vraag, het model antwoordt en de interactie eindigt. Agent-gedreven AI doorbreekt dat schema. Een agent kan plannen, informatie zoeken, tools aanroepen, documenten lezen, code schrijven, databases raadplegen, subagenten creëren en ketenachtige beslissingen nemen.
Dit maakt inference een langduriger, interactiever en complexer te orchestreren proces. Het volstaat niet langer met een krachtige GPU die op een request wacht. Er moet gecoördineerd worden tussen geheugen, opslag, netwerk, CPU, software, wachtrijen en externe diensten, zodat de volledige flow zonder onnodige wachttijden kan verlopen.
NVIDIA positioneert dit als een volledige stack-kwestie. Modellen vereisen versnelde computing, maar ook snelle geheugen, contextuele opslag, laag-latentie netwerken voor coördinatie en software die een hoge benutting van het hele systeem weet te handhaven. Als één laag achterblijft, stijgt de kost per token en verslechtert de ervaring.
| Metric | Wat meet het in een AI-fabriek |
|---|---|
| Tokens per seconde | Productiecapaciteit voor antwoorden en acties |
| Tokens per watt | Energie-efficiëntie van het systeem |
| Kosten per token | Economische levensvatbaarheid van inference op schaal |
| Bezettingsgraad | Benutting van GPU, CPU, geheugen en netwerk |
| Uptime | Continuïteit van AI-productie |
| Latency | Reactietijd in agenten en interactieve applicaties |
Deze inzichten hebben gevolgen voor elke organisatie die serieus wil inzetten op AI. Het debat beperkt zich niet meer tot het kiezen van een model. Het draait nu om waar de AI draait, hoeveel een interactie kost, welke latency acceptabel is, hoe de context wordt behouden, welke data wordt opgevraagd en hoeveel energie de infrastructuur verbruikt.
De data achter de nieuwe token-economie
NVIDIA presenteert Blackwell Ultra en de GB300 NVL72-systemen als antwoorden op deze nieuwe economie. Volgens het bedrijf kunnen deze systemen 50 keer meer tokens per megawatt genereren dan de Hopper-generatie en de kosten per token met 35 keer verminderen. Dit zijn door NVIDIA gedeelde cijfers en moeten binnen hun eigen vergelijkingskader worden geïnterpreteerd, maar ze geven aan waar de concurrentie naartoe beweegt: meer intelligentie produceren met minder energie.
Ook benadrukt het bedrijf NVIDIA Dynamo, een framework gericht op het orkestreren van inference met lange contexten en grote volumes aanvragen. In een AI-fabriek bepaalt de software veel van de economie. Het moet verzoeken routeren, geheugen beheren, latentie en doorvoer balanceren, services coördineren en voorkomen dat dure hardware wachtend blijft.
| Belangrijke gegevens | Gedeelde cijfers | Waarom het relevant is |
|---|---|---|
| GB300 NVL72 versus Hopper | 50 keer meer tokens per megawatt | Meet de verbeterde AI-productie per energie-eenheid |
| GB300 NVL72 versus Hopper | 35 keer lagere kosten per token | Heeft directe invloed op de rendabiliteit van inference |
| Vera Rubin met LPX | Tot 35 keer meer prestaties per watt | Doet een stap richting de volgende generatie agent- en reasoning-AI |
| Vera CPU | 88 Olympus-kernen | Versterkt de rol van de CPU in agenten, runtimes en orchestratie |
| Membandbreedte Vera | Tot 1,2 TB/s | Helpt intensieve geheugencargas aan te kunnen |
| Vera versus Grace volgens Phoronix | 1,6 keer meer gemiddeld geaccumuleerd rendement | Toont een belangrijke generatiewissel in datacenter-CPU’s |
| Vera versus een x86 met 128 cores volgens NVIDIA | 1,5 keer meer globaal rendement | Maakt ARM tot een serieuze rivaal voor AI-infrastructuur |
| Linux-kernel compilatie op Vera | 20 seconden | Praktisch voorbeeld van ontwikkelprestaties |
De volgende fase is Vera Rubin, waarmee NVIDIA beweert dat deze platform en LPX het energieverbruik per berekende token weer verder verhogen. Het idee is dat deze systemen de prestaties op het gebied van reasonen en agent-AI opnieuw kunnen verbeteren. De boodschap is helder: het bedrijf wil dat de conversatie verschuift van “welke GPU koop ik?” naar “welke AI-fabriek kan ik runnen met de laagste kosten per token.”
Deze strategie beschermt NVIDIA ook tegen de toenemende specialisatie van concurrenten: ASICs, inference-chips, LPUs, TPUs en op maat gemaakte versnellers proberen marktniches te bevechten met betere kosten en latentie. NVIDIA anticipeert door het volledige architectuurpakket te bieden: niet alleen de chip, maar de complete infrastructuur.
De CPU keert terug in het centrum van AI-infrastructuur
AI-fabrieken worden niet alleen gebouwd met GPU’s. NVIDIA ontwikkelt ook Vera, haar nieuwe datacenter-CPU gebaseerd op eigen Olympus-kernen en de Armv9.2-architectuur. Het technisch verhaal is relevant omdat agenten niet enkel matrixbewerkingen op accelerators uitvoeren, maar ook code compileren, geïsoleerde omgevingen lançeren, data verwerken, runtimes beheren, tools coördineren, Python of Java draaien en databases raadplegen.
Volgens de eerste publicaties van Phoronix en NVIDIA zelf biedt Vera 88 Olympus-kernen, 176 threads, tot 1,2 TB/s geheugenbandbreedte van LPDDR5X, 164 MB gedeelde cache en ondersteuning voor PCIe Gen 6 en CXL 3.1. De geteste chip had een maximaal TDP van 450 W, terwijl het stroomverbruik van de LPDDR5X-ram geschat wordt op rond de 50 W of minder.
| Kenmerk van NVIDIA Vera | Technische gegevens |
|---|---|
| Architectuur | Armv9.2 |
| Nucleos | 88 Olympus |
| Threads | 176 |
| Geheugenbandbreedte | Tot 1,2 TB/s |
| L2-cache | 2 MB per kern |
| L3-cache | 164 MB gedeeld |
| Connectiviteit | PCIe Gen 6 en CXL 3.1 |
| TDP | 450 W |
| Stroomverbruik geheugen | Rond de 50 W of minder |
| Beschikbaarheid | tweede helft van dit jaar via partners |
Het geheugendata is bijzonder relevant. Agentgerichte workloads vragen niet alleen om veel cores, maar ook om goed toegang tot geheugen en consistente latentie. NVIDIA stelt dat Vera 90% van haar piekbandbreedte haalt tijdens de STREAM TRIAD-test en meer dan vier keer de bandbreedte per kern biedt ten opzichte van traditionele x86-CPU’s. Dit vermindert een van de klassieke bottlenecks in datacenters: snel datamovement zonder het energieverbruik op te laten lopen.
Ontwerp vóór bouwen
AI-fabrieken kunnen niet geïmproviseerd worden. Een traditioneel datacenter kon opschalen door servers, opslag of racks toe te voegen. In AI moeten form factor, koeling, connectiviteit, load balancing en stroomvoorziening vanaf het begin integraal worden ontworpen.
NVIDIA beschrijft dit als een ‘extreem co-design’: hardware, netwerken, geheugen, opslag, software, energie en koeling worden vanaf het begin vanuit één perspectief ontwikkeld. Ook maakt het gebruik van referentieontwerpen zoals DSX en digitale tweelingen via Omniverse DSX Blueprint om installaties, apparatuur, koeling en operaties vooraf te modelleren.
Dit is vooral cruciaal bij projectgroottes van honderden megawatten of gigawatten: een ontwerp- of koelfout kan jaren lang de uitbreidingsmogelijkheden beperken. AI spaarzaam energie en efficiënt ruimtegebruik is cruciaal, want elke inefficiëntie drukt op tokens en kosten.
| Laag van de AI-fabriek | Waarom het belangrijk is |
|---|---|
| Versnelt computing | Voert modellen, redeneringen en inferentie uit |
| CPU | Coördineert agenten, runtimes, processen en services |
| Netwerk | Verbindt duizenden accelerators en systemen |
| Geheugen | Voedt modellen, lange contexten en parallelle workloads |
| Opslag | Bewaart data, vectoren, checkpoints en staat |
| Software | Orkestreert workloads en maximaliseert benutting |
| Energie | Beperkt de economische schaal van het systeem |
| Koeling | Maakt hoge dichtheden mogelijk zonder degradatie |
NVIDIA wil deze architectuur verder brengen dan hyper-schalaire systemen. Het noemt samenwerkingen met Cisco, Dell, HPE, Lenovo en Supermicro om AI-infrastructuur dichter bij zakelijke datacenters te brengen. Het idee is dat een AI-fabriek klein kan starten en later verder uitrollen op bredere schaal.
Bedrijven die AI bouwen of huren
De meest ambitieuze stelling van NVIDIA is dat iedere organisatie uiteindelijk een AI-fabriek zal moeten opzetten of huren. Niet iedereen zal daarvoor zelf de infrastructuur bouwen. Veel zullen gebruik maken van cloud, neoclouds, colocation of managed platforms. Maar de kern is dat AI van een incidenteel hulpmiddel naar een permanente werklast evolueert.
Financiële instellingen kunnen agenten inzetten voor risicobeoordeling, compliance, klantendienst en softwareontwikkeling. Farmaceutische bedrijven kunnen AI gebruiken voor simulaties, wetenschappelijke documentatie en molecuulontdekking. Industrieën kunnen agenten inzetten voor onderhoud, planning, robotica en ontwerp. In al die gevallen is de centrale vraag: hoe produceer je AI op een veilige, efficiënte en constante wijze.
De minder comfortabele kant van deze visie is de energiebehoefte. Als een AI-fabriek elektriciteit omzet in tokens, wordt energie een grondstof voor AI. Dit vereist dat we de kosten, herkomst, thermische efficiëntie en beschikbaarheid van stroom met hetzelfde sérieux bekijken als voor softwarelicenties eerder gebeurde.
De komende fase van AI wordt niet alleen bepaald door krachtigere modellen, maar ook door wie ze kan bedienen tegen lagere kosten per token, minder energie per antwoord en hogere beschikbaarheid. NVIDIA streeft ernaar dat dit proces gecontroleerd wordt via een end-to-end architecture: GPU, CPU, netwerk, software, systemen, partners en datacenterontwerp.
De cloud beloofde eerder om infrastructuur te abstraheren. AI maakt die infrastructuur weer zichtbaar. Achter elk agent dat redenerend, elke assistent die programmeert en elk model dat reageert, schuilt een fysieke fabriek die onafgebroken tokens produceert.
Veelgestelde vragen
Wat verstaat NVIDIA onder een AI-fabriek?
Een infrastructuur die ontworpen is om continu tokens te produceren via modellen, agenten, versnelde computing, CPU, netwerk, geheugen, opslag, software, energie en koeling die als één systeem samenwerken.
Waarom is de kostprijs per token zo belangrijk?
Omdat het bepaalt of een organisatie AI op grote schaal rendabel kan inzetten. Hoe lager de kosten per token, des te haalbaarder het is om modellen en agenten massaal te gebruiken.
Wat doet de Vera-CPU?
Vera is bedoeld voor de CPU-intensieve taken binnen agent-gebaseerde AI: code compileren, agenten coördineren, runtimes draaien, data verwerken, databases raadplegen en services ondersteunen.
Moeten alle bedrijven hun eigen AI-fabriek bouwen?
Niet noodzakelijk. Sommige doen dat uit schaal- of veiligheidsredenen, anderen huren capaciteit in de cloud, neoclouds of bij gespecialiseerde providers. Cruciaal is het beheersen van kosten, performance, veiligheid en beschikbaarheid.
via: phoronix en blogs.nvidia
