NVIDIA wil datacenters omtoveren tot AI-fabrieken - Cloud News

X (Twitter) Facebook LinkedIn Email WhatsApp

NVIDIA probeert de taal van de hele datacenterindustrie te veranderen. Het spreekt niet langer alleen over GPU’s, servers of geclusterde versnellers, maar over “AI-fabrieken”: fabrieken die ontworpen zijn om continu tokens te produceren, vergelijkbaar met een industriële plant die elektriciteit, staal of componenten produceert. De metafoor is commercieel, maar helpt om een reële verandering te begrijpen: AI kan niet langer worden beschouwd als een softwarelaag die draait op generieke infrastructuur.

Volgens NVIDIA transformeert een AI-fabriek energie in intelligentie. De productieveeenheid is niet een fysieke component, maar de token die een model genereert bij het redeneren, antwoorden, code schrijven, agenten coördineren of taken uitvoeren. Daarom lijken de belangrijke metrics steeds meer op die van een zware industrie dan van SaaS-applicaties: tokens per seconde, tokens per watt, kosten per token, infrastructuurgebruik en beschikbaarheid.

Inference is niet langer een geïsoleerde query

De grote verandering zit in de workload. Generatieve AI begon voor veel gebruikers als een tekstvak: je typt een vraag, het model antwoordt en de interactie eindigt. Agent-gedreven AI doorbreekt dat schema. Een agent kan plannen, informatie zoeken, tools aanroepen, documenten lezen, code schrijven, databases raadplegen, subagenten creëren en ketenachtige beslissingen nemen.

Dit maakt inference een langduriger, interactiever en complexer te orchestreren proces. Het volstaat niet langer met een krachtige GPU die op een request wacht. Er moet gecoördineerd worden tussen geheugen, opslag, netwerk, CPU, software, wachtrijen en externe diensten, zodat de volledige flow zonder onnodige wachttijden kan verlopen.

NVIDIA positioneert dit als een volledige stack-kwestie. Modellen vereisen versnelde computing, maar ook snelle geheugen, contextuele opslag, laag-latentie netwerken voor coördinatie en software die een hoge benutting van het hele systeem weet te handhaven. Als één laag achterblijft, stijgt de kost per token en verslechtert de ervaring.

Metric	Wat meet het in een AI-fabriek
Tokens per seconde	Productiecapaciteit voor antwoorden en acties
Tokens per watt	Energie-efficiëntie van het systeem
Kosten per token	Economische levensvatbaarheid van inference op schaal
Bezettingsgraad	Benutting van GPU, CPU, geheugen en netwerk
Uptime	Continuïteit van AI-productie
Latency	Reactietijd in agenten en interactieve applicaties

Deze inzichten hebben gevolgen voor elke organisatie die serieus wil inzetten op AI. Het debat beperkt zich niet meer tot het kiezen van een model. Het draait nu om waar de AI draait, hoeveel een interactie kost, welke latency acceptabel is, hoe de context wordt behouden, welke data wordt opgevraagd en hoeveel energie de infrastructuur verbruikt.

De data achter de nieuwe token-economie

NVIDIA presenteert Blackwell Ultra en de GB300 NVL72-systemen als antwoorden op deze nieuwe economie. Volgens het bedrijf kunnen deze systemen 50 keer meer tokens per megawatt genereren dan de Hopper-generatie en de kosten per token met 35 keer verminderen. Dit zijn door NVIDIA gedeelde cijfers en moeten binnen hun eigen vergelijkingskader worden geïnterpreteerd, maar ze geven aan waar de concurrentie naartoe beweegt: meer intelligentie produceren met minder energie.

Ook benadrukt het bedrijf NVIDIA Dynamo, een framework gericht op het orkestreren van inference met lange contexten en grote volumes aanvragen. In een AI-fabriek bepaalt de software veel van de economie. Het moet verzoeken routeren, geheugen beheren, latentie en doorvoer balanceren, services coördineren en voorkomen dat dure hardware wachtend blijft.

Belangrijke gegevens	Gedeelde cijfers	Waarom het relevant is
GB300 NVL72 versus Hopper	50 keer meer tokens per megawatt	Meet de verbeterde AI-productie per energie-eenheid
GB300 NVL72 versus Hopper	35 keer lagere kosten per token	Heeft directe invloed op de rendabiliteit van inference
Vera Rubin met LPX	Tot 35 keer meer prestaties per watt	Doet een stap richting de volgende generatie agent- en reasoning-AI
Vera CPU	88 Olympus-kernen	Versterkt de rol van de CPU in agenten, runtimes en orchestratie
Membandbreedte Vera	Tot 1,2 TB/s	Helpt intensieve geheugencargas aan te kunnen
Vera versus Grace volgens Phoronix	1,6 keer meer gemiddeld geaccumuleerd rendement	Toont een belangrijke generatiewissel in datacenter-CPU’s
Vera versus een x86 met 128 cores volgens NVIDIA	1,5 keer meer globaal rendement	Maakt ARM tot een serieuze rivaal voor AI-infrastructuur
Linux-kernel compilatie op Vera	20 seconden	Praktisch voorbeeld van ontwikkelprestaties

De volgende fase is Vera Rubin, waarmee NVIDIA beweert dat deze platform en LPX het energieverbruik per berekende token weer verder verhogen. Het idee is dat deze systemen de prestaties op het gebied van reasonen en agent-AI opnieuw kunnen verbeteren. De boodschap is helder: het bedrijf wil dat de conversatie verschuift van “welke GPU koop ik?” naar “welke AI-fabriek kan ik runnen met de laagste kosten per token.”

Deze strategie beschermt NVIDIA ook tegen de toenemende specialisatie van concurrenten: ASICs, inference-chips, LPUs, TPUs en op maat gemaakte versnellers proberen marktniches te bevechten met betere kosten en latentie. NVIDIA anticipeert door het volledige architectuurpakket te bieden: niet alleen de chip, maar de complete infrastructuur.

De CPU keert terug in het centrum van AI-infrastructuur

AI-fabrieken worden niet alleen gebouwd met GPU’s. NVIDIA ontwikkelt ook Vera, haar nieuwe datacenter-CPU gebaseerd op eigen Olympus-kernen en de Armv9.2-architectuur. Het technisch verhaal is relevant omdat agenten niet enkel matrixbewerkingen op accelerators uitvoeren, maar ook code compileren, geïsoleerde omgevingen lançeren, data verwerken, runtimes beheren, tools coördineren, Python of Java draaien en databases raadplegen.

Volgens de eerste publicaties van Phoronix en NVIDIA zelf biedt Vera 88 Olympus-kernen, 176 threads, tot 1,2 TB/s geheugenbandbreedte van LPDDR5X, 164 MB gedeelde cache en ondersteuning voor PCIe Gen 6 en CXL 3.1. De geteste chip had een maximaal TDP van 450 W, terwijl het stroomverbruik van de LPDDR5X-ram geschat wordt op rond de 50 W of minder.

Kenmerk van NVIDIA Vera	Technische gegevens
Architectuur	Armv9.2
Nucleos	88 Olympus
Threads	176
Geheugenbandbreedte	Tot 1,2 TB/s
L2-cache	2 MB per kern
L3-cache	164 MB gedeeld
Connectiviteit	PCIe Gen 6 en CXL 3.1
TDP	450 W
Stroomverbruik geheugen	Rond de 50 W of minder
Beschikbaarheid	tweede helft van dit jaar via partners

Het geheugendata is bijzonder relevant. Agentgerichte workloads vragen niet alleen om veel cores, maar ook om goed toegang tot geheugen en consistente latentie. NVIDIA stelt dat Vera 90% van haar piekbandbreedte haalt tijdens de STREAM TRIAD-test en meer dan vier keer de bandbreedte per kern biedt ten opzichte van traditionele x86-CPU’s. Dit vermindert een van de klassieke bottlenecks in datacenters: snel datamovement zonder het energieverbruik op te laten lopen.

Ontwerp vóór bouwen

AI-fabrieken kunnen niet geïmproviseerd worden. Een traditioneel datacenter kon opschalen door servers, opslag of racks toe te voegen. In AI moeten form factor, koeling, connectiviteit, load balancing en stroomvoorziening vanaf het begin integraal worden ontworpen.

NVIDIA beschrijft dit als een ‘extreem co-design’: hardware, netwerken, geheugen, opslag, software, energie en koeling worden vanaf het begin vanuit één perspectief ontwikkeld. Ook maakt het gebruik van referentieontwerpen zoals DSX en digitale tweelingen via Omniverse DSX Blueprint om installaties, apparatuur, koeling en operaties vooraf te modelleren.

Dit is vooral cruciaal bij projectgroottes van honderden megawatten of gigawatten: een ontwerp- of koelfout kan jaren lang de uitbreidingsmogelijkheden beperken. AI spaarzaam energie en efficiënt ruimtegebruik is cruciaal, want elke inefficiëntie drukt op tokens en kosten.

Laag van de AI-fabriek	Waarom het belangrijk is
Versnelt computing	Voert modellen, redeneringen en inferentie uit
CPU	Coördineert agenten, runtimes, processen en services
Netwerk	Verbindt duizenden accelerators en systemen
Geheugen	Voedt modellen, lange contexten en parallelle workloads
Opslag	Bewaart data, vectoren, checkpoints en staat
Software	Orkestreert workloads en maximaliseert benutting
Energie	Beperkt de economische schaal van het systeem
Koeling	Maakt hoge dichtheden mogelijk zonder degradatie

NVIDIA wil deze architectuur verder brengen dan hyper-schalaire systemen. Het noemt samenwerkingen met Cisco, Dell, HPE, Lenovo en Supermicro om AI-infrastructuur dichter bij zakelijke datacenters te brengen. Het idee is dat een AI-fabriek klein kan starten en later verder uitrollen op bredere schaal.

Bedrijven die AI bouwen of huren

De meest ambitieuze stelling van NVIDIA is dat iedere organisatie uiteindelijk een AI-fabriek zal moeten opzetten of huren. Niet iedereen zal daarvoor zelf de infrastructuur bouwen. Veel zullen gebruik maken van cloud, neoclouds, colocation of managed platforms. Maar de kern is dat AI van een incidenteel hulpmiddel naar een permanente werklast evolueert.

Financiële instellingen kunnen agenten inzetten voor risicobeoordeling, compliance, klantendienst en softwareontwikkeling. Farmaceutische bedrijven kunnen AI gebruiken voor simulaties, wetenschappelijke documentatie en molecuulontdekking. Industrieën kunnen agenten inzetten voor onderhoud, planning, robotica en ontwerp. In al die gevallen is de centrale vraag: hoe produceer je AI op een veilige, efficiënte en constante wijze.

De minder comfortabele kant van deze visie is de energiebehoefte. Als een AI-fabriek elektriciteit omzet in tokens, wordt energie een grondstof voor AI. Dit vereist dat we de kosten, herkomst, thermische efficiëntie en beschikbaarheid van stroom met hetzelfde sérieux bekijken als voor softwarelicenties eerder gebeurde.

De komende fase van AI wordt niet alleen bepaald door krachtigere modellen, maar ook door wie ze kan bedienen tegen lagere kosten per token, minder energie per antwoord en hogere beschikbaarheid. NVIDIA streeft ernaar dat dit proces gecontroleerd wordt via een end-to-end architecture: GPU, CPU, netwerk, software, systemen, partners en datacenterontwerp.

De cloud beloofde eerder om infrastructuur te abstraheren. AI maakt die infrastructuur weer zichtbaar. Achter elk agent dat redenerend, elke assistent die programmeert en elk model dat reageert, schuilt een fysieke fabriek die onafgebroken tokens produceert.

Veelgestelde vragen

Wat verstaat NVIDIA onder een AI-fabriek?
Een infrastructuur die ontworpen is om continu tokens te produceren via modellen, agenten, versnelde computing, CPU, netwerk, geheugen, opslag, software, energie en koeling die als één systeem samenwerken.

Waarom is de kostprijs per token zo belangrijk?
Omdat het bepaalt of een organisatie AI op grote schaal rendabel kan inzetten. Hoe lager de kosten per token, des te haalbaarder het is om modellen en agenten massaal te gebruiken.

Wat doet de Vera-CPU?
Vera is bedoeld voor de CPU-intensieve taken binnen agent-gebaseerde AI: code compileren, agenten coördineren, runtimes draaien, data verwerken, databases raadplegen en services ondersteunen.

Moeten alle bedrijven hun eigen AI-fabriek bouwen?
Niet noodzakelijk. Sommige doen dat uit schaal- of veiligheidsredenen, anderen huren capaciteit in de cloud, neoclouds of bij gespecialiseerde providers. Cruciaal is het beheersen van kosten, performance, veiligheid en beschikbaarheid.

via: phoronix en blogs.nvidia

X (Twitter) Facebook LinkedIn Email WhatsApp