NVIDIA probeert de taal van de hele datacenterindustrie te veranderen. Het gaat niet meer alleen over GPU’s, servers of geaccelereerde clusters, maar over “AI-fabrieken”: fabrieken voor kunstmatige intelligentie die tokens continu produceren, net zoals een industriële plant elektriciteit, staal of onderdelen produceert. De metafoor is commercieel, maar helpt bij het begrijpen van een echte verandering: AI kan niet langer worden gezien als een softwarelaag die op algemene infrastructuur draait.
In de visie van NVIDIA zet een AI-fabriek energie om in intelligentie. De productieveenheid is geen fysiek onderdeel, maar het token dat een model genereert tijdens het redeneren, antwoorden, code schrijven, agenten coördineren of een taak uitvoeren. Daarom gaan de belangrijke statistieken meer lijken op die van een zware industrie dan op die van SaaS-toepassingen: tokens per seconde, tokens per watt, kosten per token, infrastructuurbenutting en beschikbaarheid.
Inferentie is niet meer slechts een losse query
De grote verandering ligt in de workload. Generatieve AI begon voor veel gebruikers als een tekstvak: je schrijft een vraag, het model antwoordt en de interactie is voorbij. Gebruikersgerichte AI, of agenten, doorbreken dat schema. Een agent kan plannen maken, informatie zoeken, tools aanroepen, documenten lezen, code schrijven, databases raadplegen, subagenten creëren en ketenbesluiten nemen.
Dit maakt inferentie een langer, interactiever en moeilijker te orkestreren proces. Het is niet langer genoeg om een krachtige GPU op wacht te zetten voor een enkele aanvraag. Het vereist coördinatie van geheugen, opslag, netwerk, CPU’s, software, wachtrijen en externe diensten zodat de stroom zonder onnodige vertragingen verloopt.
NVIDIA positioneert dit als een volledige stack-uitdaging. Modellen hebben geaccelereerde computing nodig, maar ook snelle geheugen, contextuele opslag, lage-latentie netwerken voor coördinatie en software die de hoge benutting van het systeem waarborgt. Als één laag achterblijft, stijgt de kost per token en verslechtert de gebruikerservaring.
| Metric | Wat wordt gemeten in een AI-fabriek |
|---|---|
| Tokens per seconde | Capaciteit om antwoorden en acties te genereren |
| Tokens per watt | Energierefficiëntie van het systeem |
| Kosten per token | Economische levensvatbaarheid van inferentie op schaal |
| Benutting | Gebruik van GPU, CPU, geheugen en netwerk |
| Beschikbaarheid | Voortdurende AI-productie |
| Latency | Reactietijd in agenten en interactieve applicaties |
Deze visie heeft consequenties voor elk bedrijf dat serieus AI wil inzetten. Het gaat niet meer alleen om het kiezen van een model. Men moet bepalen waar het draait, wat elke interactie kost, welke latency acceptabel is, hoe de context wordt behouden, welke data wordt opgehaald en hoeveel energie de infrastructuur verbruikt.
Blackwell, Vera Rubin en de token-economie
NVIDIA plaatst Blackwell Ultra en de GB300 NVL72-systemen als antwoorden op deze nieuwe economie. Volgens het bedrijf kunnen deze systemen 50 keer meer tokens per megawatt genereren dan de Hopper-generatie en de kosten per token met 35 keer verlagen. Dit zijn door NVIDIA verstrekte cijfers en moeten binnen hun eigen vergelijkingskader worden gelezen, maar ze wijzen op de richting waarin de concurrentie zich beweegt: meer intelligentie produceren met minder energie.
Het bedrijf benadrukt ook NVIDIA Dynamo, een framework voor het orkestreren van inferentie van lange context en grote volumes verzoeken. In een AI-fabriek bepaalt software grotendeels de economie: het routeert aanvragen, beheert geheugen, balanceert latency en throughput, coördineert diensten en voorkomt dat dure hardware onbenut blijft.
De volgende stap is Vera Rubin. NVIDIA stelt dat dit platform, samen met LPX, ontworpen is om opnieuw de prestaties per watt te verhogen voor reasoning -taken en agentgebaseerde AI. De boodschap is duidelijk: het bedrijf wil dat de conversatie verplaatst wordt van “welke GPU koop ik” naar “welke AI-fabriek kan ik draaien tegen de laagste kosten per token”.
Deze strategie beschermt NVIDIA ook tegen de toenemende specialisatie in hardware, zoals ASICs, inference-chips, LPUs, TPUs en op maat gemaakte accelerators, die proberen specifieke marktsegmenten goedkoper of met lagere latency te bedienen. NVIDIA reageert door het hele ecosysteem aan te bieden: niet alleen de chip, maar de volledige Architectuur.
Ontwerpen vóór bouwen
AI-fabrieken kunnen niet op de bonnefooi worden gebouwd. Traditionele datacenters konden uitbreiden door meer servers, opslag of racks toe te voegen. In AI vereisen krachtconcentraties, vloeistofkoeling, interconnects, energiebeheer en load balancing een geïntegreerde ontwerpfilosofie.
NVIDIA spreekt over extreme co-design: hardware, netwerk, geheugen, opslag, software, energie en koeling worden vanaf het begin samen ontworpen. Ze verwijzen ook naar hun reference designs DSX en het gebruik van digitale dubbele (“digital twins”) via Omniverse DSX Blueprint om faciliteiten, apparatuur, koeling en operaties te modelleren vóór de daadwerkelijke implementatie.
Dit is vooral cruciaal bij projecten met honderden megawatt of zelfs gigawatt aan capaciteit. Een ontwerpfout in de elektrische of thermische infrastructuur kan jaren de uitbreidingsmogelijkheden beperken. AI is niet vergevingsgezind ten aanzien van energie-, ruimte- of koelverbruik; elke inefficiëntie leidt tot hogere tokens-kosten.
| Laag van de AI-fabriek | Waarom het belangrijk is |
|---|---|
| Versneld rekenen | Voert modellen, redeneringen en inferentie uit |
| Netwerk | Coördineert duizenden accelerators en diensten |
| Geheugen | Voedt modellen en lange contexten |
| Opslag | Slaat data, vectoren en staat op |
| Software | Orkestreert workloads en maximaliseert benutting |
| Energie | Beperkt de economische schaal van het datacenter |
| Koeling | Maakt hoge dichtheden mogelijk zonder degradatie |
NVIDIA wil deze architectuur verder brengen dan hyperscalaire omgevingen. Ze noemen samenwerkingen met Cisco, Dell, HPE, Lenovo en Supermicro om AI-infrastructuren dichter bij bedrijf datacenters te brengen. Het idee is dat een AI-fabriek kan starten met een specifieke bedrijfsbelasting en later naar bredere toepassingen kan opschalen.
Bedrijven bouwen of huren AI-vermogen
NVIDIA beweert dat elke organisatie op den duur een eigen AI-fabriek moet creëren of huren. Niet iedereen zal dat met eigen infrastructuur doen; velen zullen cloud, neocloud, colocation of beheerde platforms gebruiken. Maar de kern is dat AI van een incidenteel hulpmiddel een permanente werklaag wordt, en dat de controle op kosten, prestaties, veiligheid en beschikbaarheid onmisbaar wordt.
Financiële instellingen kunnen agenten gebruiken voor risicobeheer, compliance, interne ondersteuning en softwareontwikkeling. Farmaceutische bedrijven kunnen AI inzetten voor simulaties, wetenschappelijke documentatie en molecuulontdekking. Industrieën kunnen agenten inzetten voor onderhoud, planning, robotica en ontwerp. In al deze gevallen blijft de centrale vraag: hoe produceer je intelligentie op een veilige, efficiënte en constante manier?
NVIDIA beweert dat het al haar eigen bedrijfseigen AI-fabriek operationeel heeft, met honderden autonome agenten die engineeringteams, software en operationele afdelingen ondersteunen. Hiermee bewijst het dat de visie niet alleen over hardware verkopen gaat, maar over de herinrichting van werkprocessen binnen een organisatie.
Een minder comfortabele factor in deze visie is de energie-intensiteit. Als een AI-fabriek elektriciteit omzet in tokens, wordt energie de grondstof voor kunstmatige intelligentie. Dit betekent dat men ook kosten, herkomst van elektriciteit, thermische efficiëntie en beschikbaarheid van kracht met dezelfde serieuze aanpak moet benaderen als bij softwarelicenties vroeger het geval was.
De volgende fase van AI wordt niet alleen bepaald door krachtigere modellen. Het hangt ook af van wie ze kan leveren tegen lagere kosten per token, met minder energieverbruik per antwoord en hogere beschikbaarheid. NVIDIA wil dat deze strijd plaatsvindt binnen een end-to-end architectuur: GPU’s, netwerken, software, systemen, partners en datacenterontwerp.
Clouds beloven abstractie van infrastructuur, maar AI maakt die weer zichtbaar. Achter elk agent die rationeert, elke assistent die programmeert en elk model dat antwoordt, schuilt een fysieke fabriek die onophoudelijk tokens produceert.
Veelgestelde vragen
Hoe ziet NVIDIA een AI-fabriek?
Een infrastructuur die continu tokens produceert via modellen, agenten, geaccelereerde computing, netwerken, geheugen, opslag, software, energie en koeling die als één geïntegreerd systeem samenwerken.
Waarom is de kostprijs per token zo belangrijk?
Omdat het bepaalt of een organisatie AI op grote schaal rendabel kan inzetten. Hoe lager de kosten, hoe haalbaarder het is om modellen en agenten in massale processen te gebruiken.
Wat verandert er met AI-agenten?
Agenten voeren langdurige, keten-achtige taken uit: zoeken, redeneren, tools gebruiken, diensten aanroepen en acties uitvoeren. Dit vraagt om meer infrastructuurcoördinatie dan een simpele chatbot-query.
Moet elk bedrijf zijn eigen AI-fabriek bouwen?
Niet per se. Sommige zullen dat doen vanwege schaal, veiligheids- of soevereiniteitsredenen. Anderen huren capaciteit in de cloud, neoclouden of via gespecialiseerde aanbieders. Belangrijk is dat je controle houdt op kosten, prestaties, veiligheid en beschikbaarheid.
Bron: Blog Nvidia en Nieuws Kunstmatige Intelligentie
