Blackwell Ultra drukt het gaspedaal in: 50 keer meer prestaties per megawatt voor het tijdperk van IA-agenten - Cloud News

X (Twitter) Facebook LinkedIn Email WhatsApp

De inferentie — en niet alleen het trainen — wordt steeds meer de echte knelpunt van de nieuwe AI-revolutie. Het is simpel: agenten en programmeersassistenten verbruiken tokens zo snel dat we de economische werking van de compute opnieuw moeten bekijken. Volgens het State of AI-rapport van OpenRouter steeg het aandeel programmatische queries van ongeveer 11% tot meer dan 50% van het totale tokenvolume in recente weken. Deze verandering is niet alleen statistisch: het markeert een overgang van exploratieve toepassingen naar meer praktische taken zoals debugging, codegeneratie, scripting en workflows met geïntegreerde tools.

In dat kader heeft NVIDIA nieuwe data gepubliceerd om cijfers te geven over een vraag die zowel systeembewerkers als platformteams bezighoudt: hoeveel kost het om AI in real-time te bedienen wanneer elke milliseconde en elke watt telt? Het bedrijf baseert zich op metingen uit de SemiAnalysis InferenceX-benchmark en stelt dat hun systemen GB300 NVL72 (Blackwell Ultra-platform) tot 50 keer meer prestaties per megawatt kunnen leveren en daardoor tot 35 keer minder kosten per token genereren in vergelijking met de Hopper-generatie, vooral in lage-latentie scenario’s die typisch zijn voor “agentic” toepassingen (meerdere stappen, iteratief, continu interactief).

Waarom deze cijfers ertoe doen in een datacenter (en niet alleen in marketing)

In de praktijk gaat het niet meer alleen om brute prestaties. De focus verschuift naar tokens per watt, kosten per miljoen tokens, rackdichtheid en operationele complexiteit. Als een platform belooft de prestaties te vermenigvuldigen “per megawatt”, betekent dat impliciet dat de limiet niet de vraag is, maar het energieverbruik, refrigeratie en opschaling zonder dat de operationele kosten de pan uit rijzen.

Voor systeembeheerders is niet alleen het “tot 50 keer” relevant, maar vooral de weg er naartoe: NVIDIA benadrukt dat hun aanpak van extreme co-design (chip + systeem + software) centraal staat, en dat verbetering niet enkel door hardware wordt bereikt, maar via continue optimalisatie van de stack. In communicatie worden voortgang in tools en libraries zoals TensorRT-LLM, NVIDIA Dynamo, Mooncake en SGLang genoemd, gericht op het verbeteren van inferentieprestaties in Mixture-of-Experts (MoE) met verschillende latentie-doelstellingen.

Kort gezegd: in de inferentie-oorlog is niet de ruler met de meeste FLOPS de winnaar, maar degene die meer nuttige tokens levert met minder watt en een latentie die de gebruikerservaring niet onderbreekt.

De rol van software: van “kernel” tot token-economie

Een concreet detail uit de aankondiging is dat updates in libraries niet incidenteel zijn. NVIDIA geeft aan dat verbeteringen in TensorRT-LLM tot 5 keer meer prestatie kunnen opleveren bij lage-latentie workloads op GB200 ten opzichte van slechts vier maanden geleden. Dit wijst op een realiteit die veel SRE/infra-teams al kennen: inferentieprestaties in productie zijn een samenspel van runtime, planning, kernels, GPU-communicatie en efficiënt geheugenbeheer.

In die lijn benadrukt het bedrijf drie technische ingrediënten die praktisch relevant zijn voor iedereen die AI-infrastructuur beheert:

High-performance kernels geoptimaliseerd voor efficiëntie en lage latentie, om de GPU maximaal te benutten wanneer niet sprake is van “grote batch”, maar van directe responsiviteit.
NVLink Symmetric Memory, dat directe GPU-GPU communicatie mogelijk maakt en zo communicatie-verliezen reduceert.
Programmatic dependent launch, dat de rusttijden verkort door de voorbereiding van de volgende kernel al te starten voordat de vorige is afgerond.

Het zijn engineering-onderdelen die doorgaans niet de hoofdrol spelen in algemene media, maar wel bepalen of een cluster geschikt is voor interactieve assistenten met stabiele latency… of dat het slechts bij een demo blijft.

Langdurige context: wanneer de “agent” het hele repository leest

De andere belangrijke uitdaging is lange context. Als agents moeten redeneren over volledige codebases, schiet de aandacht- en geheugenbelasting omhoog. NVIDIA claimt dat op scenario’s met 128.000 input tokens en 8.000 output tokens — een typische setting voor programmeerassistenten die grote repositories doorzoeken — GB300 NVL72 tot 1,5 keer minder kosten per token kan realiseren dan GB200 NVL72.

Voor ontwikkelaars betekent dit dat de Blackwell Ultra-platform 1,5 keer meer NVFP4 rekenprestaties levert en 2 keer sneller in attentieverwerking, waardoor langere sessies haalbaar blijven zonder dat “prijs van de context” de levensvatbaarheid ondermijnt.

Wie rol speelt bij uitrol en wat het betekent voor de operatie

NVIDIA meldt dat cloud- en inferentieaanbieders zich nu al aanpassen. Namen zoals Baseten, DeepInfra, Fireworks AI en Together AI gebruiken Blackwell, met kostenreducties tot 10 keer in eerdere generaties. Voor Blackwell Ultra ziet het bedrijf dat Microsoft, CoreWeave en Oracle Cloud Infrastructure de GB300 NVL72 inzetten voor lage-latentie- en lange-tekst scenario’s zoals agentic coding en interactieve assistentie.

Voor platformteams betekent het dat het niet meer gaat over “welke GPU kopen”, maar over “welke architectuur opereren”: integratie met het serving stack, observability van latenties, wachtrijen, gebruiker-limieten, capaciteitsplanning en de harde realiteit dat bij gelijke vraag de kosten niet alleen door GPUs, maar door energie, koeling en runtime-efficiëntie worden bepaald.

De volgende stap: Rubin (en nóg meer kostenreductie)

In dezelfde aankondiging kijkt NVIDIA ook naar de toekomst met Rubin, dat tot 10 keer meer prestaties per megawatt zou leveren dan Blackwell in MoE-inferentie, wat zou leiden tot een tiende van de kosten per miljoen tokens. Daarnaast zou Rubin grote MoE-modellen kunnen trainen met een kwart minder GPUs vergeleken met Blackwell. Een ambitieuze uitspraak, maar consistent met markttrends: elke generatie streeft ernaar AI goedkoper, breder toegankelijk en meer “industrial” te maken.

Veelgestelde vragen

Wat betekent “kosten per token” voor een sysadmin of platformteam?
Het is een praktische maatstaf om infrastructuurkosten te vertalen naar geld: wat kost het om tokens te verwerken of genereren, inclusief energie, hardware, koeling en software-efficiëntie. Handig om platformen te vergelijken en inschattingen voor inferentiebudgetten te maken.

Waarom worden “tokens per megawatt” een sleutelmaat in AI datacenters?
Omdat vele implementaties niet meer beperkt worden door vraag, maar door beschikbare capaciteit en koeling. Verbetering van deze metriek maakt het mogelijk meer gebruikers en agenten te ondersteunen zonder de energetische footprint exponentieel uit te breiden.

Wanneer is “lange context” belangrijker dan lage latentie?
Wanneer de assistent grote hoeveelheden informatie moet begrijpen, zoals repositories, uitgebreide documentatie of complete historie. In die gevallen bepaalt de aandacht- en geheugenbelasting de totale kosten, en de schaalbare platformen zijn hierin het verschil.

Wat moet er in productie gemonitord worden bij agent-gestuurde assistenten?
Naast latentiepercentielen (p95/p99) is het belangrijk om wachtrijen, tokens per seconde per gebruiker, re-try ratios, tijdsduur per fase (retrieval, tool calls, generaties) en de energie- en interconnectiebelasting tussen GPU’s te volgen.

bron: blogs.nvidia

X (Twitter) Facebook LinkedIn Email WhatsApp