De agt-gebaseerde kunstmatige intelligentie dwingt ons om datacenters op een geheel nieuwe manier te beoordelen. Het volstaat niet langer om alleen te meten hoeveel tokens per seconde een model levert bij een enkele vraag. Nieuwe agenten werken langer door, hangen stappen aan elkaar, roepen tools aan, behouden context, bewerken code, voeren tests uit en herstructureren hun redeneringen op basis van nieuwe informatie. Deze gebruikswijze brengt de infrastructuur volledig uit balans.
NVIDIA heeft zijn eerste resultaten gepubliceerd met AA-AgentPerf, een nieuwe benchmark voor Artificial Analysis, ontworpen om te meten hoeveel IA-agenten een inferentieplatform aankan onder realistische belasting. De resultaten wijzen duidelijk in de richting van Blackwell Ultra: het NVIDIA GB300 NVL72-systeem haalt tot 20 keer meer capaciteit per megawatt vergeleken met een Hopper-gebaseerd HGX H200-platform bij programmeringsagent-belastingen.
De cijfers illustreren de sprong duidelijk. Volgens de gepubliceerde gegevens ondersteunt GB300 NVL72 61.400 gelijktijdige agenten per MW, tegenover slechts 2.600 voor H200. In capaciteit per GPU ligt het verschil ook aanzienlijk: 57,5 agenten per accelerators versus 1,4 in de vorige generatie. Deze resultaten zijn behaald met DeepSeek V4 Pro, een Mixture-of-Experts-model dat wordt gebruikt als representatie van moderne agent-belastingen.
Wat meet AA-AgentPerf en waarom is het belangrijk
AA-AgentPerf meet niet slechts een eenvoudige conversatie met een chatbot. Het doel is om de prestatie van de infrastructuur te evalueren wanneer veel agenten gelijktijdig werken aan lange en complexe taken, vergelijkbaar met die in AI-ondersteunde ontwikkelomgevingen.
De benchmark gebruikt echte programmeringsagenttrajecten, inclusief sessies met meerdere turns, onderlinge redenering, toolaanroepen, codebewerking en variabele contextlengtes. Volgens Artificial Analysis kunnen invoerreeksen meer dan 100.000 tokens bevatten, met een gemiddelde rond de 27.000 tokens in de geteste dataset.
Dit is cruciaal omdat agent-belastingen verschillende delen van het systeem belasten. Een agent genereert niet alleen tekst; leest context, wacht op resultaten van tools, hervat sessies, hergebruik van KV-cache, schakelt tussen pre-filling en decoding en houdt veel aanvragen lang actief. In productie beïnvloedt deze mix de planner, het geheugengebruik, de GPU-interconnectie en de latentieprestaties.
| AA-AgentPerf-metric | Wat het aangeeft |
|---|---|
| TTFT | Time tot het ontvangen van de eerste token |
| Output-snelheid | Tokens per seconde zodra output begint |
| Systeem throughput | Tokens per seconde met meerdere agenten |
| Gelijktijdige agenten per MW | Effectieve capaciteit per energieverbruik |
| Gelijktijdige agenten per GPU | Effectieve capaciteit per accelerators |

De meest relevante metriek voor datacenters is het aantal gelijktijdige agenten per megawatt. In AI-datacenters is energieverbruik een net zo belangrijke limiet als de kosten van GPU’s. Weten hoeveel agenten een installatiesysteem per MW kan draaien, helpt bij het inschatten van capaciteit, operationele kosten en het rendement op hardware-investeringen.
GB300 NVL72 versus H200: de sprong van Blackwell Ultra
De door NVIDIA gepubliceerde gegevens tonen een enorm verschil tussen GB300 NVL72 en HGX H200 bij programmeringsagent-belastingen. De vergelijking beperkt zich niet tot de ruwe prestaties van een GPU, maar kijkt naar de volledige platformcapaciteit om gelijktijdige agenten te ondersteunen onder service- en prestatiedoelen.
| Benchmark | NVIDIA GB300 NVL72 | NVIDIA H200 |
| Gelijktijdige agenten per MW | 61.400 | 2.600 |
| Gelijktijdige agenten per GPU | 57,5 | 1,4 |
| Geschatte verschil per MW | Tot 20 keer meer | Bron |
De voordelen komen niet voort uit één component. NVIDIA wijst op een slimme combinatie van hardware, software en interconnectie. GB300 NVL72 verbindt 72 GPU’s via een hoge capaciteit NVLink-netwerk, vooral nuttig voor MoE-modelletjes zoals DeepSeek V4 Pro, waarbij werk verdeeld moet worden tussen experts en de communicatie efficiënt moet blijven zonder prestatiereductie.
Ook optimalisaties voor inferentie zoals TensorRT LLM, SGLang en vLLM spelen een rol, samen met technieken om pre-filling en decoding te scheiden, cache-gebruik te verbeteren en GPU-utilisatie hoog te houden bij toenemende actieve sessies. In AI-agentsituaties is het doel niet alleen snel reageren, maar ook duizenden agenten soepel laten draaien zonder dat latency of snelheid onder de afgesproken limieten zakken.
Deze inzichten veranderen de design- en planningstrategie voor cloudproviders, grote AI-labs en ondernemingen die grote hoeveelheden interne agenten willen inzetten. De discussie verschuift van ‘welke GPU is het snelst’ naar ‘hoeveel nuttige agenten kan ik draaien met mijn energie, ruimte en budget’. Rendement per MW wordt zo een essentiële metriek.
Datacenters voor agents, niet enkel voor modellen
De groei van AI-agenten verankert datacenters meer en meer in een fabriek voor lange processen worden omgevormd. Een ontwikkelassistent kan bijvoorbeeld een incident ontvangen, documenten bekijken, wijzigingen voorstellen, testen uitvoeren, fouten corrigeren en opnieuw beginnen. Elke stap vereist nieuwe modelaanroepen en houdt langdurig context vast.
Dit vereist dat datacenters anders worden ontworpen. Het geheugen, het interne netwerk, de koeling, energie-efficiëntie en orkestratiesoftware krijgen een hogere prioriteit dan bij traditionele inferentietests. Een slecht uitgebalanceerd systeem kan krachtige GPU’s hebben, maar toch slechte gebruikerservaring leveren door bottlenecks in cache, interconnectie, planner of contextopslag.
AA-AgentPerf probeert deze nieuwe realiteit in kaart te brengen. Het vervangt niet andere inferentie-benchmarks, maar voegt een extra laag toe die beter aansluit bij het verwachte gebruik van AI binnen de komende jaren. Als agenten evolueren van losse tools naar autonome procesflotten in parallelle uitvoering, moet de infrastructuur beoordeeld worden op duurzame capaciteit, efficiëntie en voorspelbaarheid.
Prudentie blijft geboden: de eerste resultaten zijn gebaseerd op specifieke configuraties, modellen, SLO’s en optimalisaties. Niet alle bedrijfsbelastingen reageren hetzelfde. Een programmeringsagent heeft een ander profiel dan een financieel, juridisch, klantenservice- of wetenschappelijk analyse-agent. Toch geeft deze benchmark een duidelijke richting: het meten van AI-agents vereist langere, variabele en productie-gerelateerde testen.
Vervolgstappen: Vera Rubin als toekomstige evolutie
De timing van deze publicatie is geen toeval. NVIDIA bereidt zich voor op de overgang naar Vera Rubin, hun volgende platform voor grote AI-installaties. Het bedrijf heeft aangekondigd dat Vera Rubin in productie wordt genomen voor ‘AI-fabrieken’, met een architectuur die CPU Vera, GPU Rubin, NVLink 6, BlueField-4, Spectrum-6 en nieuwe netwerk- en opslagsystemen combineert, allemaal gericht op AI-agentsystemen.
Volgens NVIDIA zal de GPU Rubin 50 PFLOPS NVFP4 behalen voor inferentie, en NVLink 6 3,6 TB/s bandbreedte per GPU en 260 TB/s per rack bieden. Vera Rubin wordt ook gepresenteerd als een CPU ontworpen voor AI-agenten, met een focus op databeweging, efficiëntie en snelle verwerking, vooral voor het delen van context en het aanroepen van tools.
NVIDIA stelt dat Vera Rubin tot tien keer meer agenten op schaal kan ondersteunen vergeleken met de Grace Blackwell-generatie. Hoewel dit nog bevestigd moet worden door praktijkimplantaties en onafhankelijke benchmarks, sluit het aan bij de marktdynamiek: meer agenten, meer context, meer gelijktijdigheid en hogere energie-eisen.
Voor de cloud-sector is de boodschap duidelijk: het gaat niet alleen om de nieuwste GPU’s, maar om het ontwerpen van complete systemen — racks, netwerken, inferentiesoftware, beveiliging, multi-tenant isolatie, contextopslag en energiebeheer — die het geheel optimaliseren. Bedrijven die grote aantallen agenten willen inzetten, zullen niet alleen kijken naar ‘rekenkracht’, maar vooral naar wat ze nuttig kunnen doen per megawatt, per rack en per euro.
Blackwell Ultra maakt deze nieuwe aanpak al zichtbaar. Hopper heeft een belangrijke rol gespeeld in de explosie van generatieve AI, maar voor autonome agenten ligt de lat veel hoger. GB300 NVL72 wint niet alleen door nieuwere technologie, maar doordat het is ontworpen om veel agenten parallel en efficiënter te kunnen laten draaien.
Hoewel AI-agents nog in een early-adopterfase zitten, is nu al duidelijk dat de impact op infrastructuur groot zal zijn. Als agenten zich gaan ontwikkelen tot standaard proceslagen in softwareontwikkeling, klantenservice, analyse, IT-operaties en industriële automatisering, zullen datacenters afgestemd moeten worden op miljoenen langdurige, slimmere processen. Het Artificial Analysis-benchmark biedt daarvoor een nuttige maatstaf: hoeveel echte agenten kan een platform ondersteunen zonder dat de gebruikservaring daaronder lijdt.
Veelgestelde vragen
Wat is AA-AgentPerf?
AA-AgentPerf is een benchmark van Artificial Analysis die meet hoeveel IA-agenten een inferentieplatform kan ondersteunen onder realistische belasting, met focus op snelheid tot eerste token en outputdoorvoer.
Wat heeft NVIDIA met GB300 NVL72 bereikt?
NVIDIA GB300 NVL72 ondersteunt volgens de publicaties 61.400 gelijktijdige agenten per MW en 57,5 agenten per GPU, vergeleken met 2.600 en 1,4 voor H200.
Waarom verschillen agent-belastingen van traditionele inference?
Omdat een agent niet slechts één verzoek afgeeft. Het redetwist over meerdere turns, roept tools aan, leest en bewerkt documenten, voert testen uit, en houdt lange contexten vast. Dit vereist meer geheugen, betere planning en efficiënter gebruik van het hele systeem.
Wat betekent Vera Rubin voor NVIDIA?
Vera Rubin is de volgende grote platformgeneratie van NVIDIA voor grootschalige AI-fabrieken. Het combineert GPU Rubin met 50 PFLOPS, CPU Vera, NVLink 6 en nieuwe opslag- en netwerksystemen om AI-agentsystemen krachtig te ondersteunen.
Bron: Nvidia
