NVIDIA domineert met MLPerf Inference v6.0 en versnelt de AI-race

NVIDIA heeft de benchmarks van MLPerf opnieuw omgezet in een krachtmeting. In de nieuwe ronde van MLPerf Inference v6.0 beweert het bedrijf de beste resultaten te hebben behaald in het grootste aantal tests en scenario’s, gebaseerd op hun Blackwell Ultra-platform, het GB300 NVL72-systeem en een zeer verfijnde combinatie van hardware, interconnecties en software. Deze publicatie valt samen met een moment waarop inferentie niet langer uitsluitend wordt gemeten aan de hand van teraflops of chip-specificaties, maar aan iets veel directer voor de zakelijke praktijk: hoeveel tokens een infrastructuur kan produceren en tegen welke kosten.

De betekenis van deze ronde reikt verder dan de gebruikelijke kop “prestatierecord”. MLCommons, het consortium dat verantwoordelijk is voor MLPerf, presenteert v6.0 als de belangrijkste update tot nu toe van de inference-benchmark, met vijf van de elf nieuwe of geüpdate datacenter-tests en een meer representatieve batterij voor praktische AI-toepassingen. Zee nieuwe tests omvatten onder andere een benchmark gebaseerd op GPT-OSS 120B, een uitbreiding van DeepSeek-R1 met een interactieve scenario, een nieuwe aanbevelingstest DLRMv3, de eerste tekst-naar-video test in de set, en een benchmark voor vision-language modellen.

NVIDIA beweert dat het de enige platform was dat resultaten presenteerde voor al deze nieuwe modellen en scenario’s, en dat het bovendien de hoogste verwerkingssnelheid behaalde op al deze tests. In zijn technische blog geeft het bedrijf opvallende cijfers: 2.494.310 tokens per seconde in DeepSeek-R1 in offline-modus, 1.555.110 tokens per seconde op server voor hetzelfde model, 1.046.150 tokens per seconde in GPT-OSS-120B in offline, 1.096.770 tokens per seconde op server, 79 monsters per seconde in Qwen3-VL en 104.637 monsters per seconde in DLRMv3. Voor WAN 2.2, de tekst-naar-video model, is de meest opvallende metriek de latentie in single stream, met 21 seconden per aanvraag.

Het is wel belangrijk een belangrijke kanttekening te plaatsen. MLPerf is geen exacte simulatie van alle productiebelastingen; het is een gestandaardiseerde en auditable benchmark ontworpen om platformen te vergelijken onder gedefinieerde condities. De waarde ligt in de reproduceerbaarheid, maar dat betekent niet dat elke cijfer rechtstreeks vertaalt naar het gedrag in een specifieke commerciële toepassing, een echte API-dienst of een omgeving met een mix van modellen, gebruikers en operationele beperkingen. MLCommons benadrukt zelf dat deze resultaten een rigoureuze basis bieden voor het vergelijken van systemen, geen automatische voorspellingen voor universele prestaties.

Blackwell Ultra wint niet alleen op hardware

Een van de meest interessante aspecten van de aankondiging van NVIDIA zit niet in de chip zelf, maar in de software. Het bedrijf stelt dat hetzelfde GB300 NVL72-systeem, dat pas zes maanden geleden werd geïntroduceerd, significant verbeterde in diverse tests dankzij optimalisaties van TensorRT-LLM en het gedistribueerde framework Dynamo. Volgens NVIDIA steeg de verwerkingssnelheid per GPU in DeepSeek-R1, in een serveromgeving, van 2.907 tokens per seconde in MLPerf v5.1 naar 8.064 tokens per seconde in v6.0, een verbetering van maar liefst 2,77 keer. In dezelfde periode verbeterde Llama 3.1 405B ook met 52% op serverbasis op dezelfde infrastructuur.

Dit bericht versterkt de strategische boodschap van NVIDIA: de concurrentievoordeel ligt niet meer slechts in de verkoop van GPU’s, maar in het beheersen van een volledige inferentie-stack. Het bedrijf wijt deze verbeteringen aan snellere kernels, kernel-fusies, een beter evenwicht in Attention Data Parallel, disaggregated serving, Wide Expert Parallel, Multi-Token Prediction en KV-aware routing. Met andere woorden, de strijd wordt niet alleen gewonnen met silicium, maar met een zeer fijne integratie van model, runtime, geheugen, netwerk en geavanceerde service-technieken.

Bovendien benadrukt NVIDIA het belang van haar ecosysteem. Volgens het bedrijf waren er bij deze ronde 14 partners die resultaten presenteerden op hun platform, het hoogste aantal in deze editie. Onder andere ASUS, Cisco, CoreWeave, Dell, Google Cloud, HPE, Lenovo, Nebius, QCT, Red Hat en Supermicro waren betrokken. Dit is niet onbelangrijk: het wijst erop dat een groot deel van de markt NVIDIA nog steeds ziet als de meest betrouwbare omgeving om grootschalige AI-infrastructuren op te bouwen en te finetunen.

Inference produceren op schaal van fabriek

Een andere belangrijke ontwikkeling in MLPerf v6.0 is de groei van multi-node systemen. MLCommons meldt dat deze editie een nieuwe mijlpaal brak met een toename van 30% in grootschalige systemen ten opzichte van v5.1. Daarnaast overtrof 10% van alle ingediende systemen de tien knooppunten, tegenover slechts 2% in de vorige ronde. Het grootste systeem in deze editie gebruikte 72 knooppunten en 288 accelerators, vier keer zo groot als het grootste systeem in de vorige versie.

NVIDIA past perfect in deze trend. Voor DeepSeek-R1 presenteerde het resultaten met vier GB300 NVL72 systemen verbonden via Quantum-X800 InfiniBand, en behaalde zo die 2,49 miljoen tokens per seconde in offline en 1,55 miljoen op server. Het duidelijke punt is dat de markt niet meer alleen denkt in losse GPU’s, maar juist in AI-fabrieken: volledige infrastructuren waar het niet alleen op de processor aankomt, maar op het vermogen om inferentie op grote schaal rendabel te produceren.

Deze visie verklaart ook waarom NVIDIA er zoveel op inzet om verschillende modellen te gebruiken binnen dezelfde suite: geavanceerd reasoning, visie-taalmodellen, generatieve aanbevelingen en video. Het bedrijf wil aantonen dat Blackwell Ultra niet alleen geschikt is voor pure LLM’s, maar als een cross-application platform voor diverse inferentietypes. En dat heeft vanzelfsprekend ook een commerciële boodschap: als één infrastructuur meerdere workloads en klantprofielen aankan, wordt de potentiële return-investering groter.

Een belangrijke overwinning, maar geen ultiem succes

De algemene teneur spreekt duidelijk in het voordeel van NVIDIA. Het bedrijf beweert al 291 overwinningen te hebben in MLPerf-benchmarks voor training en inferentie sinds 2018, bijna negen keer zoveel als alle andere deelnemers samen. Maar wellicht nog interessanter is de context: MLPerf v6.0 ontving inzendingen van 24 organisaties, waaronder AMD, Intel, Oracle, Google, Dell, Lenovo, HPE, Supermicro en andere ecosysteemspelers. Dit bewijst dat de concurrentie bestaat, actief meedoet en zich ook op dit vlak meet.

Desalniettemin versterkt NVIDIA haar positie om twee redenen. Ten eerste blijft ze leidend op het meest invloedrijke benchmarkgebied. Ten tweede koppelt het dat leiderschap aan een duidelijke strategische boodschap voor investeerders, hyperscalers en data center operators: NVIDIA verkoopt niet alleen versnellers, maar een volledige, geoptimaliseerde platform die tokens produceert, kosten verlaagt per inferentie en door softwareverbeteringen zelfs op hetzelfde hardware-niveau steeds beter wordt. In de huidige AI-economie is dat niet veel minder belangrijk dan de raw benchmark-cijfers.

Veelgestelde vragen

Wat is MLPerf Inference v6.0 en waarom is het zo belangrijk?
Het is de nieuwste versie van de inference-benchmark van MLCommons, een gestandaardiseerde, reproduceerbare suite die de prestaties van AI-systemen onder representatieve belastingen vergelijkt. Het is belangrijk omdat het een industriële referentie is geworden voor het meten van inference-platforms onder vergelijkbare omstandigheden.

Wat heeft NVIDIA precies bereikt in deze editie?
NVIDIA beweert de enige platform te zijn dat resultaten presenteerde voor alle nieuwe benchmarks en scenario’s toegevoegd aan v6.0, en dat het overal de beste prestaties heeft geleverd met de systemen Blackwell Ultra en GB300 NVL72.

Betekent dit dat NVIDIA automatisch de beste keuze is voor elke AI-implementatie?
Niet noodzakelijk. MLPerf biedt een waardevolle vergelijkingsbasis, maar vervangt geen daadwerkelijke evaluatie van kosten, software, beschikbaarheid, energieverbruik, integratie en specifieke behoeften van elke organisatie.

Wat is de belangrijkste technische nieuwigheid in deze ronde?
Waarschijnlijk de combinatie van meer realistische benchmarks met de prestatieverbeteringen door NVIDIA op hetzelfde hardware, dankzij software zoals TensorRT-LLM en Dynamo. Dit onderstreept dat inferentie tegenwoordig afhankelijk is van zowel de stack als van de chip.

Bron: developer.nvidia

Scroll naar boven