NVIDIA Vestigt Wereldrecord met Llama 4 Maverick: Meer dan 1.000 Tokens per Seconde per Gebruiker Dankzij Blackwell

NVIDIA Bereikt Revolutionaire Snelheid in LLM Inferentie

NVIDIA heeft een nieuw record gevestigd in de prestaties van grote taalmodellen (LLM). Een enkele NVIDIA DGX B200-node, uitgerust met acht Blackwell-GPU’s, heeft een snelheid bereikt van meer dan 1.000 tokens per seconde per gebruiker met Llama 4 Maverick, het grootste model uit de Llama 4-collectie, dat 400 miljard parameters bevat. Dit resultaat werd onafhankelijk bevestigd door de benchmarkdienst Artificial Analysis.

Blackwell: De Optimale Hardware voor Llama 4

Deze prestatie maakt Blackwell tot de optimale hardwareplatform voor het uitvoeren van Llama 4, of het nu gaat om maximale serverprestaties of om latentie te minimaliseren in een enkelgebruikersscenario. In de maximale configuratie bereikt het systeem 72.000 tokens per seconde per server.

Totale Optimalisatie: Van CUDA naar TensorRT-LLM

Het succes is te danken aan een combinatie van architectonische innovaties en diepe softwareverbeteringen. NVIDIA gebruikte de TensorRT-LLM omgeving om elke aspect van de inferentie te optimaliseren en implementeerde kerneloptimalisaties in CUDA voor kritische operaties zoals GEMM, MoE en aandacht.

Belangrijke technieken zijn onder andere kernelfusies (zoals de samenvoeging van AllReduce met RMSNorm) en het gebruik van Programmatic Dependent Launch (PDL), een CUDA-functie die de uitvoering van opeenvolgende kernels overlapt, wat stilstandstijd eliminateert en de hardwarebenutting verbetert. Daarnaast werden FP8-bewerkingen toegepast, die, dankzij de Tensor Cores van Blackwell, de precisie behouden met een lagere rekenskost.

Speculatieve Decodering: Snelheid Zonder Inboeten op Kwaliteit

Een van de belangrijkste factoren was het gebruik van een aangepaste speculatieve decodering, gebaseerd op de EAGLE-3 architectuur. Deze techniek stelt een snel model in staat om tekstconcepten te genereren die vervolgens parallel worden geverifieerd door het hoofdmodel, wat de inferentiesnelheid aanzienlijk verhoogt.

Dit resulteerde in een optimale balans met gebruik van drie-token conceptsequenties, wat leidde tot een versnelling van meer dan 2x zonder in te boeten op de kwaliteit. Het conceptmodel draait rechtstreeks op de GPU met behulp van torch.compile(), waardoor de overhead van 25% verlaagd werd naar 18%.

Reëel Impact: Naar Snellere en Nuttigere AI

De noodzaak om de latentie te verlagen is cruciaal voor realtime generatieve kunstmatige intelligentietoepassingen, zoals virtuele assistenten, software copiloten en autonome agents. Dankzij deze verbeteringen toont NVIDIA aan dat het mogelijk is om een soepele en responsieve ervaring te bieden, zelfs met massale modellen.

Deze prestaties zijn niet alleen een technische vooruitgang, maar vormen ook de basis voor de volgende generatie AI-agenten die in staat zijn om direct en effectief met mensen te communiceren, van conversatie-interfaces tot complexe cloudsimulaties.

Conclusie

Met deze prestatie versterkt NVIDIA niet alleen zijn leiderschap in de infrastructuur voor kunstmatige intelligentie, maar zet het ook de standaard voor een nieuw tijdperk van extreme prestaties in AI, waar de combinatie van gespecialiseerde hardware zoals Blackwell, geavanceerde inferentietechnieken en optimalisaties op laag niveau het mogelijk maken om steeds krachtiger modellen in kritieke en veeleisende omgevingen te implementeren.

Bron: Nvidia technische blog

Scroll naar boven