NVIDIA en OpenAI: Een Nieuwe Sprong in AI-prestaties met gpt-oss Modellen
NVIDIA en OpenAI hebben een aanzienlijke vooruitgang geboekt in de prestaties van kunstmatige intelligentie met de lancering van de open-source modellen gpt-oss-20b en gpt-oss-120b, geoptimaliseerd voor de Blackwell architectuur. Volgens gegevens van het bedrijf kan het grootste model tot 1,5 miljoen tokens per seconde (TPS) bereiken op een NVIDIA GB200 NVL72 systeem, wat betekent dat het tot ongeveer 50.000 gelijktijdige gebruikers kan bedienen.
Deze modellen, die zich richten op tekstueel redeneren, integreren chain-of-thought capaciteiten en tool calls, en maken gebruik van een Mixture of Experts (MoE) architectuur met SwigGLU activaties. Ze omvatten aandacht lagen met RoPE voor contexten tot 128.000 tokens, en afwisselend volledige aandacht en een glijdend venster van 128 tokens.
Beide versies zijn beschikbaar in FP4 precisie, wat betekent dat zelfs het model met 120B actieve parameters op een enkele datacenter GPU met 80 GB geheugen kan draaien, en daarbij optimaal gebruikmaakt van de mogelijkheden van Blackwell.
Training en Optimalisatie
Het gpt-oss-120b model vereiste meer dan 2,1 miljoen trainingsuren op NVIDIA H100 Tensor Core GPUs, terwijl het gpt-oss-20b model ongeveer tien keer minder tijd nodig had. Om de prestaties te maximaliseren, heeft NVIDIA samengewerkt met Hugging Face Transformers, Ollama, vLLM en zijn eigen TensorRT-LLM, met specifieke verbeteringen in aandachtkernen, MoE-routering en geoptimaliseerde preprocessing.
Belangrijke optimalisaties omvatten onder andere:
- TensorRT-LLM Gen voor prefill en decode van aandacht, en lage-latentie MoE.
- CUTLASS MoE-kernels voor Blackwell.
- XQA-kern speciaal ontwikkeld voor Hopper.
- FlashInfer bibliotheek voor het bedienen van LLM’s met geoptimaliseerde aandacht en versnelde MoE-routering.
- Compatibiliteit met de OpenAI Triton kern voor MoE in TensorRT-LLM en vLLM.
Flexibele Implementatie: Van Datacenter naar Lokale PC
In Datacenters:
- Met vLLM kunnen ontwikkelaars een webserver opzetten die compatibel is met OpenAI door het model automatisch met een eenvoudige opdracht te downloaden.
- Met TensorRT-LLM biedt NVIDIA richtlijnen, Docker-containers, en configuraties om de prestaties te maximaliseren, zowel in lage latentie- als hoge prestatiemodi.
In Bedrijfsinfrastructuren:
- NVIDIA Dynamo, een open source inferentieplatform, verbetert tot 4x de interactiviteit voor lange sequenties (32k ISL) in Blackwell door gebruik te maken van gedisaggregeerde inferentie, waarbij rekenfasen over verschillende GPUs worden verspreid.
- De modellen worden aangeboden als NVIDIA NIM microservices, klaar voor implementatie in elke door GPU versnelde infrastructuur, met controle over privacy en beveiliging.
In Lokale Omgevingen:
- Het gpt-oss-20b model kan draaien op elke PC met een NVIDIA GeForce RTX GPU en minimaal 16 GB VRAM, of op professionele stations met RTX PRO GPUs. Het is compatibel met Ollama, Llama.cpp en Microsoft AI Foundry Local.
- Ontwikkelaars kunnen ze testen in de RTX AI Garage met voorgeconfigureerde omgevingen.
Een Architectuur Ontworpen om te Schalen
Het GB200 NVL72 systeem combineert 72 Blackwell GPUs met de vijfde generatie NVLink en NVLink Switch, waardoor het functioneert als één enkele GPU van grote schaal. De tweede generatie Transformer-engine met FP4 Tensor Cores, samen met een massieve bandbreedte, maakt het mogelijk om tot nu toe onbereikbare piek-inferenties te bereiken bij modellen van deze omvang.
Volgens NVIDIA versterkt deze vooruitgang het vermogen van het platform om state-of-the-art modellen vanaf dag één te bedienen, met hoge prestaties en lage kosten per token in zowel cloud- als on-premise omgevingen.
Technische Specificaties van de gpt-oss Modellen
Model | Transformer Blokken | Totaal Aantal Parameters | Actieve Parameters per Token | Aantal Experts | Actieve Experts per Token | Max. Context |
---|---|---|---|---|---|---|
gpt-oss-20b | 24 | 20B | 3.6B | 32 | 4 | 128K |
gpt-oss-120b | 36 | 117B | 5.1B | 128 | 4 | 128K |
Conclusie
De samenwerking tussen NVIDIA en OpenAI aan de gpt-oss modellen markeert een nieuw referentiepunt in de inferentie van grote taalmodellen. Dit niet alleen vanwege de prestatieverbeteringen, maar ook vanwege de flexibiliteit van implementatie: van cloudomgevingen tot desktops, tot microservices die klaar zijn voor productie.
Met een geoptimaliseerd ecosysteem dat hardware, kernels en frameworks integreert, is het doel eenvoudig maar ambitieus: hoogwaardige AI toegankelijk maken voor elke ontwikkelaar, in elke omgeving.