NVIDIA lanceert Nemotron 3 Super, hun nieuwe open model voor agenten

NVIDIA presenteert Nemotron 3 Super, een nieuw open model uit de Nemotron-familie dat gericht is op agentatische workloads, langetermijnredenering, toolgebruik en grootschalige zakelijke implementaties. Het bedrijf beschrijft het als een hybride Mamba-Transformer MoE met in totaal 120 miljard parameters, waarvan 12 miljard actief zijn tijdens inferentie, en een contextvenster tot wel 1 miljoen tokens. De officiële onthulling vond plaats op 10 en 11 maart via NVIDIA’s onderzoekssite, hun ontwikkelaarsblog, NIM en Hugging Face.

Dit aankondiging is belangrijk omdat het plaatsvindt op een moment waarop de markt voor open Kunstmatige Intelligentie niet langer alleen draait om chatbots of algemene modellen, maar juist om systemen die kunnen plannen, tools aanroepen, lange contexten bewaren en als basis voor agenten functioneren. Daar wil NVIDIA met Nemotron 3 Super op inspelen: niet als zomaar een concurrent in de grote LLM-competitie, maar als een specifiek ontworpen oplossing voor complexe agent-stromen, RAG-systemen, automatisering van tickets, programmeren en uitgebreid redeneren.

Een model ontworpen voor lange contexten en echte efficiëntie

Een van de opvallendste kenmerken van Nemotron 3 Super is de architectuur. NVIDIA legt uit dat het model gebruikmaakt van een LatentMoE-benadering die lagen Mamba-2, MoE en enkele aandachtlagen combineert, met daarnaast Multi-Token Prediction (MTP) om de generatie te versnellen. Het bedrijf beweert dat deze combinatie de efficiëntie op het gebied van geheugen en berekeningen verbetert, terwijl het nog steeds geavanceerd redeneren en ondersteuning voor zeer lange contexten biedt. In documentatie benadrukt NVIDIA bovendien dat dit de eerste “Super”-versie van de Nemotron 3-familie is die LatentMoE, MTP en pretraining op NVFP4 integreert.

De claim van een miljoen tokens is waarschijnlijk de meest opvallende. NVIDIA verzekert dat Nemotron 3 Super een contextvenster tot 1 miljoen tokens ondersteunt en dat het bij lange contextsetests zoals RULER modellen overtreft zoals GPT-OSS-120B en Qwen3.5-122B op dat gebied. Tegelijkertijd stelt hun ontwikkelaarsblog dat deze brede vensterfunctie bedoeld is om het verlies van status in agent-systemen te voorkomen en de zogenaamde “goal drift” te verminderen—een veelvoorkomend probleem waarbij een agent tijdens complexe taken veel interacties moet onthouden.

Deze positionering is niet onbelangrijk. In de praktijk kan een zo groot contextvenster bijzonder nuttig zijn voor agenten die met uitgebreide documentatie, lange geschiedenisdata, meerdere tools of uitgebreide redeneerketens werken. Het betekent niet automatisch dat het model in alle scenario’s beter is, maar wel dat NVIDIA inspeelt op een van de grootste knelpunten van hedendaagse software-agenten: het vermogen om relevante informatie te bewaren zonder gedrag te degraderen of operationele kosten te verhogen.

Wat NVIDIA belooft op het gebied van prestaties en deployment

NVIDIA beperkt zich niet tot de architectuur. Het bedrijf heeft ook prestatie- en efficiëntievergelijkingen gepubliceerd om de lancering kracht bij te zetten. Op hun officiële onderzoekswebsite claimt NVIDIA dat Nemotron 3 Super tot 2,2 keer meer inference-doorvoer levert dan GPT-OSS-120B en tot 7,5 keer meer dan Qwen3.5-122B bij gebruik van 8K tokens in-, en 16K tokens uitgaande. Daarnaast zou het vergelijkbare of betere precisie tonen in diverse benchmarks. Deze cijfers zijn afkomstig van NVIDIA zelf en dienen dus meer als een indicatie van hun eigen prestaties dan als onafhankelijke validatie. Desalniettemin geven ze inzicht in de strategische positionering: een open, efficiënte optie voor grootschalige agent-loads.

De productfiche bevat ook praktische details zoals ondersteunende varianten. NVIDIA biedt bijvoorbeeld BF16 en FP8-versies aan, met verschillende minimale hardwarevereisten. Zo vereist de BF16-variant minimaal 8 H100 GPU’s van 80 GB, terwijl de FP8-variant dat verlaagt naar slechts 2 H100 GPU’s van 80 GB. Ook wordt vermeld dat het model meerdere talen ondersteunt, waaronder Spaans, en ontworpen is voor agentgerichte workflows, lang context-raden, toolgebruik en RAG-systemen.

Tot slot is de licentie relevant voor productteams en infrastructuurspecialisten. NVIDIA presenteert Nemotron 3 Super als een “open” model onder de NVIDIA Nemotron Open Model License, en benadrukt via NIM en Hugging Face dat het klaar is voor commercieel gebruik onder deze voorwaarden. Die combinatie—een open model, lange context, agentgerichte focus en zakelijke deploymentmogelijkheden—legt uit waarom Nemotron 3 Super aantrekkelijk kan zijn voor zowel commerciële bedrijven als open source-projecten die kijken naar alternatieven voor gesloten modellen met groot contextvermogen.

Waarom open assistenten en agent-frames waarschijnlijk geïnteresseerd zijn

Hoewel de aankondiging in eerste instantie werd gekoppeld aan tools zoals OpenClaw, ligt de ware relevantie meer in het systeemtype dat het ondersteunt. OpenClaw, volgens hun officiële repository, is een open source personal assistent die over meerdere kanalen en apparaten kan functioneren. Een model als Nemotron 3 Super, met nadruk op agenten, tool-acts en uitgebreide context, past goed in dat soort architecturen, evenals in andere open assistent- of complexe RAG-systemen of multi-agent flows. Dat is een logische conclusie gebaseerd op de publieke capaciteiten en de productbeschrijving van OpenClaw.

Dat gezegd hebbende, moet men niet overdrijven. Het feit dat een model een groot contextvenster heeft of een efficiënte architectuur, betekent niet automatisch dat het de beste keuze is voor alle agenten. In praktijk spelen factoren zoals de kwaliteit van fine-tuning, latency, token-kosten, tool-implementatie en stabiliteit een grote rol. Wat wel duidelijk is, is dat NVIDIA probeert een markt te betreden die voorheen vooral door andere labs werd gedomineerd: die van open high-level modellen specifiek gericht op agenten.

Samenvattend vormt Nemotron 3 Super meer dan slechts een nieuw model: het is een signaal dat de open Artificial Intelligence-markt zich in een nieuwe fase bevindt. Een waarin de pure grootte niet meer volstaat, en waar efficiëntie, lange contexten, toolintegratie en de capaciteit om te functioneren als ruggengraat van complexe agenten steeds belangrijker worden. En op dat terrein wil NVIDIA duidelijk maken dat het geen GPU-leverancier enkel is, maar ook een speler met eigen modellen.

Veelgestelde vragen

Wat is NVIDIA Nemotron 3 Super?

Een nieuw open model van NVIDIA gericht op agentgericht redeneren, toolgebruik, RAG en lange context, met 120 miljard parameters, 12 miljard actief tijdens inferentie en een contextvenster tot 1 miljoen tokens.

Welke architectuur gebruikt Nemotron 3 Super?

NVIDIA meldt dat het gebruikmaakt van een hybride LatentMoE-architectuur, die Mamba-2, MoE en aandachtlagen combineert, ondersteund door Multi-Token Prediction om inferentie te versnellen.

Hoeveel GPU’s zijn nodig voor Nemotron 3 Super?

Dit hangt af van de variant. De officiële specificaties wijzen op 8× H100-80GB voor BF16 en 2× H100-80GB voor FP8 als minimale vereisten.

Kan Nemotron 3 Super worden gebruikt in open assistentie-systemen zoals OpenClaw?

In theorie zeker, omdat OpenClaw een open source assistent is en Nemotron 3 Super is geoptimaliseerd voor agenten, toolgebruik en lange contexten. De praktische geschiktheid hangt echter af van prestaties, latentie, kosten en systeemintegratie in de praktijk.

Scroll naar boven