NVIDIA heeft een belangrijke stap gezet die rechtstreeks inspeelt op de komende golf van softwareontwikkeling: multi-agent systemen. Het bedrijf kondigde recentelijk de lancering aan van Nemotron 3, een nieuwe familie van open modellen beschikbaar in de formaten Nano, Super en Ultra. Daarnaast worden er datasets en bibliotheken vrijgegeven voor training en fine-tuning, met als doel het ontwikkelen van gespecialiseerde agents eenvoudiger, kostenefficiënter en transparanter te maken, en gemakkelijker te implementeren in productieomgevingen.
De markt evolueert weg van het gebruik van één enkele chatbot naar systemen waarin meerdere agents taken verdelen, samenwerken en elkaar corrigeren. Deze aanpak brengt echter uitdagingen met zich mee, zoals hogere tokenverbruik, grotere latency, meer inference-kosten en een verhoogd risico op ‘context drifting’ bij langere workflows. NVIDIA streeft ernaar een oplossing te bieden die zowel efficiëntie als openheid combineert, twee kenmerken die doorgaans moeilijk te verenigen zijn.
De kern van de technische innovatie ligt in de hybrid latent mixture-of-experts (MoE)-architectuur. In plaats van het volledige model telkens te activeren bij elke token, schakelt deze architectuur slechts een deel van het model in, afhankelijk van de taak. Hierdoor kan Nemotron 3 Nano tot vier keer meer throughput leveren dan de vorige generatie, Nemotron 2 Nano, en het aantal tokens dat nodig is voor reasoning met ongeveer 60% verminderen. Dit is vooral relevant voor bedrijven die modellen inzetten in complexe workflows met veel agents, waar het reduceren van kosten en latency cruciaal is.
Deze efficiëntie maakt het mogelijk om een ’model router’ te bouwen: een krachtig privémodel voor zware taken, aangevuld met goedkopere open modellen voor informatiesamenvatting, classificatie, ondersteuning en zoekopdrachten. Volgens NVIDIA wordt de zogenaamde ’tokenomics’ – de werkelijke operationele kosten van een agent – steeds meer een strategische factor.
De familie Nemotron 3 bestaat uit drie versies: Nano, dat nu beschikbaar is en 30 miljard parameters bevat met tot 3 miljard actieve units per token; Super, met circa 100 miljard parameters geschikt voor hoge precisie reasoning; en Ultra, met ongeveer 500 miljard parameters voor complexe reasoning-taken. Nano biedt een contextvenster van maar liefst een miljoen tokens, waardoor het geschikt is voor lange workflows en taken met veel stappen, zonder dat het model zijn geheugen verliest of context moet afkappen.
Naast de modellen kondigt NVIDIA ook een brede set van datasets en tools aan. Ze positioneren zich als de eerste die een compleet pakket bieden: open modellen, grote datasets voor pretraining en reinforcement learning, inclusief een veiligheidsspecialistische dataset om de veiligheid en betrouwbaarheid van agents te beoordelen. Tools zoals NeMo Gym en NeMo RL, die via open source worden gedeeld op GitHub en Hugging Face, maken het mogelijk om agents te trainen, evalueren en veilig te implementeren.
De verspreiding gebeurt snel, met Nemotron 3 Nano al beschikbaar op platformen als Hugging Face en via inference-providers zoals Baseten en DeepInfra. Voor grotere organisaties biedt NVIDIA de NIM (NVIDIA Inference Microservice) aan, die naadloos kan worden geïntegreerd in geavanceerde infrastructuren en voorzien is van privacy- en controlefuncties.
Wat betekent dit voor de markt? Tegen de achtergrond dat steeds meer organisaties vaststellen dat agents goed functioneren, maar wel kostenintensief zijn, benadrukt NVIDIA dat de efficiëntie van open modellen essentieel wordt voor het opschalen van productie. Het bedrijf gelooft dat een ecosysteem van open, efficiënte modellen die afgestemd kunnen worden met datasets en reinforcement learning, samen met gesloten, krachtige modellen, de toonaangevende strategie zal zijn tegen 2026. Deze benadering biedt niet alleen competitieve prestaties, maar sluit ook aan bij regels en nationale strategieën gericht op dataveiligheid en controle.
Kortom, NVIDIA positioneert Nemotron 3 als een spil in de toekomstige multi-agent softwarearchitectuur, met een open stack dat toegankelijk is op verschillende niveaus van de markt, van individuele ontwikkelaars tot grote ondernemingen. De combinatie van efficiëntie, openheid en schaalbaarheid biedt een veelbelovend alternatief voor de huidige, vaak kostbare en gesloten algoritmische oplossingen.
