NVIDIA Groq 3 LPX: de nieuwe motor voor lage latentie inferentie - Cloud News

X (Twitter) Facebook LinkedIn Email WhatsApp

De grote strijd van AI ligt niet langer uitsluitend in het trainen van grotere modellen. Steeds meer speelt de échte knelpeing in de inference: hoe snel een systeem begint te reageren, hoeveel latency er ontstaat tijdens interacties tussen verschillende agents, en wat de kosten zijn om die snelheid op schaal te behouden. In dit kader presenteert NVIDIA Groq 3 LPX, een nieuw rack-scale versneler voor de Vera Rubin-platform, specifiek ontworpen voor lage-latentie inference en zeer lange contexten—twee eigenschappen die steeds belangrijker worden in de zogenaamde agentgerichte AI.

Het bedrijf positioneert het als een aanvulling op Vera Rubin NVL72, niet als een vervanging voor hun algemene GPU’s. Het idee is om de taken te verdelen: de Rubin-GPU’s blijven de flexibele kracht voor training, prefill, attention en high-throughput serving, terwijl LPX zich richt op het meest latency-gevoelige decodeerwerk, waar elke milliseconde telt bij code-assistenten, copiloten, tool-gebruikende agents en multi-agent systemen.

Op papier klinken de cijfers veelbelovend. NVIDIA spreekt over een systeem met 256 Groq 3 LPU acceleratoren, met 315 PFLOPS inferentie FP8, 128 GB SRAM totaal, 40 PB/s SRAM-bredeband op chip en 640 TB/s scale-up bandwidth per rack. Daarbij wordt het ook beschreven als het “zevende chip” binnen de Vera Rubin-architectuur, wat duidelijk maakt dat het niet slechts een variant van een GPU is, maar een nieuwe klasse van processor binnen hun AI-fabriekarchitectuur.

Een architectuur ontworpen voor interactieve AI

De meest interessante aspecten van de aankondiging liggen niet alleen in de brute rekenkracht, maar vooral in het soort gebruik dat NVIDIA wil stimuleren. Hun kernstelling is dat inference zich nu splitst in twee werelden. Aan de ene kant zijn er workloaden gericht op throughput, zoals embeddings, moderatie, batch pipelines of massale services waar het gaat om het maximaliseren van tokens per GPU of watt. Aan de andere kant groeien de scenario’s waarin latency beslist: conversatieassistenten, autonome agents, spraak, vertaling, interactieve redeneringen en systemen die inference, retrieval, tools en model-aanroepen met elkaar verbinden.

In deze gevallen vereist het optimaliseren van de gehele pipeline voor één regime vaak concessies. Hardware die is afgestemd op grote doorvoer met grote batches is niet per se ideaal voor snelle, stabiele tokenproductie met kleine batches. Aan de andere kant is hardware geoptimaliseerd voor directe respons niet altijd het meest efficiënt voor de intensieve fasen van de pipeline. NVIDIA stelt voor deze uitdaging op te lossen met een heterogene architectuur: Rubin voor het zware werk en LPX voor de latency-gevoelige decoding, met name in componenten zoals FFN en MoE.

Deze verdeling wordt ondersteund door een ontwerp dat sterk afwijkt van dat van een klassieke GPU. De kern van LPX, de Groq 3 LPU, richt zich op deterministische uitvoering, geheugen met prioritair SRAM, expliciet dataverkeer en nauwe coördinatie tussen computing en communicatie onder controle van de compiler. NVIDIA meldt dat elke LPU 500 MB on-chip SRAM bevat, met 150 TB/s interne bandbreedte, en high-speed chip-naar-chip verbindingen om jitter te verminderen en voorspelbaarheid van de token-tijd te vergroten. Kortom, het product wordt niet verkocht vanwege zijn flexibiliteit, maar vanwege de stabiliteit en voorspelbaarheid in responstijden wanneer dat cruciaal is voor de gebruikerservaring.

Meer nuttige tokens, niet alleen meer tokens

NVIDIA koppelt deze strategie aan een bredere verschuiving in de economische dynamiek van AI. Hun standpunt is dat naarmate modellen richting 1.000 tokens per seconde per gebruiker gaan, interacties niet meer lijken op een doorzichtige chat, maar meer op een continue samenwerking, waarbij agents redeneren, simuleren, tools raadplegen en in real-time reageren. Deze nieuwe realiteit onderbouwt de introductie van Groq 3 LPX: het openen van een nieuw inferentietype dat niet alleen draait om meer verzoeken te verwerken, maar om ze sneller en consistenter te bedienen.

Om deze heterogenen verwerking mogelijk te maken, ondersteunt NVIDIA het gebruik van Dynamo, hun orkestratiesoftware voor gedistribueerde inference. Dit component fungeert als de laag die verzoeken classifyert, prefill routed naar GPU’s, het uitwisselen van activaties tussen Rubin en LPX coördineert en helpt de latency te controleren bij variabel verkeer. Daarnaast wordt LPX gepresenteerd als zeer geschikt voor spreculative decoding, dat fungeert als een soort draft-motor terwijl de Rubin-GPU’s tokens verifiëren en accepteren met het hoofdmodel.

De meest ambitieuze cijfers uit de aankondiging dienen echter met enige voorzichtigheid gelezen te worden. NVIDIA beweert dat de combinatie Vera Rubin NVL72 + LPX tot 35 keer meer inference-throughput per megawatt kan bieden, en tot 10 keer meer omzetpotentieel voor modellen met ongeveer een biljoen parameters, vooral bij zeer interactieve premiumdiensten. Dit zijn fabricaatsgetallen die het positioneren van het product verduidelijken, maar praktische validatie zal nog moeten uitwijzen hoe goed deze architectuur presteert in echte implementaties.

Wat Groq 3 LPX echter duidelijk maakt, is de strategische koers van NVIDIA. Het bedrijf wil niet dat de volgende AI-infrastructuur enkel wordt gemeten op basis van het aantal tokens dat een rack kan produceren, maar vooral op hoe het throughput, latency en economische waarde per megawatt combineert. In deze context raakt agentgerichte AI niet alleen de modellen, maar ook een nieuwe laag van hardware die speciaal ontworpen is voor interactieve inference.

Veelgestelde vragen

Wat is precies NVIDIA Groq 3 LPX?
Een nieuw rack-scale inference-accelerator dat NVIDIA heeft voorgesteld voor zijn Vera Rubin-platform, gericht op lage-latentie workloads, lange contexten en agent-achtige systemen.

Welke rol speelt het ten opzichte van Vera Rubin NVL72?
NVIDIA ziet het als een aanvulling. Rubin blijft het werk voor training, prefill, decode attention en algemene serving uitvoeren, terwijl LPX de meest latency-gevoelige onderdelen zoals FFN en MoE versnelt.

Welke specificaties heeft NVIDIA aangekondigd voor LPX?
De fabrikant spreekt over 256 LPUs per rack, 315 PFLOPS FP8, 128 GB SRAM totaal, 40 PB/s SRAM-bredeband en 640 TB/s schaalbare bandbreedte.

Waarom is deze lancering belangrijk voor agentgerichte AI?
Omdat agentgerichte AI snellere reacties, stabielere latency en beter gedrag in inferentie-loops, tools en reasoning vereist. NVIDIA positioneert LPX op dat cruciale marktsegment.

vía: Presentatie Nvidia Groq3

X (Twitter) Facebook LinkedIn Email WhatsApp