OpenAI versterkt zijn inzet voor inferentie: NVIDIA bereidt een chip met Groq-technologie voor en het bedrijf zou 3 GW capaciteit reserveren

De AI-wereld is niet langer alleen afhankelijk van het trainen van enorme modellen. De focus is verschoven naar een minder zichtbaar, maar voor het bedrijf essentieel terrein: de inferentie, oftewel het vermogen om miljoenen vragen in realtime te beantwoorden met lage latentie en beheersbare kosten. In dit kader wijzen verschillende recente rapporten op een grote beweging: NVIDIA bereidt een nieuwe inference-processor voor die ontwerp- en technologiekenmerken van Groq integreert en die zal worden geïntroduceerd op de GTC 2026. Tegelijkertijd heeft OpenAI al aangekondigd dat zij 3 GW dedicated capaciteit voor inferentie heeft verzekerd bij NVIDIA, wat hen onder de belangrijkste klanten van dit nieuwe platform plaatst.

Het nieuws komt enkele dagen nadat OpenAI een financieringsronde van 110 miljard dollar wetenschappelijk bevestigde, waardoor haar waardering op 730 miljard “pre-money” en 840 miljard “post-money” uitkomt, met Amazon, SoftBank en NVIDIA als voornaamste financiers. Het onderliggende signaal is duidelijk: geld koopt niet alleen groei, maar ook kracht, racks, chips en prioriteit in de wachtrij.

Van modeltraining naar antwoorddiensten: waarom inferentie de bottleneck is geworden

In 2026 blijft training nog steeds duur, maar inferentie is uitgegroeid tot een constante en massale kost. Een ChatGPT-achtige assistent stopt niet: hij verwerkt pieken, ondersteunt zakelijke implementaties, integreert agents en automatiseringen, en concurreert in een markt waar de gebruiker enkele seconden geduld heeft.

Daarom proberen fabrikanten het “chip voor training” los te koppelen van het “chip voor dienstverlening”. Volgens de Wall Street Journal ontwerpt NVIDIA een nieuwe inferentiesysteem dat mogelijk een ‘reset’ brengt in de hardware-oorlog voor AI, door zich te richten op sneller en efficiënter beantwoorden van vragen. Een probleem dat vooral relevant is bij toepassingen zoals programmeren of agents die andere tools aanroepen. Reuters meldt dat OpenAI ontevreden zou zijn over de prestaties van NVIDIA’s huidige inferentie-aanbod voor bepaalde scenario’s, en dat ze in de afgelopen maanden alternatieven onderzoeken.

De rol van Groq: licenties, technologie en een ‘fit’ met NVIDIA

Groq staat bekend om haar focus op inferentie met lage latentie. Eind 2025 kondigde Groq een niet-exclusieve licentie-overeenkomst met NVIDIA aan voor hun inferentie-technologie, en bevestigde dat delen van haar team — waaronder oprichter Jonathan Ross en president Sunny Madra — zich bij NVIDIA zouden voegen om die technologie te integreren en opschalen. Reuters beschreef de overeenkomst als een grootschalige operatie (met geschatte bedragen door CNBC) die was opgebouwd uit licenties en talentaankopen, waarbij Groq als zelfstandige entiteit haar bedrijf voortzet.

Dit past bij de geruchten over GTC 2026: de nieuwe inferentieplatform van NVIDIA zou een chip bevatten die door Groq is ontworpen of gebaseerd op hun technologie. Het gaat niet om het vervangen van de GPU’s voor training (waar NVIDIA nog altijd domineert), maar om een meer efficiënte aanpak voor het ‘dagelijkse’ gebruik van modellen in productie.

OpenAI, 3 GW dedicated inferentie en een markt-signaal

OpenAI is niet publiekelijk ingegaan op welke hardware precies de 3 GW toegewezen inferentiecapaciteit zal vormen, maar het getal staat vermeld in hun eigen financieringsaankondiging, naast 2 GW trainingscapaciteit op de Vera Rubin-systemen. De rapportages van WSJ en Reuters verbinden de punten: de nieuwe inferentiechip die NVIDIA in GTC 2026 zou presenteren, lijkt bedoeld om aan die behoefte te voldoen.

In de praktijk is 3 GW geen ‘grote bestelling’; het is een strategische beslissing. Het wijst op infrastructuur op landelijk niveau, niet op een laboratorium. Bovendien onderstreept het een verandering in prioriteiten binnen OpenAI: terwijl training het plafond voor modelontwikkeling vormt, gaat inferentie over de zakelijke toepassing, gebruikerservaring en energiekosten.

Reuters voegt daar een belangrijk detail aan toe: het doel van OpenAI is niet hun volledige hardwarepark te vervangen, maar een deel van hun inferentiebehoeften efficiënter te maken met geschiktere hardware. Dit suggereert meer een hybride architectuur (verschillende platforms voor verschillende taken) dan een ‘alles NVIDIA’ of ‘alles alternatief’ aanpak.

De rol van AWS: 2 GW Trainium en 100 miljard dollar in 8 jaar

De beweging van OpenAI staat niet op zichzelf. In hun strategisch akkoord met Amazon verplichten ze zich tot het verbruiken van ongeveer 2 GW aan Trainium-capaciteit, en verlengen ze een bestaand pact met AWS tot 100 miljard dollar over 8 jaar. Bovendien wordt AWS de distributeur voor derden voor Frontier (een platform met agents ontwikkeld door OpenAI), terwijl OpenAI benadrukt dat Azure de exclusieve huisbasis blijft voor hun ‘stateless’ API’s en dat de relatie met Microsoft onveranderd blijft.

De kern is duidelijk: OpenAI koopt flexibiliteit. Ze spreiden leveranciers, verkleinen afhankelijkheid van één stack en proberen vooral capaciteit veilig te stellen in een markt waar vraag de aanbod overschrijdt.

De era van mega-investeringen: OpenAI staat niet alleen

Voor een beeld van 2026 volstaat het om naar de markt te kijken. Investeringen in AI zijn een parallelle competitie geworden: wie de beste modellen heeft, wint, maar ook wie de infrastructuur kan betalen.

BedrijfRondeBedragAangekondigde waardering
OpenAIfeb 2026110 miljard dollar730 miljard pre-money / 840 miljard post-money
Anthropicfeb 202630 miljard dollar380 miljard post-money
xAIjan 202620 miljard dollar(niet vermeld in aankondiging)
Mistral AIsep 20251,7 miljard euro11,7 miljard euro post-money
Cohereaug 2025500 miljoen dollar6,8 miljard dollar

Het patroon dat al deze cijfers verbindt, is hetzelfde: kapitaal wordt niet meer alleen aangetrokken voor talent of ‘gebruikersgroei’, maar vooral om de structurele kosten van moderne AI te financieren: rekenkracht, energie en wereldwijde deployment.

Wat te verwachten van GTC 2026 en waarom het belangrijk is

Hoewel er nog geen officiële specificaties volledig bevestigd zijn, zou de presentatie van een inferentieproduct met Groq-technologie door NVIDIA op haar belangrijkste evenement een krachtige boodschap zijn richting de markt: de toekomst omvat niet alleen meer GPU’s voor training, maar specialisatie voor het bedienen van modellen, het verkleinen van latenties en het verbeteren van efficiëntie per vraag.

Voor OpenAI zou dit de consolidatie van een multi-infrastructuurstrategie betekenen, waarmee elk ‘gigavatio’ wordt toegewezen aan een bepaald soort taak: frontier training, consumptie-inference, zakelijke inferentie en agents. Voor de rest van de sector is het een bevestiging dat de echte strijd zich in productie afspeelt, waar AI rendabel, snel en stabiel moet zijn.


Veelgestelde vragen

Wat betekent “3 GW beschikbare capaciteit voor inferentie” bij OpenAI?
Het betekent het reserveren van energie- en rekeninfrastructuur op grote schaal om modellen in productie uit te voeren en vragen realtime te beantwoorden.

Hoe verhouden NVIDIA en Groq zich tot elkaar in deze nieuwe fase van inference chips?
Groq kondigde een technologie-lisentie aan met NVIDIA en dat een deel van hun team overgaat naar NVIDIA; rapporten suggereren dat NVIDIA die technologie zal integreren in een nieuwe inferentiegerichte platform.

Waarom ligt de focus van OpenAI zo op inferentie en niet alleen op het trainen van modellen?
Omdat de kosten en de gebruikerservaring sterk afhankelijk zijn van het leveren van snelle antwoorden; inferentie is de grote operationele bottleneck geworden.

Hoe past AWS in de infrastructuurstrategie van OpenAI?
OpenAI breidt haar overeenkomst met AWS uit en verbruikt circa 2 GW aan Trainium, terwijl Azure de exclusieve leverancier blijft voor hun ‘stateless’ API’s en de relatie met Microsoft onveranderd blijft.

VIA: wccftech en WSJ

Scroll naar boven