NVIDIA staat voor het debat over de werkelijke kosten van AI vóór Vera Rubin - Cloud News

X (Twitter) Facebook LinkedIn Email WhatsApp

NVIDIA blijft de leidende speler in AI-infrastructuur, maar het debat binnen de markt verandert. De vraag is niet langer alleen of hun GPU’s de krachtigste zijn of dat hun software-ecosysteem nog steeds het meest compleet. Een groeiend gespreksonderwerp onder klanten, analisten en ingenieurs is nu meer ongemakkelijk: wat kost het eigenlijk om AI op grote schaal uit te voeren, wanneer alle chips, energie, koeling, netwerken, integratie, onderhoud en afhankelijkheid van de leverancier worden meegerekend?

Een rapport van Evercore ISI, geciteerd in de oorspronkelijke bron, benadrukt deze spanningsboog. Volgens de analyse overtuigt NVIDIA’s bewering van tot 35 keer lagere Total Cost of Ownership (TCO) niet helemaal de gemiddelde AI-ingenieur. Ook is er een breed gedeelde perceptie dat de brutomarges van het bedrijf, die boven de 70% liggen, te hoog zijn. Dit betekent niet dat NVIDIA haar leidende positie verliest, maar wel dat een deel van de markt op zoek is naar “voldoende goede” alternatieven of eigen ASICs om de economische efficiency van hun implementaties te verbeteren.

De kosten per token worden niet meer alleen in GPU’s gemeten

De centrale belofte van NVIDIA voor haar volgende generatie Vera Rubin is duidelijk: meer prestaties en lagere kosten per token. Volgens de officiële documentatie zal Vera Rubin NVL72 inferentie van AI mogelijk maken tegen slechts een tiende van de kosten per miljoen tokens in vergelijking met Blackwell, en trainen met slechts een kwart van de GPU’s. Dit is een krachtige verbetering op papier, vooral in een markt waarin AI-inferentie steeds meer verzoeken, context en gebruik van tools genereert.

Het probleem is dat grote infrastructuurkopers niet alleen naar de chip kijken. Sommige hyperscalers, volgens Evercore ISI, betwijfelen of de berekeningen over TCO correct rekening houden met het elektriciteitsverbruik rondom de accelerator, inclusief koeling. Dat deel kan tussen de 30% en 50% van de totale operationele kosten uitmaken, volgens het rapport.

Deze nuance verandert de discussie. Een accelerator kan veel efficiënter zijn in berekeningen, maar de totale kosten van een AI-rack hangen ook af van de stroomvoorziening, vloeibare koeling, switches, optica, opslag, datacentercapaciteit, technici, software en ondersteuningscontracten. In een echte AI-fabriek werkt de GPU niet alleen.

Belangrijke maatstaf	Beschikbare gegevens
Brutomarge GAAP NVIDIA in Q4 FY2026	75,0 %
Brutomarge non-GAAP NVIDIA in Q4 FY2026	75,2 %
Omzet NVIDIA in Q4 FY2026	68.127 miljoen dollar
Data Center-omzet in Q4 FY2026	62.314 miljoen dollar
Officiële voordeel door NVIDIA voor Vera Rubin NVL72	1/10 van de kosten per miljoen tokens ten opzichte van Blackwell
Geschatte energie- en koeloverhead volgens Evercore ISI	30-50 %
Verwachte komst Vera Rubin naar hyperscalers	2e kwartaal 2026
Verwacht OEM-toegang voor bedrijven	september-oktober 2026

De marges verklaren een deel van de druk. NVIDIA sloot haar vierde kwartaal van 2026 af met een GAAP-brutomarge van 75,0% en een non-GAAP-marge van 75,2%, terwijl de omzet in dat kwartaal een record van 68,127 miljard dollar bereikte. De data center-activiteiten bereikten in dezelfde periode 62,314 miljard dollar, wat bevestigt hoezeer het bedrijf is uitgegroeid tot de dominante leverancier van AI-infrastructuur.

Waarom ASICs weer relevant worden

De bereidheid om ASICs of ‘voldoende goede’ alternatieven te gebruiken, is niet nieuw, maar wint terrein bij schaalvergroting. Grote cloud-aanbieders, AI-laboratoria en sommige consumentplatforms hebben voldoende volume om aangepaste chips te rechtvaardigen, zolang de besparing de ontwerpinspanningen, integratie en softwarekosten compenseert.

Google gebruikt al jaren zijn TPU’s. Amazon heeft Trainium en Inferentia. Microsoft ontwikkelt Maia. Meta werkt aan eigen versnellers. Het doel is niet om NVIDIA morgen geheel te vervangen, maar afhankelijkheid te verminderen voor specifieke workloads, vooral inferentie, interne modellen, aanbevelingen, ranking, zoeken of taken waar de flexibiliteit van CUDA en het NVIDIA-ecosysteem minder cruciaal is.

NVIDIA behoudt een moeilijk te evenaren voorsprong. Haar GPU’s zijn niet alleen silicium; ze omvatten CUDA, bibliotheken, compilers, netwerken, complete systemen, architecturale referenties, talent en een netwerk van partners dat het risico vermindert voor wie snel wil uitrollen. Maar naarmate de uitgaven in AI toenemen, wordt het steeds belangrijker om elke laag te optimaliseren.

Agent-inferentie versterkt deze druk. AI-agenten geven niet zomaar een enkel antwoord; ze kunnen databases raadplegen, code uitvoeren, sandboxen openen, documenten zoeken, tools aanroepen en taken herhalen totdat de opdracht is voltooid. Daardoor stijgt het tokenverbruik en verdubbelt de werkdruk op CPU, geheugen, netwerk en opslag. Daarom lijkt Vera, NVIDIA’s CPU voor agenten, een belangrijke rol te spelen binnen Vera Rubin: niet alle agentwerk wordt door de GPU afgehandeld.

Evercore ISI wijst ook op dat er geen noemenswaardige problemen worden waargenomen in de voorbereiding van hyperscalers op massaproductie van Rubin. Dit is goed nieuws voor NVIDIA. Als Vera Rubin in het tweede kwartaal van 2026 beschikbaar komt voor grote klanten en vervolgens in september of oktober voor OEMs, kan het bedrijf haar boodschap onderbouwen met hardware in de praktijk en niet alleen in presentaties.

De uitdaging: TCO bewijzen in reële deployment

De sleutel ligt in productie-uitrol. De beloftes over kosten per token zijn handig om de markt te sturen, maar klanten zullen resultaten meten met hun eigen workloads: taalmodellen, interne agenten, beeldherkenning, aanbevelingen, analytics, training, fine-tuning, vector databases en data pipelines.

Daar kunnen grote verschillen ontstaan. Een AI-laboratorium dat grensmodellen traint, hecht veel waarde aan geheugen, connectiviteit en top-prestaties. Een bank die interne agents gebruikt, waardeert waarschijnlijk vooral veiligheid, latency, datagovernance en kostenpredictie. Een hyperscaler zal vooral letten op kosten per token, rackdichtheid, energie-efficiëntie en het vermogen om tienduizenden chips zonder knelpunten te laten werken. Een bedrijfs-OEM moet alles integreren in systemen die verkoopbaar, onderhoudbaar en compatibel met echte datacenters zijn.

NVIDIA probeert te anticiperen door Vera Rubin NVL72 aan te bieden: een complete rack-architectuur die CPU Vera, GPU Rubin, NVLink, netwerk, koeling en modulair design combineert. Hun kracht zit in het aanbieden van een gesloten platform: componenten die samenwerken, minder handmatige integratie vereisen en een software-ecosysteem dat bekend is bij AI-teams.

Maar het succes van NVIDIA brengt ook weerstand teweeg. Als een bedrijf de kritieke infrastructuur van een markt in handen heeft en marges van 70% of meer behaalt, hebben grote klanten een incentive om een tweede bron te zoeken. Dit is niet altijd omdat de alternatieven beter zijn, maar omdat het hebben van opties de onderhandelingspositie versterkt.

Het meest waarschijnlijke resultaat is niet meteen een vervanging van NVIDIA, maar een grotere segmentatie. De zwaarste, meest dynamische en tijdgevoelige workloads blijven bij haar. Herhalende, mature of grootschalige workloads kunnen overgaan op eigen ASIC’s als de besparing duidelijk is. Daartussenin komen ‘voldoende goede’ opties van andere leveranciers, vooral waar energieverbruik en beschikbare stroom kritischer zijn dan puur rekenvermogen.

Voor NVIDIA wordt Vera Rubin een belangrijke test. Als het lukt om echte kostenbesparingen per token te tonen, inclusief energie, koeling en volledige operationele kosten, versterkt dat haar positie voordat ASICs meer markt veroveren. Als de waargenomen voordelen voor klanten lager blijken dan de presentatie van NVIDIA, wordt de discussie over marges, afhankelijkheid en alternatieven iets intensiever.

AI bevindt zich nu in een minder spectaculaire fase, na de grote onthullingen van nieuwe modellen, maar is wel veel bepalender voor de business: de economie van de infrastructuur. De vraag voor kopers wordt dan niet alleen “hoe goed presteert het”, maar “wat kost het om het dagelijks draaiend te houden”.

Veelgestelde vragen

Wat betwist het rapport van Evercore ISI over NVIDIA?
Volgens de bron wijst het rapport erop dat de TCO-voordelen van NVIDIA niet volledig overtuigend zijn voor sommige ingenieurs en klanten, en dat er een perceptie bestaat van te hoge brutomarges.

Wat is Vera Rubin NVL72?
Het is het nieuwe rack-gebouwde platform van NVIDIA voor geavanceerde AI, ontworpen voor training en inferentie, met CPU Vera, GPU Rubin, geheugen, netwerk en geoptimaliseerde interconnectie.

Waarom zoeken hyperscalers zelf ASICs?
Omdat ze voldoende volume hebben om gespecialiseerde chips te rechtvaardigen die kosten kunnen verlagen voor specifieke workloads, vooral bij massale inferentie en repetitieve taken waar maximale flexibiliteit van een GPU minder nodig is.

Is NVIDIA direct in gevaar door deze alternatieven?
Niet per se. NVIDIA behoudt een sterke voorsprong in hardware, software en ecosysteem. Het risico ligt meer in prijsdruk, marges en afhankelijkheid van grote klanten, dan in een snelle vervanging.

X (Twitter) Facebook LinkedIn Email WhatsApp