De inferentie van AI zal met meer dan 90% dalen, maar de totale factuur zal niet zo sterk afnemen - Cloud News

X (Twitter) Facebook LinkedIn Email WhatsApp

De economie van generatieve kunstmatige intelligentie zal in dit decennium ingrijpend veranderen. Volgens een nieuwe voorspelling van Gartner zal in 2030 het uitvoeren van inferentie op een grootschalig taalmodel met 1 biljoen parameters voor AI-leveranciers meer dan 90% minder kosten met zich meebrengen dan in 2025. Het bedrijf voegt eraan toe dat de LLM’s van 2030 tot wel 100 keer efficiënter in kosten kunnen zijn dan de eerste modellen van vergelijkbare omvang die in 2022 ontwikkeld werden. Dit is opmerkelijk, maar kan ook misleidend optimistisch zijn als het zonder verdere context wordt geïnterpreteerd.

Want het nieuws is niet alleen dat de inferentiekosten zullen dalen. Het echte belang ligt ergens anders: de kosten per token zullen dalen, maar het totale consumptievolume aan tokens zal nóg sneller groeien. Dit betekent dat technologiebedrijven, AI-leveranciers en productteams er niet op kunnen vertrouwen dat alleen het verlagen van hardwarekosten of modelprijzen de economische vraagstukken van geavanceerde AI automatisch oplost. Vooral wanneer agentgebaseerde systemen en complexe redeneervloegen op grote schaal in productie worden gebruikt.

Een goedkoop token lost geen slechte architectuur op

Gartner wijt deze toekomstige kostenverlaging aan een combinatie van factoren die voor elke marktobservator vrij te voorzien zijn: verbeteringen in halfgeleiders, efficiëntere infrastructuur, innovaties in modelontwerp, betere chipbenutting, meer gebruik van gespecialiseerd silicium voor inferentie en meer edge-apparaten voor bepaalde toepassingsgevallen. Kortom: er komen betere chips, geoptimaliseerde modellen en efficiëntere platformen die het beschikbare hardwarevermogen beter kunnen benutten.

De consultancy verdeelt zelfs haar scenario’s in twee groepen. Enerzijds de frontier scenario’s, gebaseerd op geavanceerde chips. Anderzijds de legacy blend scenario’s, opgebouwd uit een representatieve mix van beschikbare halfgeleiders. In deze laatste blijven de kosten aanzienlijk hoger dan in de geavanceerde scenario’s, vanwege de lagere rekenkracht. De technische conclusie is helder: de kostenreductie zal niet homogeen verlopen voor de hele markt. Niet alle bedrijven zullen op hetzelfde niveau efficiëntie kunnen draaien, noch gebruiken alle dezelfde hardware.

Dit heeft een duidelijke boodschap voor de technologische media: de toekomst van inferentie hangt niet alleen af van goedkopere modellen, maar vooral van wie de beste infrastructuur controleert. Het gaat erom wie er het eerst toegang krijgt tot gespecialiseerde hardware en wie producten ontwerpt die in staat zijn om meerdere modellen en verschillende niveaus van inzicht op slimme wijze te combineren. De strijd wordt niet enkel op prijs uitgevochten, maar vooral in coördinatie.

Agenten zullen veel meer tokens verbruiken dan chatbots

Hier ligt de belangrijkste nuance van de voorspelling. Gartner waarschuwt dat de lagere kosten per token niet volledig zullen worden doorgegeven aan zakelijke klanten. Bovendien zal de “frontier intelligence” veel meer tokens vereisen dan de huidige toepassingen. Volgens Gartner kunnen agentgebaseerde systemen tussen de 5 en 30 keer meer tokens per taak nodig hebben dan een standaard generatieve chatbot.

Die verschillen zijn niet onbelangrijk. Een typische chatbot krijgt een vraag, verwerkt een beperkt context en geeft een antwoord. Een agent daarentegen kan een probleem ontleden, documenten doorpluizen, tools raadplegen, API’s aanroepen, tussenresultaten genereren, paden corrigeren, resultaten valideren en meerdere stappen uitvoeren voordat de taak is afgerond. Alles bij elkaar verhogen deze werkwijzen het aantal verbruikte tokens, zowel in DNA-invoer als in uitvoer. En met modellen die beter kunnen redeneren, wordt de verbruikscijfers nog verder opgedreven.

Daarom waarschuwt Gartner dat productverantwoordelijken niet moeten denken dat de daling van de tokenprijzen automatisch leidt tot democratisering van geavanceerd redeneren. Met andere woorden: het goedkoper maken van de basistokens betekent niet dat de meer geavanceerde AI ineens een triviaal of gratis hulpmiddel wordt. De systemen en hardware die nodig zijn voor hoogstaand redeneervermogen blijven schaars en kostbaar, vooral in de toepassingen waar het echt om draait.

Goedkoop blijft eenvoudig; duur blijft innovatief

De kernboodschap is dat de markt zich in zeer duidelijke segmenten zal verdelen. De eenvoudigere, repetitieve en grootschalige AI-toepassingen zullen een soort goedkope, basisvoorziening worden. Hier passen routinetaken, gestructureerde workflows en algemeen inzetbare assistenten met lage complexiteit. Maar de dure inferentie, gebaseerd op frontier-modellen, zal voorbehouden blijven aan scenario’s waarin het hogere redeneringsvermogen echt waarde toevoegt: zeer waardevolle automatisering, complexe agentsoftware, wetenschap, engineering, kritisch zakelijk inzicht of premium producten met hoge marges.

Gartner uit dit in termen van platforms: de waarde zal geconcentreerd zijn bij degenen die in staat zijn om werk-beladingen te orchestreren over een divers portfolio van modellen. Routinetaken kunnen beter afgedaan worden door kleinere of domeinspecifieke modellen die, in bepaalde processen, beter presteren dan grote generieke modellen voor een fractie van de kosten. Tegelijkertijd moeten dure, frontier-inferentie modellen volledig onder controle blijven en gereserveerd voor complexe redeneerprocessen en toepassingen waar het verschil echt makend is.

Technisch betekent dit dat concurrentievoordeel niet alleen ligt in het toegang hebben tot het beste model, maar in het ontwerpen van een architectuur die beslist welk model wanneer en voor welke context wordt ingezet. Prompt-optimisatie, contextbeheer, geheugencompressie, model-routing en kostenmanagement worden essentiële onderdelen van productontwerp, niet slechts operationele details.

De grote implicaties voor 2030

Gartner’s voorspelling betekent niet dat AI goedkoop wordt in absolute zin. Het betekent een veel efficiënter ecosysteem, waarin het reële gebruik intensiever, complexer en meer afhankelijk van systeemengineering zal zijn. Dit raakt hyperscalers, modelleveranciers, chip fabrikanten, infrastructuur startups en ontwikkelaars van agentgebaseerde toepassingen.

Voor de tech-sector is de duidelijke les dat de komende grote strijd niet alleen gaat over het trainen van het krachtigste model, maar over het economisch houdbaar maken van grootschalig gebruik. En in die race zijn hardware, inference-software, deployment-topologie, modelspesialisatie en architecturale discipline allemaal cruciaal. Tokens worden goedkoper, dat klopt. Maar de toekomst beloont niet degenen die het meest uitgeven, maar degenen die het beste beheer hebben over die nieuwe, relatief overvloedige middelen.

Veelgestelde vragen

Wat zegt Gartner precies over de inferentiekosten in 2030?
Gartner voorspelt dat het uitvoeren van inferentie op een LLM met 1 biljoen parameters in 2030 voor AI-leveranciers meer dan 90% goedkoper zal zijn dan in 2025.

Waarom zal dat kostenplaatje zo sterk dalen?
Omdat er verbeteringen komen in chips, infrastructuur, modelontwerp, hardwaregebruik, inzet van gespecialiseerd silicium voor inferentie en meer verwerking aan de edge.

Wordt AI dan veel betaalbaarder voor bedrijven?
Niet per se. Gartner wijst erop dat de kostenreductie per token niet volledig wordt doorgegeven aan klanten en dat agentgebaseerde systemen veel meer tokens per taak zullen gebruiken.

Hoeveel meer tokens kunnen agenten gebruiken vergeleken met een chatbot?
Volgens Gartner tussen de 5 en 30 keer meer tokens per taak dan een standaard generatieve chatbot.

Bron: De AI wordt goedkoper

X (Twitter) Facebook LinkedIn Email WhatsApp