De agentische AI staat haar grote barrière al: de prijs van de tokens - Cloud News

X (Twitter) Facebook LinkedIn Email WhatsApp

Artificial Intelligence belooft overvloed, productiviteit en massale toegang tot capaciteiten die vroeger voorbehouden waren aan grote laboratoria. Even leek die verhalenlijn te werken: schrijftools, programmeerassistents, zakelijke copilots en eerste autonome agents verschenen op de markt tegen betaalbare prijzen, met gratis proefperiodes of abonnementen die veel leken op traditionele SaaS-software.

Dat hoofdstuk loopt ten einde. Generatieve AI gedraagt zich niet als een conventionele applicatie. Elke vraag, elk gelezen document, elk tussenredenering, elk lang antwoord en elke actie van een agent verbruikt tokens. En wanneer die agents niet langer demo’s zijn, maar vaste workflows worden, verandert de kostenstructuur aanzienlijk.

Het probleem is niet alleen dat de modellen duur zijn. Het probleem is dat de agent-gestuurde AI op een andere manier verbruikt. Een assistent beantwoordt een vraag. Een agent plant, leest, schrijft, controleert, probeert het opnieuw, roept externe tools op en kan minuten of uren werken aan een taak. Bij elke stap accumuleren inputtokens, outputtokens, context, cache en soms intern redeneringsproces. De economie wordt niet meer per gebruiker gemeten, maar per daadwerkelijke inferentievolume.

Het einde van de comfortabele flat fee

De meest duidelijke indicatie van deze verandering komt van de platforms zelf. GitHub kondigde aan dat alle plannen voor Copilot vanaf 1 juni 2026 overgaan op een factureringssysteem op basis van gebruik, via GitHub AI Credits. Het bedrijf behoudt abonnementen, maar het verbruik wordt berekend op basis van gebruik van input-, output- en cachetokens, afhankelijk van het gebruikte model. Dit is belangrijk omdat Copilot niet meer slechts een hulp binnen de code-editor is, maar zich ontwikkelt tot een platform met steeds agent-achtiger workflows en lange sessies over volledige repositories.

Microsoft geeft ook een glimp van de richting waarin de markt beweegt. The Verge meldde dat het bedrijf van plan is om veel interne licenties voor Claude Code te beëindigen en veel ontwikkelaars te migreren naar GitHub Copilot CLI. Het mag niet eenvoudig worden opgevat als een afwijzing van Anthropic. Microsoft blijft derdepartijmodellen integreren in haar producten. Maar het toont wel dat zelfs een van de grootste techbedrijven de toegang tot AI-tools gaat racionaliseren zodra het verbruik toeneemt.

Uber is nog een waarschuwing. Forbes berichtte dat het bedrijf zijn AI-budget voor 2026 in slechts vier maanden had uitgeput door intensief gebruik van Claude Code. Hoewel dit soort cijfers uit interne bronnen komen en met voorzichtigheid moeten worden geïnterpreteerd, sluiten ze aan bij wat veel bedrijven al constateren: de budgetten voor pilots zijn niet meer toereikend wanneer teams de AI dagelijks gaan gebruiken en agents over echte taken laten werken.

De paradox is glashelder: hoe nuttiger AI wordt, hoe meer het wordt gebruikt. En hoe meer het wordt gebruikt, des te moeilijker het wordt om een onbeperkte flat fee vol te houden. Overvloed verdwijnt niet, maar krijgt wel voorwaarden.

Vergelijkende tabel: prijzen per 1 miljoen tokens

De onderstaande prijzen zijn indicatief en kunnen variëren afhankelijk van de datum waarop dit artikel wordt gelezen, regio, uitvoeringswijze, contextgrootte, cachegebruik, batchverwerking, prioriteit, enterprise-kortingen of commerciële wijzigingen van de provider. Niet alle modellen zijn kwalitatief, snel, compliant, supportwaardig of beschikbaar in gelijke mate.

Regio	Bedrijf	Referentiemodel	Ingangs- per 1M tokens	Uitgangs- per 1M tokens	Lezen voor agent-gebruik
VS	OpenAI	GPT-5.5	5,00 $	30,00 $	Zeer kostbaar bij tekstgeneratie-intensieve taken
VS	Anthropic	Claude Opus 4.7	5,00 $	25,00 $	Hoge uitgaves aan output, maar mogelijk met cache- of batchbesparingen
VS	Google	Gemini 3.5 Flash High	1,50 $	9,00 $	Competitief, maar redeneringsmodus verhoogt kosten
VS	xAI	Grok 4	1,25 $	2,50 $	Agressief geprijsd in vergelijking met andere Amerikaanse modellen
China	DeepSeek	DeepSeek V4 Pro	0,435 $	0,87 $	Zeer lage kosten voor massale flows en agents
China	Alibaba/Qwen	Qwen-Max	2,50 $	7,50 $	Gemiddelde kosten met eigen cloud-ecosysteem
China	Z.ai/Zhipu	GLM-5.1	1,40 $	4,40 $	Volledig alternatief voor redenering en codegeneratie
China	Baidu	ERNIE 4.5	≈0,59 $	≈2,35 $	Geschatte prijzen omgezet uit yuan
China	MiniMax	MiniMax M2.7	0,30 $	1,20 $	Zeer aantrekkelijk voor multi-agent systemen met hoog volume

De verschillen tussen Amerikaanse en Chinese modellen zijn aanzienlijk. Bij workflows waar een agent veel tekst produceert, code controleert, documentatie genereert of meerdere redeneringsrondes doorloopt, weegt de outputkosten veel zwaarder dan die van input. Daar kan het onderscheid tussen 25-30 dollar per miljoen tokens en minder dan 2 dollar per miljoen tokens het economische levensvatbaarheid van een project volledig veranderen.

Echter, prijs is niet alles. Het kiezen voor een goedkoop Chinees model kan vragen oproepen over latentie, datalocatie, naleving, ondersteuning, integratie, beveiliging en geopolitieke afhankelijkheid. Voor een startup of technisch lab kan het kostenargument dominant zijn. Voor gereguleerde bedrijven is dat niet altijd het geval.

De nieuwe economische ongelijkheid in AI

De discussie over AI richt zich vaak op mogelijkheden: welk model redeneert beter, welk programma is beter, welk model presteert beter op benchmarks of heeft meer context. Maar de werkelijke adoptie in bedrijven hangt steeds meer af van één minder briljante vraag: hoeveel kost het om het dagelijks te gebruiken.

Een extreme casus illustreert dat. Tom’s Hardware meldde dat Peter Steinberger, bedenker van OpenClaw en medewerker bij OpenAI, meer dan 1,3 miljoen dollar aan tokens heeft verbruikt in 30 dagen, met 603 miljard tokens en 7,6 miljoen verzoeken afkomstig van zo’n 100 Codex-instanties. Hoewel dit niet representatief is voor een gemiddeld bedrijf, toont het wat er gebeurt wanneer limieten verdwijnen en agents continu werken.

Salesforce wijst in dezelfde richting. Marc Benioff verklaarde dat het bedrijf dit jaar ongeveer 300 miljoen dollar aan Anthropic tokens kan uitgeven, vooral voor programmeer- en automatiseringsagents. Deze som betekent niet dat de investering irrationeel is; het kan gerechtvaardigd zijn als de productiviteitswinst groter is. Maar het bevestigt dat agent-gestuurde AI geen kleinere software-uitgave meer is, maar een strategische infrastructuur.

Voor grote technologiebedrijven, banken, farmaceutische bedrijven of consultants zijn deze kosten op te brengen als de return duidelijk is. Voor universiteiten, kleine media, onafhankelijke ontwikkelaars, MKB en onderzoeksploegen zonder grote budgetten, ligt de situatie anders. Als toegang tot geavanceerde modellen en persistente agentschapkosten wordt beperkt door maandelijkse facturen van vijf of zes cijfers, zal AI niet alle verschillen verkleinen. Sommige vergroten ze zelfs.

De belofte van technologische overvloed staat dus tegenover een fysieke realiteit: GPU’s, datacenters, energie, geheugen, netwerken en gespecialiseerd talent. Intelligentie lijkt software, maar wordt uitgevoerd op zeer dure infrastructuur.

De oplossing ligt niet altijd in het altijd gebruiken van het goedkoopste model

Het antwoord ligt niet zomaar in het vervangen van een Amerikaans model door een goedkopere Chinese variant. De volgende fase in bedrijfs-AI vraagt om architectuur. Organisaties zullen moeten bepalen welke taken het verdienen om met state-of-the-art modellen aangepakt te worden, welke met kleinere modellen kunnen, wat lokaal uitgevoerd kan worden, wanneer cachegebruik zinvol is, hoe persistente agents beperkt kunnen blijven en hoe kosten per zakelijke uitkomst kunnen worden gemeten, niet alleen per token.

Hiermee opent zich een discipline die steeds belangrijker wordt: FinOps voor AI. Net zoals cloudbeheer organisaties dwong om machines, opslag en verkeer te controleren, moet AI nu tokens, context, cache, toolaanroepen en gebruik door teams monitoren. Zonder die inzichtelijkheid riskeert adoptie succesvol te lijken tot de rekening komt.

AI is niet op een mislukking af gekeerd omdat het duurder wordt. Het maakt juist een volwassen fase door. De eerste subsidies, royale testen en flat fees hebben geholpen om gewoontes te vormen en de markt te versnellen. Nu volgt het minst comfortabele deel: aantonen welke taken waardestromen opleveren die de werkelijke kosten rechtvaardigen.

De agentsfeer wordt niet alleen gekenmerkt door wie het slimste model heeft, maar ook door wie het zich kan veroorloven om die continu te blijven voeden en beheren.

Veelgestelde vragen

Waarom zijn AI-agents duurder dan een chatbot?
Omdat ze in meerdere stappen werken: toetsen van context, plannen maken, tools raadplegen, acties uitvoeren, resultaten herzien en het proces herhalen. Elke stap kost tokens.

Kunnen de tokenprijzen veranderen?
Ja. Ze kunnen variëren afhankelijk van de datum, regio, provider, modeltype, contextgrootte, cachegebruik, batchverwerking, prioriteit of afspraken met grote ondernemingen.

Zijn Chinese modellen altijd prijswaardig ten opzichte van Amerikaanse?
Niet noodzakelijk. Ze kunnen veel goedkoper zijn, maar privacy, compliance, support, latency, beschikbaarheid, datavereisten en geopolitieke afhankelijkheid spelen mee. Elke organisatie moet dat afwegen.

Wat moeten bedrijven doen om kosten onder controle te houden?
Gebruik maken van kostenmeting per use case, limieten stellen, modellen kiezen die passen bij de taak, antwoorden cachen, oncontroleerbare agents vermijden en kosten per resultaat berekenen, niet alleen per token.

X (Twitter) Facebook LinkedIn Email WhatsApp