De race om de computing voor Kunstmatige Intelligentie (AI) betaalbaar te maken en omhoog te schalen, dwingen grote cloudproviders —samen met hun ecosysteem van partners— een nieuwe fase af: meer racks met op maat gemaakte accelerators (ASICs) en minder afhankelijkheid van standaardhardware. De duidelijke boodschap is: wanneer de volumes voor inferentie toenemen, wordt efficiëntie per euro en watt cruciaal; en daarom worden gespecialiseerde ontwerpen (TPU’s, interne chips, aangepaste accelerators) aantrekkelijker dan algemene oplossingen.
In dit kader wijzen diverse sectorbronnen op een sterke stijging van de verzendingen van ASICs voor de cloud in 2026. Broadcom neemt grote productieprojecten op zich in samenwerking met meerdere cloud service providers (CSP’s), terwijl gelijktijdig Taiwanese ontwerp- en backendbedrijven zoals MediaTek, Alchip en GUC nieuwe volumes aan productielijnen toevoegen. Het doel: de snelle inzet van “ASIC-first” racks versnellen zonder te wachten op de langere doorlooptijden van traditioneel hardware-ontwikkelproces.
De keerpunt: de focus verschuift van training naar inferentie (en agenten)
De fundamentele verandering is niet enkel technologisch, maar ook economisch. TrendForce meldt dat, na een fase waarin grote modellen werden getraind met GPU-servers en HBM, vanaf de tweede helft van 2025 de markt zich richt op inferentiediensten (denk aan Copilot, Gemini en toepassingen gebaseerd op LLaMA), waarbij AI-agenten een steeds grotere rol in de omzetgeneratie spelen. Deze overgang betekent dat de vraag niet langer alleen op “zuivere” AI-racks gericht is: ook de vraag naar algemene servers die pre- en post-inferentie- en opslagtaken uitvoeren, neemt toe.
Tegelijkertijd groeit de kapitaaluitgave. TrendForce verwacht dat het gecombineerde capex van de vijf grote Amerikaanse CSP’s (Google, AWS, Meta, Microsoft en Oracle) in 2026 met 40% op jaarbasis zal toenemen, deels door uitbreiding van infrastructuur en deels door vervanging van servers uit de periode 2019–2021, toen er een enorme vraag was.
ASIC-marktaandeel bereikt recent hoogste punt, maar de bottleneck ligt elders
Het meest inzichtgevende detail is de verdeling van verzonden apparaten: TrendForce voorspelt dat AI-servers gebaseerd op ASICs in 2026 goed zullen zijn voor 27,8% van het totale aantal units, het hoogste percentage sinds 2023. GPU-systemen blijven echter dominant met een aandeel van 69,7%.
Binnen ASIC’s is Google het meest vergevorderd: TrendForce benadrukt dat Google’s inzet op eigen ASIC’s sterker is dan bij vele concurrenten. De TPU’s (die de Google Cloud Platform aandrijven) worden ook buiten Google gebruikt, onder andere door externe klanten zoals Anthropic.
Tot zover lijkt de vraag gericht. Het grote risico —en de operationele uitdaging voor 2026— ligt aan de aanbodzijde: geheugen.
Waarom geheugen de beperkende factor is geworden
In de huidige AI-racks is de rekenkracht slechts werkelijk effectief als het systeem data kan aanvoeren met voldoende bandbreedte en lage latentie. Hierdoor neemt het geheugen een centrale rol in:
- High-performance DRAM (vooral HBM op GPU-platforms) voor het verplaatsen van parameters en activaties.
- Enterprise SSD’s voor datastromen, caches en vectoropslag (RAG), met meer willekeurige en veeleisende toegangspatronen.
TrendForce voorziet dat de blijvende vraag naar AI-servers en bedrijfsopslag de geheugenmarkt tot 2027 zal blijven stimuleren, met jaarlijkse groei van meer dan 50%. Het verwachte piekjaar bedraagt een omzet van circa 842,7 miljard dollar, na een recordjaar 2026 (ruim 551,6 miljard dollar). (Bron: TrendForce, januari 2026, sectoranalyse DRAM/NAND)
Hier ligt de belangrijke waarschuwing voor de ASIC-sector: hoewel het volume van projecten en de bereidheid om racks uit te rollen duidelijk zijn toegenomen sinds vorig jaar, wordt de capaciteit en planning voor geheugen voor 2026 steeds onzekerder. Met andere woorden: je kunt de ASIC, het bord en de connectiviteit klaar hebben, maar zonder voldoende geheugen — of het juiste schema daarvoor — vertraagt de productie op dat moment.
Wat betekent dit voor 2026: meer op maat ontworpen oplossingen en grotere lange-termijncontracten
Met geheugen als strategisch scheppingsmiddel passen CSP’s en integrators hun aanpak aan op twee belangrijke manieren:
- Samenwerking op lange termijn: multiyear-contracten voor 2027–2028 en capaciteitsovereenkomsten die korte-termijnvolatiliteit opvangen.
- Architectuuroptimalisatie: ontwerpen die de geheugenbehoefte beperken zonder in te leveren op SLA’s (bijvoorbeeld door hiërarchieën in cache, compressie, batching tijdens inferentie, optimalisatie van RAG, en aanpassingen in prompting en contextbeheer).
Voor de leveranciers betekent dit een dubbele ontwikkeling. Enerzijds zien ASIC-ontwikkelaars en hun partners (EDA, verpakking, substraten, validatie) een duidelijke groeivolutie. Anderzijds wordt geheugen en opslag de “tol” die bepaalt wie het eerst uitrolt en wie wacht op schaarse bronnen.
Tabel 1 — De waardeketen van een AI-rack met ASIC (wie wint of verliest de snelheid)
| Systeemlaag | Wat levert het | Meest voorkomende risico’s in 2026 | Hoe te mitigeren |
|---|---|---|---|
| ASIC (accelerator) | Geoptimaliseerde kosten/rendement voor specifieke workloads | Snelheidsopbouw en “time-to-yield” | Geco-design met CSP, korte iteraties, voorafgaande validatie |
| CPU/host | Orkestratie, pre/post-inferentie | Saturatie door toename inferentie | Vervanging van hardware, load balancing, offload |
| Geheugen (DRAM/HBM) | Bandbreedte en latency | Onvoldoende toewijzing of hoge kosten | Contracten, prioriteitstelling, herontwerp profielen |
| Opslag (SSD) | Datasets, vectoren, caches | IOPS en beschikbaarheid | JBOF/JBOD, lagenstructuur, tiering |
| Netwerk (Ethernet/InfiniBand) | Schaalbaarheid en east-west-verkeer | Knelpunten door inferentieverkeer | Specifieke topologieën, 400G/800G, verkeersbeheer |
Tabel 2 — Executive summary: waarom het “geheugenrisico” zelfs bij gereed ASIC belangrijk blijft
| Signaal | Wat zegt het | Directe impact |
|---|---|---|
| Toename in ASIC-aankopen | De vraag is al besloten | Meer druk op geavanceerde nodes en backend |
| Uitrol vertraagt “zonder vraagredden” | Het probleem ligt in aanbod | Geheugen bepaalt daadwerkelijke planning |
| Contracten voor 2027–2028 | Opname van tekorten op korte termijn | Latere compensatie, maar vertraging in 2026 |
Veelgestelde vragen
Wat is een cloud-ASIC en waarom versnelt de adoptie ervan in 2026?
Een cloud-ASIC is een op maat gemaakte accelerator ontworpen voor specifieke workloads (bijvoorbeeld inferentie van modellen), meestal door een CSP ontwikkeld om kosten, energieverbruik en prestaties te optimaliseren in vergelijking met algemene hardware. De groei van inferentie en AI-agenten maakt deze efficiëntie des te waardevoller.
Hoe groot kan het aandeel van AI-servers op basis van ASIC in 2026 worden?
TrendForce voorspelt dat dergelijke ASIC-gebaseerde AI-servers in 2026 goed zullen zijn voor ongeveer 27,8% van de shipments, wat een recent maximum is, al blijven GPU’s de markt domineren.
Waarom wordt geheugen (DRAM/HBM en enterprise SSD’s) als het grote risico voor implementatie beschouwd?
Omdat moderne AI intensief is qua bandbreedte en datatoegang. Als het geheugen niet in voldoende volume en op tijd beschikbaar is, levert het rack niet de verwachte prestaties en vertraagt het de uitrol, zelfs als de accelerator al is gevalideerd.
Welke gevolgen kan dit hebben voor prijzen en beschikbaarheid van AI-diensten in de cloud?
Als de beschikbaarheid van geheugen en opslag onder druk komt te staan, kan de effectieve kostprijs per token of query langer duren om te dalen. Tegelijkertijd zullen CSP’s prioriteren op workloads met duidelijk rendement en de governance van gebruik aanscherpen (quota, throttling, serviceniveaus).
Bron: Jukan op X
