Cerebras versus NVIDIA: waarom een gigantische chip kan winnen bij inferentie

Cerebras stelt opnieuw een lastige vraag aan de AI-industrie: is het probleem niet het hebben van meer GPU’s, maar het te veel vertrouwen op een architectuur die oorspronkelijk ontworpen is voor andere soorten belasting? Andrew Feldman, medeoprichter en CEO van Cerebras, verdedigt al geruime tijd die these: inferentie van grote taalmodellen wijkt af van grafische rendering of traditionele grootschalige training. Het is vooral een geheugenprobleem.

De uitleg is eenvoudig, maar de implicaties zijn enorm. Om elk token te genereren, moet een taalmodel gewichten verplaatsen van het geheugen naar de rekeneenheden. Als die stroom vastloopt, kan de processor veel rekenkracht hebben en toch wachten op data. In dat scenario hangt de snelheid niet alleen af van de FLOPS, maar ook van waar het geheugen zich bevindt, hoe ver de data moeten reizen, en hoeveel bandbreedte het systeem daadwerkelijk ondersteunt.

Cerebras wil geen veel GPU’s: ze willen één enkele wafer

De aanpak van Cerebras is radicaal omdat het uitgangspunt verandert. Terwijl de traditionele industrie een silicium wafer in honderden kleine chips snijdt, gebruikt Cerebras bijna de hele wafer als één enkel processor. De WSE-3 meet 46.225 mm², bevat 4 biljoen transistoren, 900.000 geoptimaliseerde AI-kernen en levert volgens de documentatie van het bedrijf 125 petaFLOPS AI-berekeningen.

Het belangrijkste zit niet alleen in de grootte, maar vooral in het geheugen. De WSE-3 heeft 44 GB SRAM op de chip zelf en belooft 21 PB/s aan geheugenbandbreedte. Dit is moeilijk te vergelijken met een conventionele GPU, omdat de architectuur heel anders is, maar het benadrukt de kernidee: geheugen en berekening zo dicht mogelijk bij elkaar brengen om data-movement te minimaliseren. De technische specificaties vermelden dat het systeem maximaal 27 kW verbruikt en dat er klusters met vloeistofkoeling worden ingezet voor grootschalige inferentie-implementaties.

KenmerkCerebras WSE-3 / CS-3NVIDIA H100 / DGX B200
FocusWafer-schaal, één enorme chipDiscrete GPU’s in multi-GPU systemen
Transistoren4 biljoenH100 en B200 gebruiken veel kleinere losse chips
Principal geheugen dicht bij de berekening44 GB SRAM op de chipExtern HBM in de behuizing
Geheugenbandbreedte21 PB/s binnen SRAMH100 SXM: 3,35 TB/s; DGX B200: 64 TB/s met HBM3e
Belangrijkste complexiteitGrote defect-tolerante chip producerenVeel GPU’s, HBM, NVLink, NVSwitch coördineren
Belangrijkste voordeelLage latency bij specifieke inferentieEcosysteem, beschikbaarheid, software en brede prestaties

Vergelijkingen met NVIDIA moeten voorzichtig worden gemaakt. De H100 is niet gelijk aan Blackwell, en een DGX B200-systeem met acht GPU’s biedt een totale HBM3e-bandbreedte van 64 TB/s volgens NVIDIA. Maar de architectuurverschil is duidelijk: Cerebras concentreert berekening en SRAM binnen één wafer; NVIDIA schaalt door meerdere GPU’s, HBM, NVLink, NVSwitch, software en netwerken te combineren.

Inferentie verandert de spelregels

Tijdens de eerste golf van AI-enthousiasme lag de focus op trainen. Daar domineren NVIDIA GPU’s dankzij een combinatie die moeilijk te kopiëren is: krachtige hardware, CUDA, libraries, frameworks, operationele expertise, cloudaanbieders en een volwassen supply chain. Maar de volgende uitdaging ligt bij inferentie, vooral bij grote modellen, agents, programmeerhulpmiddelen, spraak in realtime en scripts met veel stappen.

Bij interactieve inferentie wil de gebruiker niet alleen dat het systeem veel verzoeken parallel afhandelt. Ze willen ook snelle antwoorden. Als een agent moet redeneren, tools raadplegen, documenten lezen en meerdere stappen genereren, wordt latentie een belangrijke productfactor. Een antwoord dat seconden duurt is acceptabel; een die minuten duurt, breekt de gebruikerservaring.

Daar wil Cerebras zich onderscheiden. In mei 2025 meldde het bedrijf dat Artificial Analysis hun endpoint op Llama 4 Maverick maat op 2.522 tokens per seconde per gebruiker, tegenover 1.038 tokens/sec voor NVIDIA Blackwell op hetzelfde model. NVIDIA had recent aangekondigd dat een DGX B200 met acht Blackwell GPU’s meer dan 1.000 tokens/sec per gebruiker kon leveren, onder andere dankzij optimalisaties zoals TensorRT-LLM, FP8 en EAGLE-3 speculate decodering.

Hoewel dit verschil significant is, betekent het niet dat Cerebras altijd “beter” is dan NVIDIA. Het laat wel zien dat in bepaalde inferentie-scenario’s van lage latentie en specifieke modellen, de architectuur van Cerebras een duidelijk voordeel kan bieden. NVIDIA behoudt echter een ruime positie op het gebied van training, ecosysteem, bedrijfsleven, cloudbeschikbaarheid, ontwikkeltools en compatibiliteit met het meeste moderne AI-software.

Een simpeler systeem, maar complexere fabricage

De meest interessante gedachte van Cerebras is dat het de moeilijkheidsgraad verplaatst. NVIDIA lost het probleem op door veel onderdelen te verbinden: GPU’s, HBM, NVLink, NVSwitch, InfiniBand, software voor orkestratie, geoptimaliseerde kernels en complete servers. Cerebras probeert een deel van die complexiteit te elimineren door het hele systeem in één grote siliciumplaat te concentreren.

Dat vereist het oplossen van een probleem dat decennia lang als bijna onmogelijk werd gezien: het fabriceren van een chip ter grootte van een wafer zonder dat defecten alles verpesten. Cerebras maakt gebruik van redundantie, alternatieve routes en een fouttolerante architectuur die defecte zones kan isoleren en blijven werken. Het bedrijf beschrijft het als een ontwerp dat draait om fouten accepteren, niet ontkennen.

Het is een zware engineering-uitdaging, maar met een belangrijk voordeel: als het lukt, vermijdt het een deel van de kosten en energie die gemoeid zijn met data bewegen tussen chips. In AI kost dat verplaatsen van data veel energie, tijd en complexiteit. Daarom wordt de uitspraak “geheugen is de bottleneck” steeds vaker herhaald. Het is niet genoeg om rekenkracht te verdubbelen als het model grote delen van de tijd wacht op gewichten.

Probleem in generatieve AIGebruikelijke GPU-oplossingCerebras aanpak
Groot modelVerdelen over veel GPU’sVeel rekenen en geheugen op één wafer plaatsen
Data movementHBM, NVLink, NVSwitch, netwerkenSRAM op de chip en intern wafer-netwerk
SchalingsproblemenMulti-GPU clustersCS-3 systemen en wafer-schaal clusters
Vertraging per gebruikerKernels optimaliseren en batchingVervoer tussen geheugen en berekening minimaliseren
Distributie van programmeringNoodzakelijk bij veel scenario’sCerebras wil dit vereenvoudigen

Waarom NVIDIA niet verslagen is

De opwinding over Cerebras mag niet afleiden van de marktrealiteit. NVIDIA domineert niet alleen door brute kracht. Ze beheersen een compleet ecosysteem: CUDA, TensorRT, Triton, cuDNN, NCCL, DGX, HGX, netwerktechnologie, documentatie, cloudproviders, enterprise-integratie en talent. Dit vormt een enorme barrière.

Daarnaast worden workloads niet uitsluitend gemeten in tokens per seconde. In productie zijn kostprijs per miljoen tokens, benutting, totaal throughput, capaciteit, model-ondersteuning, driver-stabiliteit, framework-compatibiliteit, veiligheid, multi-tenant deployments en operationele eenvoud cruciale factoren.

Cerebras blinkt uit in snelle inferentie. Maar NVIDIA beschikt over een algemeen platform dat al in duizenden datacenters staat. De markt zal niet zwart-wit zijn. Waarschijnlijk wordt de markt gefragmenteerd: GPU’s voor training en veel algemene taken; ASICs, wafer-scale chips en gespecialiseerde accelerators voor lage latentie inferentie of specifieke modellen; en een mix afhankelijk van kosten, prestaties en beschikbaarheid.

De kernvraag die Cerebras opent: als inferentie de grootste operationele kostenpost wordt in AI, is misschien niet de general-purpose GPU-cluster altijd de meest rendabele oplossing. Voor agents, spraak, generatieve zoekmachines, code-assistenten en interactief redeneren kan snelheid per gebruiker het verschil maken. Als een systeem dubbel zo snel reageert, verbetert dat niet alleen de ervaring, maar mogelijk ook de haalbaarheid van producten die voorheen te traag waren.

Cerebras heeft geen toverformule om de fysica te omzeilen. Ze hebben gekozen voor een andere fysica: minder afstand tussen geheugen en berekening, minder orkestratie tussen chips, en meer complexiteit in fabricage. Als die strategie opschaalt, zal NVIDIA geconfronteerd worden met echte concurrentie op één van de meest kritische lagen van AI: snelle inferentie.

Veelgestelde vragen

Waarom kan Cerebras in sommige modellen sneller zijn dan NVIDIA?
Omdat hun architectuur grote hoeveelheden SRAM direct op de chip plaatst en een extreem hoge bandbreedte biedt, waardoor de bottleneck van gewichtsverplaatsing tijdens inferentie vermindert.

Is de Cerebras-chip een GPU?
Nee. De WSE-3 is een wafer-scale processor specifiek ontworpen voor AI. Het is een geheel andere aanpak dan een conventionele GPU.

Betekent dit dat Cerebras NVIDIA in alles overtreft?
Nee. Cerebras excelleert in bepaalde inferentie-scenario’s van lage latentie, maar NVIDIA heeft nog altijd een enorme voorsprong op het gebied van ecosysteem, software, training, marktacceptatie en bedrijfsondersteuning.

Waarom is geheugen zo belangrijk bij grote taalmodellen?
Omdat modellen bij het genereren van tokens herhaaldelijk hun gewichten moeten opvragen. Als het geheugen ver weg is of de bandbreedte beperkt, wacht het model onnodig op data, wat de snelheid beperkt.

vía: LinkedIN

Scroll naar boven