OpenAI versnelt Codex met Cerebras: 1.000 tokens/seconde en een echt “plan B” voor NVIDIA

OpenAI zet een stap die, naast de kop, diepgaande gevolgen kan hebben voor de inferentiemarkt: hun nieuwe gpt-5.3-codex-spark (een variant gericht op “realtime werken” met superrappe antwoorden) wordt geleverd op Cerebras-infrastructuur. De boodschap is tweeledig: aan de ene kant legt OpenAI de nadruk op latentie als nieuwe obsessie binnen coding AI; aan de andere kant suggereert het de aanwezigheid van een tweede weg om grootschalige modellen uit te voeren zonder volledig afhankelijk te zijn van het NVIDIA-ecosysteem.

Dit nieuws komt op een moment dat programmeerassistenten minder concurreren op “raden” en meer gericht zijn op onmiddellijkheid: de tijd tot de eerste token (TTFT), de vloeiendheid van streaming en het vermogen om een technisch dialoog zonder onderbrekingen te voeren, vormen de echte rand van het product. OpenAI gelooft dat ze hier een concrete voorsprong hebben gevonden met Cerebras.


Wat is precies Codex-Spark en waarom is het belangrijk?

Volgens OpenAI is Codex-Spark ontworpen voor programmeertaken met een ervaring die dichterbij komt bij die van een pair programmer: snellere antwoorden, meer continuïteit in streaming en minder “micro-onderbrekingen” wanneer het model code en uitleg genereert. Het bedrijf bevestigt dat, met deze variant:

  • De tijd tot de eerste token met ongeveer 50% wordt verminderd (TTFT).
  • Het kan tot ongeveer 1.000 tokens per seconde output genereren in gunstige scenario’s (cruciaal voor snelle bewerking en cyclussen van testen en corrigeren).
  • Het behoudt lang basiscontext (OpenAI positioneert het voor intensieve programmeersessies en tools).

Met andere woorden: het is niet slechts “een ander model”, maar een inzet op extreme interactiviteit. Dit sluit aan bij de marktverschuiving naar agentic-stromen (hulpmiddelen, functies aanroepen, automatische tests, navigatie, enz.), waar latentie de productiviteit meer beïnvloedt dan een klein extra punt precisie.


De sleutel: wat brengt Cerebras voor inference?

Cerebras betoogt al jaren dat hun wafer-scale-benadering (een chip zo groot als een volledige wafer) niet enkel een laboratoriumcuriositeit is, maar een architectuur met praktische voordelen wanneer de knelpunten geheugen en gegevensoverdracht zijn, niet alleen FLOPS.

Voor de WSE-3 (Wafer-Scale Engine 3) zijn de cijfers opvallend in de “in-chip” segment:

ParameterCerebras WSE-3 (officiële gegevens)
Transistoren~4 biljoen
Nucleos~900.000
On-chip geheugen~44 GB
Geheugenbandbreedte~21 PB/s (volgens specificaties van het cluster)

Dit ontwerp streeft ernaar om interne knelpunten te minimaliseren en een zeer hoge tokensnelheid met lage latentie te ondersteunen. In modellen gericht op programmeren — waar herhaling, iteratieve bewerking en directe respons noodzakelijk zijn — kan dit soort voordeel resulteren in een meer “mensachtige” ervaring: minder wachten en meer continuïteit.


Maakt dit NVIDIA meteen de genadeklap? Nog niet zo snel

Het is verleidelijk om dit als een “doorbraak” te zien, maar waarschijnlijk is het — voor nu — meer een pragmatische zet:

  • NVIDIA blijft domineren in de stack (software, ecosysteem, beschikbaarheid, integratie met OEMs, etc.) en in de economie van grootschalige inferentie, vooral bij batching en algemene deployments.
  • Wat OpenAI duidelijk lijkt te impliceren, is dat voor bepaalde producten (zoals een ultrasnelle code-Copilot), het belangrijkste niet alleen de kost per token is, maar vooral de responsetijd en het gevoel van onmiddellijkheid.

Kort samengevat: de industrie ontdekt dat inferentie niet één markt is. Er is “goedkope” inferentie (hoog throughput per batch) en “onmiddellijke” inferentie (lage latentie, constante interactie). Niet elke architectuur wint in beide werelden.


Waarom dit de productontwikkeling kan veranderen (meer dan benchmarks)

In programmeren telt elke seconde, maar niet zonder reden: een assistent die direct reageert, maakt:

  1. Kortere iteraties: voorstellen → toepassen → testen → corrigeren.
  2. Handige agenten: als de agent tools oproept, zoekt, tests uitvoert en terugkeert, bepaalt de latentie of hij doorgaat of stopt.
  3. Minder cognitieve frictie: als de stroom wordt onderbroken, verliest de ontwikkelaar context en daalt de vermeende productiviteitswinst.

Als OpenAI erin slaagt Codex-Spark consequent sneller en soepeler te maken, is dat niet alleen een technische verbetering: het is een psychologische en operationele verbetering. En dat is binnen product een vaak doorslaggevende factor.


Strategisch inzicht: diversificatie en onderhandelingskracht

Door OpenAI expliciet Cerebras te noemen als infrastructuur voor een zichtbaar deel van hun catalogus, beweegt zich ook een industriële les:

  • Systeemweerbaarheid: minder afhankelijkheid van één enkele leverancier in een markt waar de voorraad en rekenkracht nog altijd een concurrentievoordeel vormen.
  • Reële opties: hoewel NVIDIA nog steeds dominantie heeft, verbetert een tweede werkbare platform in productie de onderhandelingspositie van grote kopers.
  • Workload-segmentatie: trainen, chatdiensten, interactieve coding – die verschillende toepassingen kunnen in verschillende hardware-omgevingen worden ondergebracht.

Het is geen toeval dat de publieke discussie over inferentie verschuift naar concepten als TTFT, streaming overhead, “latencysensitieve workloads” en volledige ketenoptimalisatie (netwerk + runtime + hardware). De waarde ligt niet alleen in het model, maar in de manier van implementatie.


Wat moet je blijven volgen vanaf nu

Als deze ontwikkeling doorzet, zijn er drie signalen om in de gaten te houden tijdens 2026:

  • Breder gebruik in producten: is Codex-Spark een opschudding of het eerste van vele?
  • Reactie van het GPU-ecosysteem: verbeteringen gericht op token-voor-token-latentie en TTFT in interactieve scenario’s.
  • Meer ‘alternatieve hardware’ voor inferentie: ASICs, niet-NVIDIA-GPU’s en speciale architecturen die proberen in te spelen op gebruiksgemak en lage latentie, waar de gebruikerservaring zwaarder weegt dan puur doorvoersnelheid.

via: wccftech

Scroll naar boven