Amazon Web Services wil een van de meest gevoelige fronten in de huidige AI-race versterken: inferentiesnelheid. AWS en Cerebras hebben een samenwerking aangekondigd waarbij de cloud van Amazon Cerebras CS-3 systemen zal inzetten in haar datacenters en deze via Amazon Bedrock beschikbaar stelt aan klanten. Volgens beide bedrijven zal deze dienst in de komende maanden beschikbaar komen en in 2026 kunnen gebruikers ook voor het eerst open modellen en Amazon Nova-modellen uitvoeren op Cerebras-hardware.
Het nieuws is relevant omdat het niet slechts een nieuwe hardware-optie toevoegt aan het AWS-assortiment, maar ook een andere architectuur uitprobeert voor het snel bedienen van generatieve modellen. In plaats van alle inferentie op een enkel type processor uit te voeren, willen Amazon en Cerebras een scheiding aanbrengen tussen twee fasen: de prefill, die het initiële prompt- of contextproces behandelt, en de decode, die tokens genereert. AWS stelt dat deze scheiding ervoor zorgt dat elke chip ingezet wordt voor datgene waarvoor hij het best geschikt is.
Een gescheiden architectuur voor een steeds duidelijker wordende knelpunt
De technische aanpak van de samenwerking draait om een eenvoudig uit te leggen, maar complex uit te voeren idee. AWS zal Trainium gebruiken voor de prefill-fase, terwijl Cerebras CS-3 verantwoordelijk wordt voor de decode. Beide systemen worden verbonden via Elastic Fabric Adapter, de hoogperformante interconnectie van Amazon. Volgens het bedrijf kan deze “disaggregated” configuratie tot wel vijf keer meer snel tokens verwerken binnen hetzelfde fysieke hardware-ruimte. Momenteel moet deze belofte worden gezien als een aangekondigd product, niet als een in productie gevalideerde meting.
De fundering van dit ontwerp is logisch gezien de huidige stand van AI-ontwikkeling. Prefill is een taak die sterk parallelle berekeningen vereist, terwijl decode veel meer afhankelijk is van voortdurende geheugen-toegang om tokens één voor één te genereren. Cerebras benadrukt al jarenlang dat haar voordeel precies daarin ligt. Het CS-3 systeem is gebaseerd op de Wafer-Scale Engine en bevat grote hoeveelheden SRAM-geheugen op-chip, met een bandbreedte die volgens de fabrikant op 21 PB/s ligt. Hiermee wil het de bekende knelpunten van GPU’s verminderen, waarbij modellen telkens opnieuw gewichten moeten ophalen tijdens de generaties.
Dit verhaal sluit aan bij de huidige markttrends. Inferentie is niet langer slechts een secundaire fase na training. Steeds meer bedrijven ontdekken dat kosten, latentie en reactietijd bepalend worden voor het uitrollen van assistenten, agents en programmeerhulpmiddelen. Cerebras beweert dat haar agent-gebaseerde codering ongeveer 15 keer meer tokens per query kan genereren dan een conventionele chatbot, wat de druk op inferentiesystemen verhoogt. AWS positioneert de samenwerking als een antwoord op knelpunten bij intensieve workloads zoals realtime codehulp en interactieve toepassingen.
AWS versterkt Bedrock zonder in te boeten op eigen hardware
Een van de interessantste punten van de aankondiging is dat Amazon niet haar strategie met eigen chips wijzigt, maar deze juist versterkt. Trainium blijft een centrale rol spelen binnen de gezamenlijke oplossing en wordt door AWS voorgesteld als de geschikte processor voor prefill. Amazon beschrijft Trainium als een AI-chip die op maat gemaakt is voor schaalbaarheid en kostenefficiëntie in generatieve workloads. Recentere documentatie noemt Trainium3 als de eerste 3 nm-chip en koppelt deze aan agent-gericht gebruik, reasoning en video-generatie.
Dit betekent dat de samenwerking met Cerebras niet indruist tegen AWS’ intern beleid voor eigen hardware, maar dat het juist aangeeft waar op prestatiegebied de focus ligt. Daarnaast versterkt het de rol van Amazon Bedrock als toegangslag naar modellen en AI-diensten. Bedrock ondersteunt al modellen zoals Amazon Nova en ook modellen van derden. Uit de officiële documentatie blijkt dat de Nova-familie geïntegreerd is en opties biedt voor tekst, multimodaliteit en reasoning. De belofte is dat delen van dit aanbod nu profiteren van een veel snellere inferentielaag.
Een strategisch detail dat AWS benadrukt is dat deze oplossing binnen de standaard cloudinfrastructuur van Amazon blijft werken, en op het AWS Nitro System. Zo blijven CS-3 systemen en Trainium-gebaseerde servers qua isolatie, veiligheid en operationele consistentie aansluiten bij de verwachtingen van AWS-klanten. Dit is een belangrijk punt omdat Cerebras vaak gezien wordt als een zeer gespecialiseerde, aparte platform, terwijl Amazon haar integratie profileert als een natuurlijke uitbreiding van haar cloud-ecosysteem.
Hoe sneller, hoe beter, maar bewijs uit de productie ontbreekt nog
De aankondiging bevat ambitieuze cijfers. Cerebras beweert dat het al modellen runt voor bedrijven als OpenAI, Meta en Cognition met snelheden tot 3.000 tokens per seconde, en dat haar architectuur tot 15 keer sneller is dan GPU-varianten in bepaalde inferentiescenario’s. Deze indrukwekkende gegevens verduidelijken waarom AWS interesse heeft getoond, maar het is belangrijk om te onderscheiden tussen de prestaties in de eigen testomgeving van Cerebras en de werkelijke prestaties die de oplossing zal leveren in AWS Bedrock met diverse klanten, modellen en workloads.
Verder is voorzichtigheid geboden. AWS en Cerebras zeggen dat beide configuraties — gescheiden en samengevoegd — ondersteund worden. Dus niet alles wordt automatisch overgeheveld van traditionele GPU-gebaseerde systemen naar Trainium voor prefill en Cerebras voor decode. Beiden erkennen dat veel klanten werken met verschillende combinaties van werkdrukken, en dat in sommige gevallen een meer traditionele architectuur nog steeds zinvol blijft. De samenwerking richt zich op een significante verbetering voor bepaalde inferentieprofielen, niet op een complete vervanging van gangbare oplossingen.
Desalniettemin is de onderliggende boodschap helder: AWS wil voorkomen dat de cloud-AI-race uitsluitend draait om het aantal GPU’s. Ze bouwt aan een verhaal waarin eigen silicium, netwerk, Bedrock en gespecialiseerde partners samen in staat zijn om een ander soort waarde te bieden. Cerebras wint hiermee toegang tot de grootste cloudmarkt met een oplossing die inspeelt op de groeiende vraag naar snelle inferentie van agents, assistenten en applicaties die niet kunnen wachten. Of het prestatiebelofte op schaal ook standhoudt, moet nog blijken, maar de richting is duidelijk: in de nieuwe fase van AI wordt reactietijd bijna net zo belangrijk als modelkwaliteit.
Veelgestelde vragen
Wat hebben AWS en Cerebras precies aangekondigd?
AWS zal Cerebras CS-3 systemen implementeren in haar datacenters en deze via Amazon Bedrock beschikbaar stellen aan klanten. Beide bedrijven werken ook samen aan een gescheiden inferentie-architectuur die AWS Trainium gebruikt voor prefill en Cerebras voor decode.
Wanneer komt deze nieuwe infrastructuur beschikbaar bij AWS?
Volgens de officiële aankondiging van Amazon zal de oplossing in de komende maanden beschikbaar komen. Het uitvoeren van voorbeelddoelen met belangrijke open modellen en Amazon Nova op Cerebras-hardware wordt verwacht later in 2026.
Wat is gescheiden of disaggregated inferentie precies?
Het is een aanpak die inferentie opdeelt in twee fasen: prefill, dat het initiële contextproces behandelt, en decode, dat token voor token de output genereert. AWS en Cerebras geloven dat het gebruik van verschillende hardware voor elke fase de snelheid en capaciteit kan verbeteren voor specifieke workloads.
Is Amazon Nova al beschikbaar in Bedrock?
Ja. AWS biedt al Amazon Nova-modellen binnen Amazon Bedrock. Wat nieuw is met deze aankondiging, is dat een deel van dat aanbod op een versneld Cerebras-systeem kan draaien om inferentiesnelheid te verhogen.
vía: cerebras.ai
