FuriosaAI en Broadcom bereiden een 2 nm AI-chip voor de inferentieperiode

FuriosaAI heeft een strategische samenwerking aangekondigd met Broadcom om haar derde generatie AI-versnellers te ontwikkelen, een platform dat specifiek is ontworpen voor grootschalige inferentie en agentgebaseerde workloads. Het Zuid-Koreaanse bedrijf wil niet de traditionele weg van algemene GPU’s volgen, maar investeren in een chiplet-architectuur met een compute diepte van 2 nanometers, HBM4/HBM4E-geheugen en Broadcom’s netwerktechnologieën om op grote datacenters te schalen.

De aankondiging komt op een moment dat de industrie verder kijkt dan alleen het trainen van modellen. De komende fase wordt gekenmerkt door massieve inferentie: miljoenen gebruikers, AI-agenten die taken uitvoeren, multimodale modellen, continue token-generatie en de noodzaak om energiekosten te verlagen. In dat landschap wint niet altijd de chip met de meeste brute kracht; het gaat erom hoe efficiënt data wordt verplaatst, het energieverbruik en de hoeveelheid tokens per Watt.

FuriosaAI claimt dat haar nieuwe platform is ontworpen voor dat soort datacenters, die de firma aanduidt als de ’token factories’ van de toekomst. De sampling van de nieuwe versneller is gepland voor de eerste helft van 2028, dus er is nog enige tijd voordat deze in productie wordt genomen.

Een chiplet-architectuur met HBM4 voor meer dataverkeer

De derde generatie van FuriosaAI zal gebruikmaken van een multi-die ontwerp gebaseerd op chiplets, met een compute-eenheid gefabriceerd op 2 nanometers en HBM4/HBM4E-geheugen. Volgens het bedrijf zal het gebruik van Broadcom’s geavanceerde packaging-technologieën meerdere siliciumblokken integreren in een hoogwaardig presterend systeem, geoptimaliseerd voor inferentie workloads.

Geheugen is een van de kerncomponenten van het ontwerp. In de huidige modellen, vooral bij inferentie van grote taalmodellen, ligt de bottleneck niet alleen in de rekenkracht, maar vooral in het snel voeden van data naar de chip. HBM4 en HBM4E beloven meer bandbreedte, wat essentieel is voor het verwerken van grote modellen, het verminderen van latentie en het verhogen van het aantal tokens dat per energie-eenheid wordt gegenereerd.

FuriosaAI benadrukt dat haar architectuur zich richt op het efficiënte verplaatsen van data, in tegenstelling tot de thread-beheer die typisch is voor traditionele GPU’s. Het bedrijf zegt dat deze aanpak hogere prestaties per Watt en een hogere token-dichtheid kan bieden dan de meest efficiënte GPU’s op de markt. Deze bewering is ambitieus en zal moeten worden bevestigd door echte chips, onafhankelijke benchmarks en productielanceringen.

Het ontwerp zal ook Broadcom’s Ethernet- en PCIe-technologieën integreren, met als doel versnellers te verbinden in grote clusterschermen. Dit punt is cruciaal, omdat AI-datacenters niet meer chip-voor-chip worden gebouwd, maar rack-voor-rack en cluster-voor-cluster. Netwerken, latentie tussen knooppunten en interne communicatie zijn even belangrijk als de prestaties van de versneller zelf.

Van RNGD naar een platform voor hyperscalers

Het nieuwe platform bouwt voort op de ervaring van RNGD, de tweede generatie chips van FuriosaAI, die momenteel in massaproductie zijn met een 5 nanometer proces van TSMC. RNGD is een PCIe-accelerator van 180 watt gericht op inferentie van taalmodellen, multimodale workloads en agentgebaseerde AI-toepassingen.

De huidige FuriosaAI-productlijn omvat 48 GB HBM3-geheugen, biedt een bandbreedte van 1,5 TB/s en is ontworpen voor luchtgekoelde datacenters. Het bedrijf positioneert het als een energie-efficiënte optie voor het uitrollen van geavanceerde modellen zonder dat infrastructuren zo intensief hoeven te zijn als sommige high-end GPU’s.

Onder de klanten en validaties die FuriosaAI noemt, bevinden zich Samsung SDS en LG AI Research. Dit steunt ons in het vertrouwen dat het marktaandeel van AI-versnellers niet enkel uit beloftes bestaat, maar dat er al echte toepassingen en producties zijn.

De samenwerking met Broadcom tilt het project naar een hogere dimensie. Broadcom brengt niet alleen expertise in ASIC’s en geavanceerd packaging, maar ook een sterke positie in netwerktechnologieën voor datacenters, waaronder high-bandwidth Ethernet-switches en aangepaste XPU-platforms voor grote klanten. Voor FuriosaAI kan deze samenwerking de weg effenen van het verkopen van efficiënte inferentiechips naar het concurreren als infrastructuurplatform voor grootschalige uitrol.

Inferentie krijgt ruimte naast NVIDIA’s dominantie

De markt voor AI-chips wordt nog steeds gedomineerd door NVIDIA, vooral bij trainen en grootschalige GPU-implementaties. Maar inferentie biedt nieuwe kansen voor meer gespecialiseerde architecturen. Als modellen continu in productie worden gebruikt, worden kosten per token, energie-efficiëntie en latentie steeds meer bepalend.

Daar komen bedrijven als FuriosaAI, Cerebras, Groq, Tenstorrent en interne ontwerpen voor hyperscalers in beeld. Ze zullen niet allemaal hetzelfde pad bewandelen, maar ze beantwoorden allemaal aan dezelfde behoefte: afhankelijkheid van generalistische GPU’s verminderen door te investeren in architecturen die beter geschikt zijn voor specifieke workloads.

De strapats van FuriosaAI passen in dat plaatje. Als een datacenter constant tokens moet genereren, AI-agenten moet bedienen, gelijktijdige aanvragen moet verwerken en de kosten onder controle wil houden, kan een geoptimaliseerde inferentie-oplossing zeer aantrekkelijk zijn. Maar het zal een grote uitdaging worden: software-ecosystemen, modelcompatibiliteit, developer-tools, betrouwbaarheid, geheugenlevering, fabricage op 2 nm en het concurreren met volledig uitgevoerde ecosystemen.

De firma probeert deze uitdaging aan te pakken met haar softwarestack. FuriosaAI beweert dat haar SDK het mogelijk maakt modellen van PyTorch te implementeren via een universele compiler, zonder afhankelijk te zijn van handmatig afgestemde kernelbibliotheken voor elk model. Daarnaast biedt het een virtuele ISA voor ontwikkelaars die meer hardwarecontrole willen, zonder te verstrikt te raken in de complexiteit van traditionele GPU-programmering.

De planning voorziet dat de eerste monsters in 2028 beschikbaar zijn, passend bij de komende golf van AI-datacenters. Tegen die tijd zal de druk op energie, geheugen, netwerken en kosten per token nog groter zijn. Als FuriosaAI en Broadcom hun beloftes waarmaken, kan hun aanbod een serieuze concurrent worden voor grootschalige inferentie. Zo niet, dan zal het worden toegevoegd aan de lange lijst van architecturen die poogden de GPU-gids te tarten in een zeer competitief siliconetijdperk.

Veelgestelde vragen

Wat hebben FuriosaAI en Broadcom aangekondigd?
Ze hebben een samenwerking aangekondigd om de derde generatie AI-versnellers van FuriosaAI te ontwikkelen, gebaseerd op chiplets, 2 nm compute, HBM4/HBM4E-geheugen en Broadcom’s netwerktechnologieën.

Voor welke workloads is deze chip bedoeld?
Deze is gericht op grootschalige AI-inferentie, taalmodellen, agentgebaseerde workloads, post-training sampling en massale token-generatie in datacenters.

Wanneer komt de nieuwe versneller beschikbaar?
FuriosaAI verwacht begin 2028 te starten met het testen van de chip, maar de commerciële beschikbaarheid hangt af van de voortgang van de ontwikkeling en de eerste klanten.

Scroll naar boven