Tensordyne positioneert zich in de AI-inferentiemarkt met een aanpak die afwijkt van de gebruikelijke weg. Het bedrijf introduceert Napier, een 3 nm-chip die belooft meer prestaties per watt te leveren, minder energieverbruik te hebben en een hogere verwerkingscapaciteit voor tokens dan de NVIDIA Blackwell- en Rubin-platforms. Deze ontwikkeling komt op een moment dat de kosten voor het draaien van grootschalige modellen een van de grootste problemen in de industrie worden.
Het bedrijf presenteert niet zomaar een AI-versneller, maar een ambitieuzere visie: de manier waarop de operaties van modellen worden berekend, herzien door middel van logaritmische wiskunde, een zeer geïntegreerde geheugenarchitectuur en lage-latentie interconnecties die binnen een rack kunnen opschalen. Hoewel de belofte duidelijk is, moet deze nog worden bevestigd door onafhankelijke tests: het bedienen van biljoenparameters met minder energie, minder infrastructuur en een betere economische marge voor cloudaanbieders, neo clouds en bedrijven.
Volgens Tensordyne is Napier klaar voor productie: de tape-out is voltooid en het silicium wordt op grote schaal geproduceerd bij TSMC. Het chipdesign is ontwikkeld in samenwerking met Broadcom en TSMC, en de platformintegratie omvat ook werk met Juniper Networks voor interne netwerkverbindingen. Daarnaast wordt gesproken over een vraag van meer dan 200 miljoen dollar voor Napier-systemen, wat wijst op commercieel interesse, hoewel grootschalige implementaties nog moeten worden bevestigd.
Een 3 nm-chip gericht op inferentie
Napier is specifiek ontworpen voor inferentie, niet voor algemene training of gesaccelererde computationele taken. Dat is een belangrijk punt. Het uitvoeren van grote modellen voor inferentie brengt enorm toenemende kosten met zich mee: meer gebruikers, meer agenten, meer context, meer gegenereerde tokens en hogere latency-eisen. In dat scenario zijn prestatie per watt en per dollar misschien nog belangrijker dan de bruto rekencapaciteit.
Volgens technische bronnen integreert Napier 138 miljard transistors, 144 GB HBM3E, 256 MB SRAM en behaalt het 2,1 PFLOPS aan dens FP8-rekenkracht bij een verondersteld verbruik van 300 W per pakket. Deze cijfers positioneren het tegenover high-end AI-versnellers, maar de differentiatie ligt niet alleen in de fabricageprocesstechnologie of het geheugen.
| Eigenschap | Tensordyne Napier |
|---|---|
| Fabricageproces | TSMC 3 nm |
| Transistors | 138 miljard |
| Memory HBM | 144 GB HBM3E |
| SRAM | 256 MB |
| Rekenkracht | 2,1 PFLOPS FP8 blind |
| Verbruik per chip | 300 W |
| Hoofdfocus | Inferentie van generatieve modellen |
| Bekend status | Tape-out afgerond en overgaand in productie |
Een groot deel van de voorsprong van Tensordyne ligt in TDN Math, een aanpak die grote multiplications vervangt door logaritmische optellingen binnen een numeriek systeem gebaseerd op logaritmen. Logaritmische systemen zijn niet nieuw in computationele toepassingen, maar Tensordyne beweert deze technologie op hardware en software-niveau te hebben geoptimaliseerd om deze complexiteit te maskeren voor de gebruiker.
Dit laatste punt is cruciaal. Een AI-chip kan veel beloven, maar als het re-engineeren van modellen, het aanpassen van formaten of het aanpassen van pipelines nodig maakt, wordt adoptie moeilijk. Tensordyne beweert dat haar software conversies afhandelt en compatibel is met bekende tools zoals PyTorch, Triton en vLLM. Het doel is dat klanten hun bestaande modellen kunnen blijven gebruiken zonder ze volledig te hoeven herschrijven voor een andere rekenhandeling.
TDN72: de rack als concurrentie-eenheid
Tensordyne presenteert Napier niet als een losstaand chipsysteem, maar als onderdeel van een integraal systeem. Het kernstuk is de TDN72 Inference Pod, met 72 Napier-chips. Vier pods vormen een volledige rack met 288 chips, 42 TB HBM3E, 74 GB SRAM, 608 PFLOPS FP8-blinde rekenkracht en een verondersteld verbruik van 120 kW. Het bedrijf claimt dat elke pod door middel van luchtkoeling wordt gekoeld en circa 30 kW verbruikt.
De keuze voor 72 chips lijkt niet willekeurig. NVIDIA heeft het NVL72-beeldformaat vastgesteld voor rack-georiënteerde systemen, met 72 GPU’s en 36 CPUs (Vera in de NVL72-architectuur). Tensordyne probeert vergelijkbaarheid te bieden door hetzelfde aantal accelerator-eenheden te gebruiken, maar dan met een andere architectuur en energie-efficiëntie.
| Systeem | Specificaties | Geheugen | Gemeld verbruik |
|---|---|---|---|
| Tensordyne TDN72 Pod | 72 Napier-chips | Ongeveer 10 TB HBM | |
| Tensordyne rack | 4 pods, 288 chips | 42 TB HBM3E | |
| NVIDIA GB300 NVL72 | 72 Blackwell Ultra + 36 Grace | 20 TB HBM3E + 17 TB LPDDR5X | |
| NVIDIA Vera Rubin NVL72 | 72 Rubin + 36 Vera | 20,7 TB HBM4 |
De vergelijkingen die Tensordyne maakt, zijn ambitieus: ze claimen dat Napier 17 keer meer tokens per watt en 13 keer meer tokens per seconde kan leveren dan NVIDIA Blackwell. Ook beweert het dat haar systeem modellen met biljoenen parameters kan bedienen bij 1.000 tokens per seconde per gebruiker in één rack, in tegenstelling tot zwaarere configuraties gebaseerd op Rubin en LPX.
Het is belangrijk deze claims met enige reserves te bekijken. Er zijn nog geen brede onafhankelijke benchmarks die die ratios bevestigen onder gelijke omstandigheden met Blackwell, Blackwell Ultra of Rubin. Bovendien hangen inferentieprestaties sterk af van het model, de contextgrootte, batchgrootte, precisie, interconnectie, software en werkingsprofiel.
De inzet: de wiskunde veranderen, niet alleen chips toevoegen
De meeste concurrenten van NVIDIA proberen zich te onderscheiden door kosten, beschikbaarheid, specialisatie of verticale integratie. Tensordyne biedt een extra argument: een fundamenteel andere manier van representatie en uitvoering van operaties. Het logaritmische ontwerp streeft ernaar de energiebehoefte en siliciumruimte te verminderen voor kritieke transformatormodellen, vooral bij inferentie.
Dat is aantrekkelijk, omdat de industrie geconfronteerd wordt met een ongemakkelijke realiteit: het opschalen met meer GPU’s, racks en megawattvermogen is niet oneindig. Energie, koeling, geheugen (zoals HBM), netwerk, ruimte en elektrische voorzieningen vormen steeds grotere beperkende factoren. Een architectuur die het verbruik vermindert zonder afbreuk te doen aan nauwkeurigheid of compatibiliteit, zou directe waarde hebben.
| Platformblok | Functie |
|---|---|
| TDN Math | Logaritmische wiskunde voor lagere rekentoevoer |
| TDN AIP | Napier AI-processor |
| TDN ACT | Computersysteem |
| TDN Link | Low latency schaalbare connectiviteit |
| TDN72 Pod | Inference-server met 72 chips |
| TDN Rack | Vier pods, 288 chips, 42 TB HBM3E |
Of de voorsprong standhoudt in de praktijk, is nog af te wachten. De AI-hardwaremarkt kent vele beloftes die niet altijd worden ingelost door software, ondersteuning, ontwikkelaarsbronnen of een solide roadmap. Tensordyne moet aantonen dat haar systeem betrouwbaar, programmeerbaar, schaalbaar en beschikbaar op grote schaal is.
ServeTheHome vat goed samen: Napier is interessant omdat het niet alleen de NVIDIA-formule kopieert en op maximale prijsreductie mikt, maar probeert de wiskunde zelf te veranderen. Dat verhoogt de technische relevantie, maar brengt ook meer uitdagingen met zich mee. Elke diepgaande verandering in numerieke representatie moet aantonen dat kwaliteit, nauwkeurigheid en stabiliteit behouden blijven in echte modellen.
NVIDIA behoudt haar ecosysteem
De uitdaging voor Tensordyne komt op tegen een grote speler die niet alleen chips levert, maar een compleet ecosysteem: GPU’s, CPU’s, NVLink, InfiniBand en Ethernet-netwerken, software, libraries, racksystemen, beheertools en een enorme ontwikkelaarsgemeenschap. De GB300 NVL72 combineert 72 Blackwell Ultra GPU’s en 36 CPU’s (Vera), met 20 TB HBM3E voor GPU en 17 TB LPDDR5X voor CPU, en heeft 130 TB/s bandbreedte via NVLink. Vera Rubin NVL72 tilt die verwachting verder met 72 Rubin GPU’s, 36 Vera CPU’s, HBM4-geheugen en NVLink 6.
| Platform NVIDIA | Belangrijke specs |
|---|---|
| GB300 NVL72 | 72 Blackwell Ultra, 36 Grace, 20 TB HBM3E GPU, 130 TB/s NVLink |
| Vera Rubin NVL72 | 72 Rubin, 36 Vera, 20,7 TB HBM4, 260 TB/s NVLink |
| Rubin GPU | 50 PFLOPS NVFP4 per GPU |
| Vera Rubin NVL72 | 3.600 PFLOPS inferentie |
| Focus NVIDIA | Volledig AI-ecosysteem met software en netwerken |
NVIDIA beweert dat Vera Rubin NVL72 de kosten per miljoen tokens verlaagt ten opzichte van GB200 NVL72 en dat het vermogen in reasoning-modellen verhoogt. Het bedrijf streeft daarnaar voorop te blijven in het marktsegment van grote deductie- en reasoning-modellen, ondanks de nieuwe concurrentie.
Voor Napier betekent dat een interessante, maar complexe positie. Bij succesvolle verificatie kan het een alternatief bieden voor aanbieders die meer winst willen maken op inferentie en niet volledig afhankelijk willen zijn van het NVIDIA-ecosysteem. Echter, als het software-aanbod of de beschikbaarheid niet meekomen, kan de markt blijven kiezen voor de meer volwassen en geïntegreerde oplossingen.
De strijd verschuift naar tokens per euro
Napier biedt op het juiste moment een antwoord op de groeiende kosten van AI-inferencing. Het trainen van een model blijft duur, maar het bedienen van miljoenen gebruikers en toepassingen is mogelijk nog kostbaarder. In dat speelveld worden metrics belangrijker, zoals tokens per seconde, tokens per watt, kosten per miljoen tokens, rackdichtheid, gebruikersdichtheid en latency.
Tensordyne schat dat er tot 33 miljoen dollar per rack per jaar extra inkomsten mogelijk zijn ten opzichte van Blackwell, een prognose gebaseerd op aannames omtrent gebruik, prijs en bezetting. Het wijst op de verschuiving in de markt: verkoop van infrastructuur wordt niet meer alleen bepaald door FLOPS, maar door operationele marges in echte diensten.
Voor hyperscalers kan een betere tokens-per-watt-verhouding de energiekosten verlagen, elektrische capaciteit vrijmaken en de investeringen in nieuwe datacenters uitstellen. Voor neo-cloudproviders kan het marges verbeteren bij premium inferentie. Voor bedrijven kunnen de kosten van grote modellen on-premise draaien aantrekkelijker worden, mits de beloften over compatibiliteit en efficiëntie worden waargemaakt.
De vraag is niet óf NVIDIA concurrentie krijgt, maar wanneer. De markt is te groot en de kosten voor inferentie te hoog om niet nieuwe, gespecialiseerde architecturen en systemen te ontwikkelen. Het gaat erom hoeveel van deze alternatieven daadwerkelijk klaar zijn voor grootschalige, betrouwbare inzet en niet enkel in de presentatie bestaan.
Tensordyne positioneert Napier in dat debat met een gedurfde aanpak: minder afhankelijk van lineair schalen, meer gebruikmaken van mathematische efficiëntie en een architectuur gericht op het bedienen van grote modellen. Het bewijs moet nu geleverd worden buiten de eigen materialen – met echte klanten, workloads en vergelijkingen die technisch standhouden.
Veelgestelde vragen
Wat is Tensordyne Napier?
Napier is een inferentiechip voor AI, gebouwd op 3 nm-technologie en gebaseerd op een logaritmische wiskundige architectuur ontwikkeld door Tensordyne.
Wat belooft Napier ten opzichte van NVIDIA Blackwell?
Tensordyne beweert dat Napier 13 keer meer tokens per seconde en 17 keer meer tokens per watt kan produceren dan Blackwell, maar deze cijfers komen van het bedrijf zelf en moeten nog worden bevestigd door onafhankelijke tests.
Wat maakt TDN Math bijzonder?
TDN Math gebruikt een logaritmische benadering om operationele kosten te verlagen door grote vermenigvuldigingen te vervangen door logaritmische optellingen, wat energie- en ruimtebesparing oplevert.
Is Napier al beschikbaar?
Tensordyne zegt dat Napier de tape-out heeft voltooid en in productie gaat. Het daadwerkelijke gebruik in de markt en onafhankelijke benchmarks zijn nog nodig om de werkelijke impact te beoordelen.
Bronnen: Tensordyne
