Intel en SambaNova herzien de inferentie voor de nieuwe autonome AI - Cloud News

X (Twitter) Facebook LinkedIn Email WhatsApp

Het onderzoek naar Kunstmatige Intelligentie draait niet langer alleen om het trainen van steeds grotere modellen. Het richt zich ook sterk op hoe deze AI efficiënter in productie kan worden genomen. In dat kader kondigen Intel en SambaNova een nieuwe gezamenlijke architectuur aan, ontworpen voor agentgestuurde AI, een type implementatie waarbij modellen niet alleen vragen beantwoorden, maar ook code compileren, tools aanroepen, databases raadplegen en complexe workflows coördineren.

Deze aanpak doorbreekt een lang gekoesterde overtuiging in de markt: dat de toekomst van AI-inferentie volledig op GPU’s gebouwd zou moeten zijn. Intel en SambaNova stellen daarentegen dat het tegenovergestelde waar is. Hun ontwerp gaat uit van het feit dat nieuwe agent-gestuurde workloads de beperkingen van “GPU-only” stacks blootleggen en dat het werk beter verdeeld moet worden over verschillende typen chips. Het aangekondigde systeem combineert GPU’s voor de prefill-fase, SambaNova’s RDU’s voor decoding en Intel Xeon 6-processors als host- en actie-CPU’s. Deze CPU’s coördineren taken, voeren tools uit en valideren resultaten.

De kernidee: elke fase van inferentie op de juiste chip

Het voorstel is technisch zeer doordacht. Bij moderne inferentie, vooral bij agent-gestuurde AI, is niet alle werk gelijk. De prefill-fase vergt veel parallel rekenwerk omdat lange prompts worden omgezet in cache-gevulde sleutel-waardeparens. Hier blijven GPU’s de natuurlijke keuze. Maar zodra het model overgaat in de decodeerfase, ligt de focus op snelle en consistente token-generatie met lage latentie. Voor deze fase plaatst SambaNova zijn SN50 RDU’s, geconfigureerde dataflow-accelatorokaal gebaseerd op reconfigureerbare hardware-architectuur.

De derde sleutelspeler vormen de Intel Xeon 6-processors. Deze worden niet slechts als bijrollen ingezet; volgens Intel en SambaNova vormen ze het controlevlak van het systeem en behandelen ze het “echte agent-werk”: code compileren en uitvoeren, API’s aanroepen, tools raadplegen, sandbox-omgevingen coördineren, werkpakketten verdelen en het systeemgedrag sturen. Dit is een ambitieuzer rol dan die van een eenvoudige host-CPU en onderstreept de visie dat de toekomstige AI-systemen meer gebalanceerd moeten zijn, met niet alleen veel accelerators maar ook krachtig samengevoegde centrale verwerkingscapaciteit.

Intel positioneert de CPU opnieuw als kern in AI-discussies

Dit sluit aan bij Intel’s bredere strategie rond Xeon 6. De volledige familie werd in februari 2025 gelanceerd en wordt door Intel gepositioneerd als de referentie-CPU voor moderne datacenters, vooral in scenario’s waarin AI niet geïsoleerd opereert, maar geïntegreerd is met netwerken, opslag, vector-databases en enterprise-toepassingen. In die presentatie benoemde Intel Xeon 6 als de “fundamentele CPU” voor AI-systemen en een processor die uitstekend samenwerkt met GPU’s op host-noden.

Recent brengt Intel dit debat naar een hoger niveau. Het draait niet alleen meer om het ondersteunen van GPU’s, maar ook om het herwinnen van functioneel terrein in het tijdperk van agent-gestuurde AI. Reuters meldde op 9 april dat de opkomst van AI-agenten de vraag naar algemene CPU’s versterkt. Veel AI-workloads vereisen het afhandelen van zware taken buiten de pure modelgeneratie. Intel zet hierop in met twee kernboodschappen: het datacentersoftware-ecosysteem blijft vooral gebaseerd op x86, en dat een aanzienlijk deel van de productie nog altijd afhankelijk is van het robuuste Xeon-ecosysteem.

SambaNova richt zich op het kostbaarste deel van inferentie

Voor SambaNova is het een strategische zet. Het bedrijf stelt al geruime tijd dat inferentie-economie niet eenvoudig op GPU’s alleen kan worden opgelost, en dat decoding-hardware specifiek moet worden ontwikkeld om tokenkosten te verlagen en latency concurrentieel te houden. In haar communicatie presenteert SambaNova de SN50 RDU als een oplossing die de “tokenomics” van inferentie verbetert — de balans tussen prestaties, kosten en schaalbaarheid bij grote model-implementaties.

Bovendien benadrukt SambaNova dat haar gezamenlijke architectuur op bestaande luchtgekoelde datacenters kan worden uitgerold, wat aantrekkelijk is voor bedrijven en cloud-providers die willen opschalen zonder volledige herinrichting van hun fysieke infrastructuur. Hoewel dit voordeel niet op zichzelf voldoende is voor grootschalige adoptie, biedt het wel een praktische optie die minder intensieve koeling en energie vereist dan veel andere oplossingen.

Veelbelovend, maar nog veel te bewijzen

Zoals bij vrijwel alle aankondigingen in deze scale, zit er een mix van roadmap en concreet product in. Intel en SambaNova geven aan dat deze heterogene inferentieoplossing tegen de tweede helft van 2026 beschikbaar zal zijn voor bedrijven, cloud-providers en sovereign AI-implementaties. Ook is ondertekend dat SambaNova Xeon 6 als host-CPU en haar RDU’s als inferentie-onderdeel in deze architectuur gaat standaardiseren. Dit wijst op een meer diepgaande samenwerking dan enkel marketing.

Toch blijven veel vragen onbeantwoord. De prestatievoordelen die SambaNova claimt — zoals een meer dan 50% verbetering in LLVM-compilatie ten opzichte van ARM-servers of 70% meer prestaties in vector databases — komen uit eigen tests van het bedrijf en niet uit onafhankelijke benchmarks. Dat ondermijnt niet de architectuur zelf, maar waarschuwt voor het lezen van dit nieuws als een definitieve marktwinst. Het blijft voorlopig een veelbelovend blueprint en niet de definitieve marktleider.

Wat deze samenwerking wel onderstreept, is een bredere trend: agentgestuurde AI dwingt de sector tot meer heterogene systemen waarin verschillende chips betrokken zijn bij de verschillende fases. Als die gedachte zich bewijst, verandert de discussie over AI-infrastructuur van “welke GPU kopen” naar “hoe verdeel ik de taken het beste over verschillende chips.” Intel en SambaNova willen zich positioneren in dat debat, en dat is in 2026 best belangrijk.

Veelgestelde vragen

Wat hebben Intel en SambaNova precies aangekondigd?
Een heterogene architectuur voor agent-gestuurde AI die GPU’s inzet voor prefill, SambaNova’s RDU’s voor decode, en Intel Xeon 6-processors voor coördinatie, tool-uitvoering en actieplanning.

Wat betekent dat Xeon 6 zowel host-CPU als “action CPU” is?
Dat het niet alleen de systeemcoördinator is, maar ook de processor die code compileert, uitvoert, API-aanroepen doet, tools raadpleegt en resultaten valideert in het agent-gestuurde AI-ecosysteem.

Wanneer komt deze oplossing beschikbaar?
Intel en SambaNova verwachten dat het in de tweede helft van 2026 beschikbaar zal zijn voor bedrijven, cloud-providers en sovereign AI-implementaties.

Waarom zijn GPU’s niet meer genoeg in sommige AI-implementaties?
Omdat agent-gestuurde AI verschillende fases kent met verschillende behoeften. GPU’s blijven nuttig voor prefill, maar decoding, orchestratie, tool-integratie en ecosystem-overleg vereisen mogelijk CPU’s en gespecialiseerde accelerators.

via: sambanova.ai

X (Twitter) Facebook LinkedIn Email WhatsApp