Zyphra heeft Zyphra Cloud gelanceerd, een nieuw platform voor Kunstmatige Intelligentie gebouwd op AMD-infrastructuur, ontworpen om grote opensource-modellen in productie te brengen. Deze stap plaatst het San Francisco-gebaseerde bedrijf steeds meer in de voorhoede van de markt: inferentie van geavanceerde modellen, waar niet alleen goed getraind moet worden, maar waar ook snelle, stabiele antwoorden tegen redelijke kosten geleverd moeten worden.
Het platform wordt geïntroduceerd met Zyphra Inference, een serverloze inferentieservice waarmee toegang mogelijk is tot modellen zoals DeepSeek V3.2, Kimi K2.6 en GLM 5.1. Volgens het bedrijf combineert de service aangepaste kernels, algoritmes voor lange contexten en geavanceerde parallellesystemen, met als doel lange termijn workloads te ondersteunen zoals agent programming, diepe research en geautomatiseerde workflows in complexe omgevingen.
Deze ontwikkeling wordt ondersteund door AMD Instinct MI355X GPU’s die worden ingezet op de infrastructuur van TensorWave, een cloudprovider gespecialiseerd in AI en High-Performance Computing (HPC) die uitsluitend met AMD Instinct accelerators werkt. Voor AMD betekent deze aankondiging een verdere uitbreiding van haar strategie om te concurreren in het veld van versnelde AI, waar NVIDIA momenteel de markt domineert dankzij CUDA, haar ecosysteem en sterke aanwezigheid in datacenters.
Inferentie wordt het nieuwe slagveld
In de afgelopen jaren lag de focus bij AI vooral op het trainen van grote modellen. Maar nu bedrijven AI-assistenten, agents en geautomatiseerde systemen in operationele processen integreren, wint inferentie aan belang. Elke query, elk agentsessie en elke langdurige workflow vergt geheugen, bandbreedte en een architectuur die de context kan behouden zonder de latentie te veel te verhogen.
Hier wil Zyphra zich onderscheiden. Het bedrijf beweert dat Zyphra Inference ontworpen is voor grote MoE-typen modellen en workloads met veel context, waarbij KV- en prefixcaches een aanzienlijk deel van het beschikbare geheugen kunnen innemen. In zulke scenario’s kan extra HBM-geheugen per GPU het aantal herberekeningen verminderen en de hoeveelheid actieve sessies per node verhogen, voordat performance achteruitgaat.
De AMD Instinct MI355X GPU’s ondersteunen deze technische strategie. Volgens AMD beschikken deze GPU’s over 288 GB HBM3E geheugen en een bandbreedte van 8 TB/s, evenals ondersteuning voor low-precision formaten zoals MXFP8, MXFP6 en MXFP4. Deze formaten maken het mogelijk om modellen met minder geheugen en hogere snelheid te draaien, afhankelijk van de toepassing en de precisie-implementatie.
Zyphra heeft daarnaast een technische analyse gepubliceerd waarin wordt vergeleken hoe een 8-GPU node van MI355X zich verhoudt tot een vergelijkbare configuratie met 8 B200 GPU’s, voor een specifiek geval met Kimi K2.6. Volgens Zyphra kan een MI355X-node circa 184 actieve agenten met een context van 256K behouden, tegenover ongeveer 100 bij de B200. Hoewel dit een schatting en geen onafhankelijk benchmark is, geeft het wel een indicatie van de prestaties: minder wachttijden, meer sessies in het geheugen en beter gedrag bij lange workloads.
AMD versterkt haar profiel in AI in de cloud
Dit initiatief heeft ook een bredere strategische betekenis voor AMD. Al geruime tijd probeert het bedrijf haar positie in AI-infrastructuur te versterken via de Instinct-familie en haar ROCm-softwareplatform voor versnelde computing. Het grote doel is niet alleen chips verkopen, maar volledige stacks demonstreren die in staat zijn om geavanceerde modellen in productie te draaien.
Zyphra en TensorWave helpen deze boodschap kracht bij te zetten. TensorWave levert AMD-gebaseerde compute-infrastructuur, terwijl Zyphra zich richt op software, modellen, kernels en inferentiediensten. Deze combinatie wijst op een duidelijke trend: meer aanbieders proberen alternatieven te bieden voor het dominante NVIDIA-stack, niet noodzakelijk om het meteen te vervangen, maar om meer keuzevrijheid te bieden in kosten, beschikbaarheid en technologische soevereiniteit.
Het gebruik van opensource gewichten voegt een extra laag toe aan de aankondiging. Steeds meer bedrijven en ontwikkelteams zoeken naar opties die meer controle bieden over modellen, deploys en kosten. DeepSeek, Kimi en GLM winnen aan platform in deze context, vooral voor partijen die willen bouwen op krachtige modellen zonder volledig afhankelijk te worden van gesloten systemen.
Toch zal de markt niet alleen op specificaties beslissen. Voor AI-inferentie zijn service-stabiliteit, feitelijke reactietijden, compatibiliteit met bestaande tools, quota-beheer, kosten, documentatie en vertrouwen cruciaal. Zyphra begint met een ambitieus technisch verhaal, maar moet vooral haar prestaties bewijzen in productieomgevingen, met klanten die niet enkel één model testen, maar een volledige operationele operatie.
Een platform dat verder wil dan alleen modellen serveren
Zyphra Cloud start met inferentie, maar de onderneming geeft aan dat ze het platform wil uitbreiden. In de nabije toekomst worden onder meer services voor distributed post-training, reinforcement learning, fine-tuning, geïsoleerde agent-omgevingen en ontwikkeling op AMD EPYC CPU’s aangekondigd, evenals toegang tot dedicated GPU-clusters en bare-metal infrastructuur.
Dit is relevant omdat veel AI-projecten niet meer alleen draaien op het oproepen van een model via API. Organisaties willen modellen aanpassen, agents inzetten in gecontroleerde omgevingen, gevoelige data beschermen en capaciteit reserveren voor voorspelbare workloads. Als Zyphra erin slaagt om inferentie, bijtraining en agent-omgevingen op één platform te combineren, kan het een belangrijke positie innemen in een segment waar operationeel controle en flexibele infrastructuur steeds belangrijker worden.
Daarnaast is er een markttrend zichtbaar. Generatieve AI verschuift van geïsoleerde tests naar systemen die langdurig werken, tools raadplegen, sessies onthouden en taken keten. Dit soort toepassingen stelt hogere eisen aan infrastructuur dan eenvoudige chatbots. Daardoor spreken aanbieders minder over ‘modellen’ in abstracte zin en meer over complete platformen voor agents, lange contexten en persistentie in workflows.
Zyphra Cloud is vanaf 04/05/2026 beschikbaar. Het bedrijf heeft nog geen details gegeven over prijzen, service levels of concrete limieten per model. Die informatie zal bepalend zijn voor de geschiktheid in zakelijke omgevingen. Voorlopig speelt de lancering in op de groeiende aandacht dat AI-infrastructuur niet alleen draait om modeltraining, maar ook om het effectief bedienen van modellen met voldoende geheugen in steeds gespecialiseerdere en efficiëntere hardware-omgevingen.
Veelgestelde vragen
Wat is Zyphra Cloud?
Zyphra Cloud is een AI-platform gericht op ontwikkelaars, bedrijven en AI-providers dat begint met een serverloze inferentiedienst voor opensource-modellen.
Welke modellen zijn beschikbaar via Zyphra Inference?
Voorlopig gaat het om DeepSeek V3.2, Kimi K2.6 en GLM 5.1, met plannen om nieuwe open modellen toe te voegen zodra die beschikbaar komen.
Waarom zijn AMD Instinct MI355X GPU’s belangrijk?
Omdat ze 288 GB HBM3E geheugen en 8 TB/s bandbreedte bieden, ideaal voor workloads met grote modellen, uitgebreide context en veel gelijktijdige sessies.
Wordt Zyphra Cloud alleen gebruikt voor inferentie?
Nee. Het platform zal zich ook uitbreiden met mogelijkheden zoals fine-tuning, reinforcement learning, geïsoleerde agent-omgevingen, GPU-clusters en bare-metal infrastructuur.
via: zyphra
