Skymizer belooft modellen met 700B parameters op één PCIe-kaart te brengen - Cloud News

X (Twitter) Facebook LinkedIn Email WhatsApp

Skymizer heeft HTX301 onthuld, zijn eerste referentiechip gebaseerd op het HyperThought-platform, met een zeer veelbelovende belofte voor de markt van AI-inferentie: het lokaal uitvoeren van taalmodellen tot 700 miljard parameters op één enkele PCIe-kaart met zes HTX301-chips, 384 GB geheugen en een geschat verbruik van ongeveer 240 W per kaart.

De aanpak richt zich direct op een van de grote problemen in bedrijfsmatige AI. Veel organisaties willen grote modellen gebruiken zonder gevoelige data naar externe services te sturen, maar het uitvoeren van geavanceerde inferentie lokaal vereist vaak GPU-clusters, dure interconnecties, complexe koeling en gespecialiseerde hardware. Skymizer beweert dat haar architectuur dit model kan vereenvoudigen door de inferencefasen beter te scheiden en delen van het werk naar specifiek ontworpen silicium voor token-generatie te verplaatsen.

Lees de aankondiging met voorzichtigheid. Het bedrijf spreekt van een belangrijke vooruitgang en biedt vroege toegang, maar er zijn nog geen uitgebreide onafhankelijke tests, gedetailleerde publieke prestatiegegevens per model, nauwkeurigheid, quantisatie, werkelijke latentie, commerciële kosten of massale beschikbaarheid. Desalniettemin is het concept interessant omdat het aansluit bij een duidelijke trend: inference begint meer te wegen dan training in de operationele kosten van AI.

Een chip ontworpen voor de generatiefase

Skymizer presenteert HTX301 als een antwoord op de veranderende toepassingen van grote modellen. Tijdens de vroege fase van generatieve AI lag de focus vooral op het trainen van steeds grotere modellen. Nu hebben veel bedrijven een andere uitdaging: hoe deze modellen consistent, veilig en voorspelbaar in praktische toepassingen kunnen worden ingezet — bijvoorbeeld in agenten, interne copiloten, zoekalgoritmes, klantenservice, documentanalyse of programmeertools.

De technische kern van HyperThought ligt in het scheiden van twee inferentiefases bij taalmodellen. De eerste is “prefill”, waarin het systeem de prompt verwerkt — een proces dat computationeel intensief is. De tweede is “decode”, waarbij het model tokens één voor één genereert. Deze fase is meestal meer beperkt door bandbreedte en latentie dan door brute rekenkracht.

Huidige GPU’s kunnen beide taken uitvoeren, maar zijn niet altijd de meest efficiënte optie voor elk. Skymizer beweert dat haar “decode-first” architectuur het mogelijk maakt om gespecialiseerde chips voor de generatiefase te gebruiken, terwijl bestaande GPU’s kunnen blijven zorgen voor de meer intensieve rekentaken. De eigen verklaring is dat HTX301 de GPU-infrastructuur aanvult in plaats van deze volledig te vervangen.

Dit nuanceverschil is belangrijk. De opvallendste boodschap van de aankondiging is dat het gebruik van grote GPU-clusters voor lokale uitvoering overbodig wordt gemaakt. In de praktijk lijkt de technische strategie van Skymizer echter genuanceerder: gebruik maken van gespecialiseerde hardware om de inferentie efficiënter te maken en GPU’s vrij te maken in bepaalde scenario’s.

Dataveiligheid en kosten voorspelbaarder

De zakelijke argumentatie is even relevant als de technologische. Skymizer richt zich op bedrijven die niet afhankelijk willen zijn van token-inferentie via publieke clouds. In sectoren als bankieren, gezondheidszorg, rechtspraak, overheidsdiensten, defensie, industrie en chip-ontwerp kan het delen van gegevens met externe platforms problematisch zijn door privacy, regelgeving, intellectuele eigendom of operationele controle.

Een kaart die grote modellen lokaal kan draaien, zou de kosten en de infrastructuur voor sommige implementaties kunnen veranderen. In plaats van te betalen op basis van gebruik in de cloud of complexe clusters op te zetten, kan een organisatie eigen capaciteit installeren voor gerichte workloads en data, modellen en antwoorden binnen haar eigen infrastructuur houden.

Het bedrijf noemt ook cases zoals privé-copiloten voor code, assistenten voor RTL-ontwerp, contractcontrole, klinische analyses, fraudedetectie of bedrijfsagenten. In deze scenario’s zijn latency, privacy en voorspelbare kosten zeer belangrijk. Elke situatie zal echter afhangen van het gekozen model, het volume van queries, beveiligingsvereisten en de kwaliteit van het software-ecosysteem.

HTX301 is gebaseerd op LISA, de Language Instruction Set Architecture van Skymizer, een eigen architectuur gericht op inferentie van transformatoren. Het bedrijf presenteerde eerder HyperThought als een IP voor AI-generatie en multimodale toepassingen, van edge-apparaten tot on-premise deploys. In 2025 meldde Synopsys dat Skymizer haar HAPS-platform had gebruikt om HyperThought hardwarematig te valideren vóór definitieve siliciumproductie, wat wijst op een ontwikkeling gebaseerd op prototype- en co-ontwerp van hardware en software.

Een krachtige belofte, maar nog te valideren

De meest ambitieuze uitspraak in de aankondiging is dat een enkele PCIe-kaart met zes HTX301-chips en 384 GB geheugen inferentie kan uitvoeren voor modellen met 700 miljard parameters, met ongeveer 240 W. Dit klinkt veelbelovend vergeleken met het gebruikelijke grote model-uitrol op meerdere high-end GPU’s. Toch ontbreken essentiële details om de daadwerkelijke schaal te beoordelen: het exacte formaat van het model, type quantisatie, tokens per seconde, aantal gelijktijdige gebruikers, contextgrootte, outputkwaliteit, sustained performance en vergelijking met huidige GPU’s in vergelijkbare omstandigheden.

In AI zegt de beschikbare geheugenruimte niet alles. Een model van 700 miljard parameters kan sterk verschillen in grootte afhankelijk van de precisie en quantisatie. Daarnaast is extra geheugen nodig voor KV-cache, context, batch-verwerking, runtime en orkestratie. Het wordt daarom een interessante mogelijkheid, maar er zijn nog geen onafhankelijke benchmarks of tests met bekende modellen om de werkelijke impact te meten.

De markt beweegt in een richting waarbij dit type oplossingen steeds relevanter wordt. Naarmate bedrijven minder experimenteren en meer inzetten op het continu draaien van AI-agents en automatiseringen, wordt inferentie een voortdurende kostenpost. Elke query, agent of workflow verbruikt tokens. Bij hoge consumptie kunnen cloud-inferentie-kosten snel oplopen, wat een drempel vormt voor grootschalige inzet.

Daarom zoekt de sector naar alternatieven voor de standaard GPU-architectuur. Niet alleen Skymizer, maar de hele markt kijkt naar chips speciaal ontworpen voor inferentie, NPUs, LPUs, edge-accelerators, ASICs en geheugen dat dichter bij het rekenproces ligt. Het doel is niet altijd maximumkracht, maar verbeterde kosten-per-token, minder verbruik, lagere latentie en makkelijker te implementeren oplossingen.

Skymizer probeert zich te onderscheiden met een completeness-strategie: een volledige stack van chip, kaart, geheugen, ISA en orkestratiesoftware die prefill en decode scheidt. Als deze visie een stabiel product wordt, kan het aansluiting vinden bij organisaties die AI privé en onder controle willen houden zonder te investeren in een mega-infrastructuur.

De grote vraag is of HTX301 een echte alternatief wordt of slechts een belofte in een markt vol ambitieuze aankondigingen. Hardware voor AI is complex: een goede chip alleen is niet genoeg. Software, compilers, modelondersteuning, integratie met frameworks, updates, monitoringtools, commerciële beschikbaarheid en klantvertrouwen zijn essentieel. GPU’s domineren niet alleen door kracht, maar door een uitgebreid ecosysteem.

HTX301 verdient aandacht omdat het inspeelt op een echte behoefte: het eenvoudiger, efficiënter en betaalbaarder maken van lokale inferentie voor grote modellen. Maar de daadwerkelijke impact hangt af van praktijktests en productiemogelijkheden. Als Skymizer consistente prestaties en praktische compatibiliteit met bedrijfsmodeellen kan aantonen, opent het mogelijk een interessante weg om geavanceerde AI uit de grote datacenters te halen.

Veelgestelde vragen

Wat is Skymizer HTX301?
HTX301 is het eerste referentiechip van Skymizer gebaseerd op het HyperThought-platform, ontworpen voor inferentie van taalmodellen en AI-belastingen in lokale omgevingen.

Kan het modellen met 700 miljard parameters draaien op één enkele kaart?
Skymizer beweert dat een PCIe-kaart met zes HTX301-chips en 384 GB geheugen inferentie van modellen tot 700 miljard parameters mogelijk maakt, met een verbruik van circa 240 W. Er ontbreken nog uitgebreide onafhankelijke tests om prestatie, nauwkeurigheid en de exacte condities te bevestigen.

Vervangt HTX301 GPU’s?
Niet noodzakelijk. Skymizer presenteert HTX301 als een complementaire architectuur die de decodefase uit de inferentie kan overladen, terwijl GPU’s zich blijven richten op intensievere rekentaken.

Voor welke bedrijven is het nuttig?
Voor organisaties die AI lokaal willen draaien vanwege privacy, datavoorkeuren, latency of voorspelbare kosten, zoals in bankwezen, gezondheidszorg, rechtshandhaving, overheidsdiensten, defensie, industrie of softwareontwikkeling.

vía: skymizer.ai

X (Twitter) Facebook LinkedIn Email WhatsApp