Marvell wil de CXL-geheugen uitknijpen met siliconencompressie

Memoria is geworden een van de kostbaarste en meest gespannen onderdelen van de AI-infrastructuur. Het zijn niet alleen GPU’s die ontbreken; het zijn gigabytes dicht bij de processor, server DDR5-modules, in-memory databases, capaciteit voor inferentie van grote modellen en systemen die vector search kunnen ondersteunen zonder dat de kosten per knooppunt exponentieel toenemen. In dit kader stelt Marvell een eenvoudig uit te leggen, maar moeilijk uit te voeren idee voor: compressie van geheugen direct in de CXL-controller.

Het voorstel is gebaseerd op Structera X en Structera A, hun familie van CXL-apparaten voor geheugenu expansive en datacentra expansie. Het bedrijf zegt dat de huidige bottleneck niet opgelost kan worden door simpelweg meer DRAM toe te voegen, omdat DRAM duur, schaars en concurrerend is met de vraag uit AI-datacenters. Het belangrijkste verschil ligt in een specifiek hardwareblok, genaamd Compression-Decompression Block, dat gegevens comprimeert wanneer ze naar het geheugen worden geschreven en decomprimeert bij het lezen, zonder tussenkomst van de processor en zonder zichtbare wijzigingen voor het besturingssysteem.

De economische belofte is direct: als een workload een compressieratio van 2:1 toelaat, kan elke fysieke gigabyte zich gedragen als twee nuttige gigabytes. Bij hogere ratios neemt het potentiële besparingspotentieel toe. In een periode waarin de prijs van serversgeheugen bepalend is voor de aankoop van systemen, kan dit verschil net zo zwaar wegen als de keuze van CPU of GPU.

CXL breidt niet alleen het geheugen uit, het kan ook de werkelijke kosten aanpassen

Compute Express Link, kortweg CXL, maakt het mogelijk om geheugen en acceleratoren coherente en semantische connectiviteit over PCIe te bieden aan de processor. In de praktijk opent het de deur om de capaciteit verder uit te breiden dan de DDR-banken van het servergeheugen, geheugenlagen te creëren en in geavanceerdere versies te werken aan meer gedeeld of gedesaggregeerd geheugen.

Tot nu toe lag de focus van veel discussies over CXL op het toevoegen van meer geheugen aan servers die niet meer konden groeien binnen de traditionele CPU-kanalen. Marvell wil die discussie verder door te stellen dat het niet genoeg is om fysieke capaciteit toe te voegen; men moet ook de bruikbare capaciteit verhogen, vooral wanneer veel gegevens in geheugen comprimeerbaar zijn.

ElementWat levert het op
CXLBreidt geheugen uit buiten traditionele DDR-kanalen
Structera XControllers voor het vergroten van geheugencapaciteit per systeem
Structera AAccelerators dicht bij geheugen voor zware workloads
CDBCompressie en decompressie in silicon
LZ4Snel, verliesvrij algoritme met lage latentie
One-to-many mappingMaakt meer virtueel geheugen beschikbaar voor de host dan fysieke DRAM

Het verschil met softwarecompressie zit in waar de kosten worden gedragen. Wanneer een database, analytische engine of applicatie comprimeert met de CPU, wint men capaciteit, maar verbruikt het CPU-cycli, verhoogt het de complexiteit en vereist het dat de software erop voorbereid is. Marvell verplaatst die taak naar dedicated silicon binnen de CXL-device, met als doel die te houden in lijn met de geheugenbandbreedte en uit de weg van de CPU.

De CDB-blok, dé kern van het nieuwe aanbod

Het Compression-Decompression Block is geen externe bibliotheek of een firmware-optie die naderhand wordt toegevoegd. Marvell presenteert het als een dedicated hardwareblok dat geïntegreerd is in hun Structera CXL-apparaten. Het werkt transparant: de host schrijft data, de controller comprimeert deze voordat ze in DRAM worden opgeslagen; bij het lezen decomprimeert de controller de data en levert deze alsof het gewone geheugen betreft.

Het bedrijf gebruikt een eigen variant van LZ4, een bekend verliesvrij compressiealgoritme dat bekend staat om zijn snelheid. LZ4 wordt toegepast in databases, opslag- systemen, analytische motoren en software waar decompressielatentie belangrijk is. De keuze is niet gericht op maximale compressie, maar op een evenwicht tussen ratio, latency en bandbreedte.

Gerapporteerde metricWaarde
AlgoritmeAfkomstig van LZ4
Pagina groottes4 KB en 1 KB
Maximaal ratio64:1 in volledig nullen pagina’s
Niveaus van inspanning0 tot 3, instelbaar
CompressietypeVerliesvrij
Host zichtbaarheidVolledig transparant voor CPU en OS

Het maximale ratio van 64:1 klinkt aantrekkelijk, maar moet met voorzichtigheid worden geïnterpreteerd: het verwijst naar extreme gevallen, zoals pagina’s geheel uit nullen bestaan. In praktijk hangt de bruikbare mate van compressie af van het datatypes. Teksten, code, webcontent, binaire bestanden, databases en natuurlijke taal worden niet hetzelfde gecomprimeerd.

Hoeveel nuttige geheugenruimte kan worden gewonnen?

Marvell publiceert ratios voor diverse datatypes en vergelijkt die met LZ4 in software. In hun metingen benadert Structera CDB vaak dezelfde compressie-kwaliteit als LZ4 in software, maar dan zonder de CPU-belasting.

DatatypeRatio Structera CDBRatio LZ4 in host
XML2,75x2,64x
Databank (nci)3,64x3,65x
Broncode (samba)2,00x2,07x
Webcontent (webster)1,67x1,65x
Natuurlijk taal (dickens)1,32x1,32x
Gecompileerde binaries (mozilla)1,68x1,73x

De meest interessante conclusie is niet alleen het hoogste ratio, maar vooral de consistentie ervan. Voor XML en databanken kan het voordeel erg groot zijn. Voor natuurlijke taal is de winst bescheidener. In binaries hangt het af van de inhoud. Voor echte infrastructuren is dit een belangrijke reden om eerst te meten: niet alle workloads maken fysiek 12 TB uit tot 24 TB nuttig, laat staan 48 TB.

Zelfs ratios van 1,5x tot 2x kunnen de kosten aanzienlijk beïnvloeden. In omgevingen met grote geheugenkapaciteit vermindert een toename in bruikbare capaciteit zonder bijkomende modules de kosten, het energieverbruik, de fysieke ruimte en de druk op de supply chain. In in-memory databases, recommender-systemen, LLM-inferentie, caches, vector search engines en analytische workloads is geheugen geen accessoire: het is onderdeel van de kosten per query of gebruiker.

Waarom is dit nu relevant? DDR5 is cruciaal geworden

Het bericht komt op een moment dat serversgeheugen niet langer als een goedkope commodity wordt beschouwd. Marvell citeert spotprijzen van $27 tot $37 per GB voor DDR5 RDIMM, wat een pool van 12 TB op ongeveer een half miljoen dollar zou brengen puur voor DRAM. Ze wijzen ook op prijsstijgingen tussen 300% en 400% sinds midden 2025.

Hoewel deze cijfers marktgerelateerde referenties zijn, passen ze in een bredere trend. geheugenfabrikanten richten zich op HBM, serversDRAM, contracten met hyperscalers en AI-gerelateerde producten. Het aanbod van algemeen serversgeheugen concurreert met een veel agressievere vraag dan enkele jaren geleden.

ProbleemImpact op infrastructuur
Duurbetaand DDR5Stijgende kosten voor systemen en CXL-netwerken
Vraag naar AIVerhoogt de productievereisten
Prioriteit voor HBMVersnelt investeringen in hogere marges
Meer modellen voor inferentieGroei in geheugenvraag per knooppunt
In-memory databasesVergroot de druk op bruikbare capaciteit
Vector searchVereist grote hoeveelheden dicht bij de compute

Hardwarecompressie creëert geen nieuwe DRAM, maar laat de bestaande beter werken. Die nuance is belangrijk. Het lost niet alle leveringsproblemen op, maar kan wel de aankopen uitstellen, maximale configuraties beperken en ontwerpen mogelijk maken die anders te duur zouden zijn zonder compressie.

Niet alle workloads zijn gelijk

Het belangrijkste risico van deze technologie is de illusie dat het universeel voordeel oplevert. Dat is niet het geval. Compressie hangt af van de data. Workloads met veel herhaling, gestructureerde data of veel nullen kunnen er aanzienlijk van profiteren. Gegevens die al gecomprimeerd, versleuteld of met hoge entropie zijn, winnen nauwelijks capaciteit. Daarnaast introduceert CXL zijn eigen latentie tegenover lokaal DDR-geheugen, en compressie voegt een extra element toe dat moet worden geëvalueerd.

Dat betekent niet dat de technologie onbetrouwbaar is, maar dat de juiste toepassing moet worden gevonden. CXL-gecomprimeerd geheugen kan vooral aantrekkelijk zijn voor koud of warm geheugen, grote gegevensbestanden met onregelmatige toegang, tweede-laags caches, databases die niet altijd volledige capaciteit in lokaal DDR gebruiken, of workloads waarbij de kosten per GB belangrijker zijn dan nanosecondvertragingen.

Geschikte workloadsMinder geschikt
Databases met comprimeerbare dataAl gecomprimeerde data
Grote cachesUltralichte workloads
Vector search met duur geheugenGegevens versleuteld in geheugen
Recommenders met grote tabellenZeer willekeurige toegangspatronen
Analytische workloads in geheugenPieken die CXL tot bottleneck maken
Gelaagd geheugenToepassingen zonder tolerantie voor variaties

De daadwerkelijke adoptie hangt af van onafhankelijke tests, integratie met besturingssystemen, observability tools, geheugenallocatiebeleid en de volwassenheid van CXL op iedere platform. Hardware kan compressie transparant maken, maar architecten moeten nog steeds weten welk deel van het geheugen op lokaal DDR ligt en welk deel in CXL-gecomprimeerd is.

Een indicatie voor de toekomst van geheugen en AI

De bredere conclusie is dat de industrie geheugen steeds meer begint te zien als een actieve laag, niet slechts een passieve bytesopslag. Jarenlang werden gewoon DRAM’s toegevoegd en werd aangenomen dat software ze automatisch zou gebruiken. Met AI, vectorbanken en grote inferentiemotoren wordt dat steeds complexer. Nu moet men bepalen welke gegevens HBM verdienen, welke in lokaal DDR blijven, welke naar CXL kunnen en welke kunnen worden gecomprimeerd zonder te veel prestatieverlies.

Marvell positioneert zich aan die grens. Structera concurreert niet met CPU’s of GPU’s, maar met de kosten van het vullen van systemen met DIMMs. In grote datacenters kan het besparen van modules net zo waardevol zijn als het behalen van brute prestaties. Minder fysiek DRAM betekent ook minder energieverbruik en minder druk op een overvolle supply chain.

Deze aanpak wordt niet exclusief voor Marvell. Als geheugen echter duur blijft, zullen andere CXL-controllers, accelerators en serverarchitecturen vergelijkbare mechanismen zoeken. Compressie, deduplicatie, automatische tiering en gedeeld geheugen worden standaardtools om capaciteit uit te persen.

De gigabyte nuttig wordt de nieuwe metriek

Voorheen werd geheugen vooral gekocht op basis van fysieke capaciteit: 512 GB, 1 TB, 3 TB, 12 TB. In de nieuwe wereld gaat het om nuttige capaciteit per euro, per watt, per slot en workload. Daar kan silicon-gebaseerde compressie de conversatie veranderen.

Marvell zegt niet dat alle data vervijfvoudigt, noch dat CXL-gecomprimeerd geheugen DRAM vervangt. Hun kernboodschap is dat in een markt waar elke gigabyte kostbaar is, het niet logisch is om comprimeerbare data te behandelen alsof geheugen nog goedkoop is.

Als CXL wordt erkend als natuurlijke uitbreiding van servergeheugen, kan inline compressie van een differentiërend kenmerk veranderen in een basisvoorwaarde. In AI, waar schaal zowel in rekentijd als in geheugen wordt gemeten, telt elke gigabyte. De innovatie is dat Marvell wil dat elke gigabyte méér dan één keer telt.

Veelgestelde vragen

Wat is Marvell Structera CXL?
Een familie van CXL-apparaten voor het uitbreiden van geheugencapaciteit en het dichterbij brengen van acceleratie in datacenterservers.

Wat doet de CDB-compressie?
Compressie van data in hardware bij schrijven naar DRAM, en decompressie bij lezen, transparant voor CPU, OS en applicaties.

Maakt dat altijd dat dubbel geheugen
Nee. De ratio hangt af van de data. Marvell toont ratios van 1,32x tot 3,64x, met veel hogere ratios alleen in extreme gevallen zoals pagina’s vol nullen.

Welke workloads profiteren het meest?
In-memory databases, recommenders, LLM-inferentie, vectorsearch, grote caches en workloads waar capaciteit belangrijker is dan minimale latency.

vía: marvell

Scroll naar boven