Memoria is geworden een van de kostbaarste en meest gespannen onderdelen van de AI-infrastructuur. Het zijn niet alleen GPU’s die ontbreken; het zijn gigabytes dicht bij de processor, server DDR5-modules, in-memory databases, capaciteit voor inferentie van grote modellen en systemen die vector search kunnen ondersteunen zonder dat de kosten per knooppunt exponentieel toenemen. In dit kader stelt Marvell een eenvoudig uit te leggen, maar moeilijk uit te voeren idee voor: compressie van geheugen direct in de CXL-controller.
Het voorstel is gebaseerd op Structera X en Structera A, hun familie van CXL-apparaten voor geheugenu expansive en datacentra expansie. Het bedrijf zegt dat de huidige bottleneck niet opgelost kan worden door simpelweg meer DRAM toe te voegen, omdat DRAM duur, schaars en concurrerend is met de vraag uit AI-datacenters. Het belangrijkste verschil ligt in een specifiek hardwareblok, genaamd Compression-Decompression Block, dat gegevens comprimeert wanneer ze naar het geheugen worden geschreven en decomprimeert bij het lezen, zonder tussenkomst van de processor en zonder zichtbare wijzigingen voor het besturingssysteem.
De economische belofte is direct: als een workload een compressieratio van 2:1 toelaat, kan elke fysieke gigabyte zich gedragen als twee nuttige gigabytes. Bij hogere ratios neemt het potentiële besparingspotentieel toe. In een periode waarin de prijs van serversgeheugen bepalend is voor de aankoop van systemen, kan dit verschil net zo zwaar wegen als de keuze van CPU of GPU.
CXL breidt niet alleen het geheugen uit, het kan ook de werkelijke kosten aanpassen
Compute Express Link, kortweg CXL, maakt het mogelijk om geheugen en acceleratoren coherente en semantische connectiviteit over PCIe te bieden aan de processor. In de praktijk opent het de deur om de capaciteit verder uit te breiden dan de DDR-banken van het servergeheugen, geheugenlagen te creëren en in geavanceerdere versies te werken aan meer gedeeld of gedesaggregeerd geheugen.
Tot nu toe lag de focus van veel discussies over CXL op het toevoegen van meer geheugen aan servers die niet meer konden groeien binnen de traditionele CPU-kanalen. Marvell wil die discussie verder door te stellen dat het niet genoeg is om fysieke capaciteit toe te voegen; men moet ook de bruikbare capaciteit verhogen, vooral wanneer veel gegevens in geheugen comprimeerbaar zijn.
| Element | Wat levert het op |
|---|---|
| CXL | Breidt geheugen uit buiten traditionele DDR-kanalen |
| Structera X | Controllers voor het vergroten van geheugencapaciteit per systeem |
| Structera A | Accelerators dicht bij geheugen voor zware workloads |
| CDB | Compressie en decompressie in silicon |
| LZ4 | Snel, verliesvrij algoritme met lage latentie |
| One-to-many mapping | Maakt meer virtueel geheugen beschikbaar voor de host dan fysieke DRAM |
Het verschil met softwarecompressie zit in waar de kosten worden gedragen. Wanneer een database, analytische engine of applicatie comprimeert met de CPU, wint men capaciteit, maar verbruikt het CPU-cycli, verhoogt het de complexiteit en vereist het dat de software erop voorbereid is. Marvell verplaatst die taak naar dedicated silicon binnen de CXL-device, met als doel die te houden in lijn met de geheugenbandbreedte en uit de weg van de CPU.
De CDB-blok, dé kern van het nieuwe aanbod
Het Compression-Decompression Block is geen externe bibliotheek of een firmware-optie die naderhand wordt toegevoegd. Marvell presenteert het als een dedicated hardwareblok dat geïntegreerd is in hun Structera CXL-apparaten. Het werkt transparant: de host schrijft data, de controller comprimeert deze voordat ze in DRAM worden opgeslagen; bij het lezen decomprimeert de controller de data en levert deze alsof het gewone geheugen betreft.
Het bedrijf gebruikt een eigen variant van LZ4, een bekend verliesvrij compressiealgoritme dat bekend staat om zijn snelheid. LZ4 wordt toegepast in databases, opslag- systemen, analytische motoren en software waar decompressielatentie belangrijk is. De keuze is niet gericht op maximale compressie, maar op een evenwicht tussen ratio, latency en bandbreedte.
| Gerapporteerde metric | Waarde |
| Algoritme | Afkomstig van LZ4 |
| Pagina groottes | 4 KB en 1 KB |
| Maximaal ratio | 64:1 in volledig nullen pagina’s |
| Niveaus van inspanning | 0 tot 3, instelbaar |
| Compressietype | Verliesvrij |
| Host zichtbaarheid | Volledig transparant voor CPU en OS |
Het maximale ratio van 64:1 klinkt aantrekkelijk, maar moet met voorzichtigheid worden geïnterpreteerd: het verwijst naar extreme gevallen, zoals pagina’s geheel uit nullen bestaan. In praktijk hangt de bruikbare mate van compressie af van het datatypes. Teksten, code, webcontent, binaire bestanden, databases en natuurlijke taal worden niet hetzelfde gecomprimeerd.
Hoeveel nuttige geheugenruimte kan worden gewonnen?
Marvell publiceert ratios voor diverse datatypes en vergelijkt die met LZ4 in software. In hun metingen benadert Structera CDB vaak dezelfde compressie-kwaliteit als LZ4 in software, maar dan zonder de CPU-belasting.
| Datatype | Ratio Structera CDB | Ratio LZ4 in host |
| XML | 2,75x | 2,64x |
| Databank (nci) | 3,64x | 3,65x |
| Broncode (samba) | 2,00x | 2,07x |
| Webcontent (webster) | 1,67x | 1,65x |
| Natuurlijk taal (dickens) | 1,32x | 1,32x |
| Gecompileerde binaries (mozilla) | 1,68x | 1,73x |
De meest interessante conclusie is niet alleen het hoogste ratio, maar vooral de consistentie ervan. Voor XML en databanken kan het voordeel erg groot zijn. Voor natuurlijke taal is de winst bescheidener. In binaries hangt het af van de inhoud. Voor echte infrastructuren is dit een belangrijke reden om eerst te meten: niet alle workloads maken fysiek 12 TB uit tot 24 TB nuttig, laat staan 48 TB.
Zelfs ratios van 1,5x tot 2x kunnen de kosten aanzienlijk beïnvloeden. In omgevingen met grote geheugenkapaciteit vermindert een toename in bruikbare capaciteit zonder bijkomende modules de kosten, het energieverbruik, de fysieke ruimte en de druk op de supply chain. In in-memory databases, recommender-systemen, LLM-inferentie, caches, vector search engines en analytische workloads is geheugen geen accessoire: het is onderdeel van de kosten per query of gebruiker.
Waarom is dit nu relevant? DDR5 is cruciaal geworden
Het bericht komt op een moment dat serversgeheugen niet langer als een goedkope commodity wordt beschouwd. Marvell citeert spotprijzen van $27 tot $37 per GB voor DDR5 RDIMM, wat een pool van 12 TB op ongeveer een half miljoen dollar zou brengen puur voor DRAM. Ze wijzen ook op prijsstijgingen tussen 300% en 400% sinds midden 2025.
Hoewel deze cijfers marktgerelateerde referenties zijn, passen ze in een bredere trend. geheugenfabrikanten richten zich op HBM, serversDRAM, contracten met hyperscalers en AI-gerelateerde producten. Het aanbod van algemeen serversgeheugen concurreert met een veel agressievere vraag dan enkele jaren geleden.
| Probleem | Impact op infrastructuur |
| Duurbetaand DDR5 | Stijgende kosten voor systemen en CXL-netwerken |
| Vraag naar AI | Verhoogt de productievereisten |
| Prioriteit voor HBM | Versnelt investeringen in hogere marges |
| Meer modellen voor inferentie | Groei in geheugenvraag per knooppunt |
| In-memory databases | Vergroot de druk op bruikbare capaciteit |
| Vector search | Vereist grote hoeveelheden dicht bij de compute |
Hardwarecompressie creëert geen nieuwe DRAM, maar laat de bestaande beter werken. Die nuance is belangrijk. Het lost niet alle leveringsproblemen op, maar kan wel de aankopen uitstellen, maximale configuraties beperken en ontwerpen mogelijk maken die anders te duur zouden zijn zonder compressie.
Niet alle workloads zijn gelijk
Het belangrijkste risico van deze technologie is de illusie dat het universeel voordeel oplevert. Dat is niet het geval. Compressie hangt af van de data. Workloads met veel herhaling, gestructureerde data of veel nullen kunnen er aanzienlijk van profiteren. Gegevens die al gecomprimeerd, versleuteld of met hoge entropie zijn, winnen nauwelijks capaciteit. Daarnaast introduceert CXL zijn eigen latentie tegenover lokaal DDR-geheugen, en compressie voegt een extra element toe dat moet worden geëvalueerd.
Dat betekent niet dat de technologie onbetrouwbaar is, maar dat de juiste toepassing moet worden gevonden. CXL-gecomprimeerd geheugen kan vooral aantrekkelijk zijn voor koud of warm geheugen, grote gegevensbestanden met onregelmatige toegang, tweede-laags caches, databases die niet altijd volledige capaciteit in lokaal DDR gebruiken, of workloads waarbij de kosten per GB belangrijker zijn dan nanosecondvertragingen.
| Geschikte workloads | Minder geschikt |
| Databases met comprimeerbare data | Al gecomprimeerde data |
| Grote caches | Ultralichte workloads |
| Vector search met duur geheugen | Gegevens versleuteld in geheugen |
| Recommenders met grote tabellen | Zeer willekeurige toegangspatronen |
| Analytische workloads in geheugen | Pieken die CXL tot bottleneck maken |
| Gelaagd geheugen | Toepassingen zonder tolerantie voor variaties |
De daadwerkelijke adoptie hangt af van onafhankelijke tests, integratie met besturingssystemen, observability tools, geheugenallocatiebeleid en de volwassenheid van CXL op iedere platform. Hardware kan compressie transparant maken, maar architecten moeten nog steeds weten welk deel van het geheugen op lokaal DDR ligt en welk deel in CXL-gecomprimeerd is.
Een indicatie voor de toekomst van geheugen en AI
De bredere conclusie is dat de industrie geheugen steeds meer begint te zien als een actieve laag, niet slechts een passieve bytesopslag. Jarenlang werden gewoon DRAM’s toegevoegd en werd aangenomen dat software ze automatisch zou gebruiken. Met AI, vectorbanken en grote inferentiemotoren wordt dat steeds complexer. Nu moet men bepalen welke gegevens HBM verdienen, welke in lokaal DDR blijven, welke naar CXL kunnen en welke kunnen worden gecomprimeerd zonder te veel prestatieverlies.
Marvell positioneert zich aan die grens. Structera concurreert niet met CPU’s of GPU’s, maar met de kosten van het vullen van systemen met DIMMs. In grote datacenters kan het besparen van modules net zo waardevol zijn als het behalen van brute prestaties. Minder fysiek DRAM betekent ook minder energieverbruik en minder druk op een overvolle supply chain.
Deze aanpak wordt niet exclusief voor Marvell. Als geheugen echter duur blijft, zullen andere CXL-controllers, accelerators en serverarchitecturen vergelijkbare mechanismen zoeken. Compressie, deduplicatie, automatische tiering en gedeeld geheugen worden standaardtools om capaciteit uit te persen.
De gigabyte nuttig wordt de nieuwe metriek
Voorheen werd geheugen vooral gekocht op basis van fysieke capaciteit: 512 GB, 1 TB, 3 TB, 12 TB. In de nieuwe wereld gaat het om nuttige capaciteit per euro, per watt, per slot en workload. Daar kan silicon-gebaseerde compressie de conversatie veranderen.
Marvell zegt niet dat alle data vervijfvoudigt, noch dat CXL-gecomprimeerd geheugen DRAM vervangt. Hun kernboodschap is dat in een markt waar elke gigabyte kostbaar is, het niet logisch is om comprimeerbare data te behandelen alsof geheugen nog goedkoop is.
Als CXL wordt erkend als natuurlijke uitbreiding van servergeheugen, kan inline compressie van een differentiërend kenmerk veranderen in een basisvoorwaarde. In AI, waar schaal zowel in rekentijd als in geheugen wordt gemeten, telt elke gigabyte. De innovatie is dat Marvell wil dat elke gigabyte méér dan één keer telt.
Veelgestelde vragen
Wat is Marvell Structera CXL?
Een familie van CXL-apparaten voor het uitbreiden van geheugencapaciteit en het dichterbij brengen van acceleratie in datacenterservers.
Wat doet de CDB-compressie?
Compressie van data in hardware bij schrijven naar DRAM, en decompressie bij lezen, transparant voor CPU, OS en applicaties.
Maakt dat altijd dat dubbel geheugen
Nee. De ratio hangt af van de data. Marvell toont ratios van 1,32x tot 3,64x, met veel hogere ratios alleen in extreme gevallen zoals pagina’s vol nullen.
Welke workloads profiteren het meest?
In-memory databases, recommenders, LLM-inferentie, vectorsearch, grote caches en workloads waar capaciteit belangrijker is dan minimale latency.
vía: marvell
