AMD, Nvidia en de hyperscalers drijven de optica voor AI aan

De kunstmatige intelligentie-industrie heeft zojuist een stap gezet die misschien technisch lijkt, maar in werkelijkheid gericht is op de kern van de toekomstige superclusters voor training en inferentie. AMD, Broadcom, Meta, Microsoft, NVIDIA en OpenAI hebben de oprichting aangekondigd van de Optical Compute Interconnect (OCI) Multi-Source Agreement (MSA), een consortia dat een open specificatie voor optische interconnectie wil definiëren voor de schaalvergroting van AI-systemen. Met andere woorden: ze willen de basis leggen om het interne koperen bekabelingsnetwerk, dat nu acceleratoren en switches binnen grote racks en domeinen verbindt, te vervangen door speciaal ontworpen optische verbindingen.

De belangrijkheid van deze aankondiging ligt niet alleen in de namen die het ondertekenen, maar vooral in het probleem dat ze proberen op te lossen. Naarmate AI-clusters groter worden, wordt het dataverkeer tussen GPU’s, XPU’s en interne switches een van de grote knelpunten in het systeem. Broadcom betoogt bijvoorbeeld al enige tijd dat de groei van deze omgevingen de grenzen van koper op het gebied van verbruik, bereik en dichtheid begint te naderen, vooral bij steeds compacter wordende en veeleisendere AI-architecturen. NVIDIA benadrukt eveneens dat schaalvergroting binnen de rack een kritieke laag is om de prestaties te behouden, wanneer tientallen of honderden versnellers bijna als één systeem moeten communiceren.

OCI stelt niet voor een nieuw gesloten protocol of een proprietair platform te ontwikkelen, maar een gemeenschappelijke fysieke optische laag. Het consortia legt uit dat het doel is een interoperabele basis te creëren waarop verschillende ontwerpen van processoren, switches en interconnectietechnologieën kunnen coexistieren, met een multi-verkoper aanpak en gericht op de reële behoeften van de hyper-schalige datacentra. In de praktijk zou dit het marktlandschap minder afhankelijk maken van één enkele toeleveringsketen of benadering van interne connectiviteit in grote AI-systemen.

Van koper naar optisch binnen de rack

Tot nu toe werd optiek vooral geassocieerd met “scale-out”, dus de verbinding tussen servers, racks of complete infrastructuurblokken. De “scale-up” bleef grotendeels afhankelijk van elektrische korte-afstandslinken om GPU’s en switches te verbinden met minimale latentie. Het probleem is dat de groei van modellen en compute-gebieden deze grens begint te verleggen. De OCI MSA stelt dat de fysieke limieten van koper de architectuur van deze systemen al beïnvloeden en dat de migratie naar optiek op dit interne niveau later deze decade noodzakelijk zal worden.

De initiële roadmap van de groep is relatief voorzichtig, maar duidelijk ambitieus. De specificatie start met OCI GEN1 met 4 golflengten bij 50 Gb/s NRZ, wat neerkomt op 200 Gb/s per richting, en voorziet een meerzijdig bidirectioneel OCI GEN2 dat 400 Gb/s per kant kan bereiken, tot 800 Gb/s per glasvezel. Vervolgens schetst het consortia een pad om het aantal golflengten en de signaalverwerkingssnelheden te verhogen, tot 3,2 Tb/s per glasvezel en verder. Dit is geen directe marktbare snelheid, maar wel een roadmap over meerdere hardwaregeneraties.

Interessant is ook de brede ondersteuning voor diverse formaatopties. Het consortia spreekt over modules die plug-in zijn, optiek op een printplaat en co-packaged optics (CPO), een technologie die erop gericht is om de optiek maximaal te integreren met silicium voor compute en switching, wat energiebesparing en hogere dichtheid ten goede komt. Broadcom, dat hier al enkele jaren op inzet, benadrukt dat de overgang naar CPO een sleutelrol zal spelen in het schaalvergroten van AI-clusters zonder de energiekosten en warmteproductie te laten exploderen.

Een industrieel gerichte consortia met een duidelijke boodschap

De oprichting van OCI MSA weerspiegelt niet alleen een technische specificatie of roadmap, maar ook een strategische shift binnen de industrie. Het is geen exclusieve groep van netwerk- of halfgeleiderproducenten, maar een samenwerkingsverband van hardware-ontwerpers en AI-infrastructuuroperators op grote schaal. Meta, Microsoft en OpenAI zijn hier niet slechts als observatoren, maar als oprichters betrokken, samen met AMD, Broadcom en NVIDIA. Dit is significant, omdat het aangeeft dat de drang om de interne connectiviteit van AI-systemen te herdefiniëren niet alleen uit de chip- en switchbranche komt, maar vooral van degenen die grote en kostbare clusters willen inzetten.

De corporate boodschappen van de betrokken partijen volgen dezelfde lijn. AMD onderstreept de groeiende behoefte aan “scale-up” optische verbindingen voor grote AI-systemen later deze eeuw. Microsoft benadrukt dat optische technologieën, protocollen en switcharchitecturen essentieel zullen zijn voor het bouwen van high-performance compute-domeinen, verspreid over meerdere racks. OpenAI verbindt deze ontwikkeling direct aan de toenemende vraag naar petaflops, geheugenbandbreedte en netwerkcapaciteit om de schaal van AI-supercomputers door te zetten. Hoewel deze uitspraken vooral bedrijfsberichten zijn, vormen ze samen een duidelijke conclusie: de next-gen knelpunten liggen niet meer alleen bij de accelerators, maar ook bij de onderlinge verbindingen.

Het is opvallend dat NVIDIA zich aansluit bij dit initiatief, terwijl het nog vasthoudt aan zijn eigen “scale-up” ecosysteem met NVLink. Dit betekent niet dat NVIDIA afstand doet van haar proprietary voordelen, maar wel dat de markt zich begint voor te bereiden op een laagoptische interoperabiliteit waar verschillende actoren van kunnen profiteren, zelfs met verschillende technologieën. Volgens Tom’s Hardware is het idee om een gemeenschappelijk optisch fundament te ontwikkelen waarop diverse protocollen en systemen kunnen draaien, ongeacht de leverancier.

Hoe dit de ontwerpprincipes van AI-clusters kan veranderen

Als dit initiatief succesvol wordt, kan de impact veel groter zijn dan alleen de bekabeling. Een open, gemeenschappelijke optische laag kan het integratierisico verkleinen, deploymentcycli verkorten en meer aanbieders in staat stellen bij te dragen aan de bouw van AI-racks. Voor hyperscalers betekent dat meer flexibiliteit in het combineren van compute, switching en optiek zonder vast te zitten aan een gesloten, exclusief ecosysteem. Voor de toeleveringsketen opent het de deur naar een breder ecosysteem voor korte-afstand optiek binnen AI. En voor de markt betekent het dat discussie over AI-toekomst niet alleen meer draait om wie de snelste GPU produceert, maar ook om wie de beste connectiviteit biedt.

Het is echter belangrijk om niet te overdrijven. OCI MSA is nog maar net geboren. Wat tot nu toe is gepresenteerd, betreft een specificatie en een roadmap, geen kant-en-klaar product dat morgen datacenters kan veranderen. Hoeveel tractie het krijgt, in hoeverre het echt interoperabel wordt tussen hardwaregeneraties en hoe het zal integreren met bestaande ecosystems, moeten we nog afwachten. Maar de koers is duidelijk: optiek wordt niet alleen een techniek om racks te verbinden, maar een kerncomponent binnen de compute-domeinen zelf. En omdat AI-clusters blijven groeien, kan dat uiteindelijk één van de meest belangrijke beslissingen voor de infrastructuur deze decennia worden.

Veelgestelde vragen

Wat is OCI MSA en waarvoor wordt het gebruikt?

OCI MSA is een consortia opgericht door AMD, Broadcom, Meta, Microsoft, NVIDIA en OpenAI om een open specificatie voor optische interconnectie te ontwikkelen, gericht op de schaalvergroting van AI-systemen, oftewel de interne connectiviteit tussen accelerators en switches binnen grote compute-domeinen.

Welke snelheid belooft de roadmap van OCI?

De roadmap begint met 200 Gb/s per richting in OCI GEN1 en voorziet in een uitbreiding tot 800 Gb/s per glasvezel in de eerste generaties, met een latere evolutie naar 3,2 Tb/s en meer.

Waarom wil de industrie koper vervangen door optiek in AI-schaalvergroting?

Omdat koper-systemen al beperkingen beginnen te ondervinden op het gebied van bereik, energieverbruik en dichtheid bij de steeds grotere AI-clusters. Optiek biedt een oplossing om het netwerk uit te breiden, zonder in te boeten op prestaties en met beter energiebeheer.

Vervangt dit technologieën zoals NVLink of UALink?

Niet per se. Het consortia wil een gemeenschappelijke, interoperabele optische fysieke laag opbouwen die als fundament kan dienen voor verschillende ontwerpen en netwerktopologieën, zonder bestaande protocollen direct overboord te gooien.

vía: tomshardware

Scroll naar boven