AMD en OpenAI openen MRC, het protocol dat knelpunten in AI wil voorkomen

AMD, OpenAI, Microsoft en andere grote spelers uit de industrie hebben MRC gepresenteerd, wat staat voor Multipath Reliable Connection. Dit nieuwe netwerkprotocol is ontworpen om de prestaties en de veerkracht van grote AI-trainingsclusters te verbeteren. De specificatie is gepubliceerd via het Open Compute Project, met als doel dat de sector het kan adopteren, los van de interne implementaties binnen de deelnemende bedrijven.

Voor de meeste mensen klinkt dit misschien erg technisch, maar het raakt een van de grootste uitdagingen in de huidige AI-wereld. Het trainen van geavanceerde modellen is niet meer alleen afhankelijk van het uitbreiden van GPU-capaciteit. Op grote schaal wordt de daadwerkelijke prestatie ook bepaald door het netwerk dat deze GPU’s verbindt. Als honderden of duizenden accelerators continue en gesynchroniseerd data moeten uitwisselen, kunnen congestie, instabiele verbindingen of switch-fouten de training vertragen of onderbreken, met kosten in de miljoenen.

De afgelopen jaren lag de meeste aandacht in AI-infrastructuur op GPU’s, HBM-geheugen, aangepaste chips en energiezuinigheid. MRC verschuift de focus naar een even cruciale laag: hoe data zich binnen het supercomputer-systeem verplaatst. OpenAI vat het kernachtig samen: de netwerkinrichting bepaalt hoeveel rekenkracht daadwerkelijk benut kan worden.

Wat verandert MRC ten opzichte van traditionele netwerken?

In een traditioneel netwerk volgt een dataoverdracht meestal één pad. Dit werkt wellicht in simpele omgevingen, maar in grote AI-clusters kan dat leiden tot knelpunten. Verschillende datastromen kunnen via dezelfde verbinding lopen, wat de latency verhoogt en de collectieve operaties beïnvloedt, waarbij alle GPU’s op hetzelfde tempo moeten werken.

MRC doorbreekt dat oude model. In plaats van alle pakketten via één enkele route te sturen, worden ze over meerdere paden gelijktijdig verspreid. OpenAI beschrijft dit als een dispersie van pakketten over honderden routes binnen multi-layered netwerken. De pakketten kunnen soms in de verkeerde volgorde aankomen, maar bevatten alle benodigde informatie voor correcte reconstructie op de bestemming.

Het doel is om congestie te verminderen en te voorkomen dat één enkele verbinding de hele training stopt. Bij gesynchroniseerde training bepaalt de traagste verbinding het overall rendement; als een onderdeel langzaam is, wachten de rest. Daarom is het reduceren van latentie variaties minstens zo belangrijk als het verhogen van de maximale bandbreedte.

MRC bevat ook mechanismen voor detectie en herstel bij fouten. Detecteert het protocol congestie, kan het automatisch overschakelen op alternatieve routes. Bij verlies van pakketten wordt ervan uitgegaan dat er een probleem in dat pad is; het path wordt uitgeschakeld en de informatie wordt opnieuw verzonden. OpenAI stelt dat door multi-layered networking, load balancing, packet spraying en packet trimming, fouten in enkele microseconden kunnen worden afgehandeld, terwijl conventionele netwerken soms seconden of tientallen seconden nodig hebben om te herstellen.

Een andere belangrijke keuze is het gebruik van IPv6 Segment Routing (SRv6). Hiermee kan de zender expliciet aangeven via welk pad elk pakket moet reizen. Dit vermindert de afhankelijkheid van dynamische routing-protocollen zoals BGP binnen de fabric. Voor grote AI-clusters kan dit de werking vereenvoudigen en voorspelbaarder maken bij incidenten.

AMD versterkt haar inzet voor open Ethernet met MRC

Voor AMD komt MRC op een strategisch belangrijk moment. Het bedrijf concurreert niet alleen met GPU’s via de Instinct-serie, maar ook met CPUs (EPYC) en netwerktechnologie (Pensando). AMD benadrukt dat AI-infrastructuur gebaseerd moet zijn op open, programmeerbare en productiebereide technologieën in plaats van gesloten oplossingen die lastig aan te passen zijn.

AMD heeft een significante rol gespeeld in de specificatie van MRC, onder andere door technologie voor congestiebeheer en implementatieondersteuning aan te bieden. Het bedrijf heeft MRC al getest in grootschalige clusters in samenwerking met grote cloudproviders. Dit is nog geen brede adoptie, maar een eerste validatie en ingebruikname in grote omgevingen.

Het meest zichtbare hardware-element is de AMD Pensando Pollara 400 AI NIC, een 400 Gbps netwerkkaart ontworpen voor AI-belastingen. AMD wijst op zijn P4-programmeerbare engine, geavanceerde RDMA-capaciteiten, ondersteuning voor OCP 3.0, en functies zoals intelligent load balancing, snelle foutherstel en congestion control. Volgens AMD kan de Pollara 400 worden geüpdatet om nieuwe normen te ondersteunen, wat essentieel is in een markt waar netwerpprotocollen voor AI zich nog ontwikkelen.

AMD koppelt ook MRC aan haar toekomstige AMD Pensando “Vulcano” 800G AI NIC. Die ondersteunt hetzelfde transportprotocol en past bij een markt die meer bandbreedte en veerkracht vereist. Als een 800G-netwerk onder echte omstandigheden slecht presteert, is de bruto snelheid minder relevant. MRC tracht dat verschil tussen theoretische snelheid en bruikbare prestatie te dichten.

Een alliantie met concurrenten binnen dezelfde standaard

De lijst van betrokken partijen onderstreept de strategische betekenis van het protocol. De MRC-specificatie, gepubliceerd door OCP, bevat bijdragen van AMD, Broadcom, Intel, Microsoft, NVIDIA en OpenAI. Dat is minder gebruikelijk in concurrentie-omgevingen, maar logisch uit het perspectief van het gedeelde probleem: niemand wil dat AI-netwerken een blijvende bottleneck vormen.

NVIDIA heeft ook aangekondigd MRC-ondersteuning te bieden via Spectrum-X Ethernet. Het gebruik van MRC op ConnectX SuperNICs en Spectrum-X switches bevestigt dat het protocol niet exclusief is voor AMD, maar deel uitmaakt van een bredere discussie over Ethernet-innovatie voor AI.

Het feit dat het protocol via het Open Compute Project wordt gedeeld, heeft een belangrijke industriële betekenis. De markt voor AI-netwerken kent diverse benaderingen: InfiniBand, geavanceerd Ethernet, Ultra Ethernet, proprietaire oplossingen, programmeerbare NICs en fabrics specifiek voor accelerators. Door MRC open te stellen, worden de deelnemers gestimuleerd om een gemeenschappelijke basis te leggen, wat grootschalige training zonder afhankelijkheid van gesloten systemen mogelijk moet maken.

Voor cloudklanten, bedrijven, onderzoekscentra en projecten in AI-soevereiniteit kan deze openheid van groot belang zijn. AI-implementaties groeien buiten de grote Amerikaanse hyperscalers. Overheden, universiteiten en regionale providers willen zelfstandige capaciteit opbouwen, maar hebben technologie nodig die niet leidt tot lock-in. Hoewel MRC dat niet volledig wegneemt, wijst het wel de weg naar een meer interoperabele en programmeerbare netwerkinfrastructuur.

De daadwerkelijke adoptie wordt beïnvloed door hardware-ondersteuning, software-volwassenheid, integratie met trainingsframeworks, observabiliteitstools, operationele kosten en de beschikbaarheid van apparatuur. Daarnaast zal bekeken moeten worden hoe MRC zich verhoudt tot andere standaardisatie-inspanningen zoals Ultra Ethernet en de netwerkarchitecturen van verschillende providers.

De kernboodschap is helder: de volgende fase van AI-ontwikkeling wordt niet alleen gewonnen met meer chips. Het draait om volledige systemen die deze chips blijven benutten, gesynchroniseerd en operationeel kunnen blijven, ook bij gedeeltelijk falende infrastructuur. MRC probeert het netwerk een meer veerkrachtige, minder fragiele laag te maken die beter aansluit bij grote trainingsprocessen.

Wanneer het protocol daadwerkelijk voldoet aan de beloftes, kan het helpen om stilstand te verminderen, de GPU-gebruikingsgraad te verhogen en grootschalige clusters gemakkelijker te realiseren zonder de operationele complexiteit te verzwaren. In een industrie waar elke verhoging in apparaatbenutting direct invloed heeft op kosten, energieverbruik en trainingstijd, wordt de netwerkinfrastructuur een belangrijk concurrentievoordeel in plaats van slechts een technische detail.

Veelgestelde vragen

Wat is MRC?
MRC, oftewel Multipath Reliable Connection, is een netwerkprotocol dat is ontworpen voor grote AI-trainingsclusters. Het verdeelt data over meerdere paden om congestie te beperken en herstel van fouten te versnellen.

Wie heeft MRC ontwikkeld?
De specificatie bevat bijdragen van AMD, Broadcom, Intel, Microsoft, NVIDIA en OpenAI. Het is gepubliceerd via het Open Compute Project.

Waarom is MRC belangrijk voor AI?
Omdat grote modellen afhankelijk zijn van continue datastromen tussen duizenden of honderdduizenden GPU’s. Als het netwerk faalt of congestie optreedt, vertraagt het trainingproces, ondanks flinke rekenkracht.

Welke rol speelt AMD in MRC?
AMD zegt dat zij mede hebben geleid in de specificatie, technologie voor congestiebeheer hebben bijgedragen en MRC al hebben geïmplementeerd in hun netwerkomgeving, onder andere met de AMD Pensando Pollara 400 en de komende Vulcano 800G NIC.

vía: amd

Scroll naar boven