OpenAI opent MRC: het netwerk dat 100.000 AI-GPU’s bezighoudt

OpenAI heeft de specificatie van MRC gepubliceerd, een nieuw netwerkprotocol voor supercomputers voor Kunstmatige Intelligentie, ontwikkeld in samenwerking met AMD, Broadcom, Intel, Microsoft en NVIDIA. Het bedrijf heeft dit vrijgegeven via het Open Compute Project met een duidelijke doelstelling: dat de industrie deze infrastructuur, die al operationeel is in hun grootste trainingsclusters, kan gebruiken en verbeteren.

Hoewel het nieuws niet de commerciële glans heeft van een nieuw model, kan het even belangrijk zijn om te begrijpen in welke richting Kunstmatige Intelligentie zich beweegt. Het trainen van grensverleggende modellen hangt niet alleen af van meer GPU’s. Het vereist ook dat deze GPU’s onderling communiceren met een enorme precisie. Als een datapakket te laat arriveert, een verbinding faalt of een switch latentie introduceert, kunnen duizenden versnellingsprocessors wachten. Een GPU die stilvalt in een trainingscluster is niet slechts een technisch probleem: het kost geld, energie en tijd.

Waarom OpenAI een ander netwerk nodig had

OpenAI legt uit dat het trainen van grote modellen kan bestaan uit miljoenen datatransfers in slechts één stap. Bij synchroon trainen werken veel GPU’s gecoördineerd aan hetzelfde model. Dit betekent dat niet alleen de gemiddelde netwerkprestatie beslissend is, maar vooral de zwakste schakels: het pakket dat te laat aankomt, de congestieroute of de uitval van een verbinding op het verkeerde moment. Het bedrijf beschrijft deze belasting als een soort “versterker van fouten”, omdat bij grotere systemen kleine problemen zich sneller kunnen opstapelen en het gehele systeem kunnen beïnvloeden.

MRC, of Multipath Reliable Connection, probeert dit knelpunt op te lossen. Het is een uitbreiding van RoCE, de RDMA-technologie over Ethernet die wordt gebruikt voor directe gegevensuitwisseling tussen CPU en GPU. Het verschil is dat MRC één transactie verdeelt over honderden routes, microseconden kan uitwijken bij storingen, en het beheer van het netwerk via statische routing op basis van SRv6 vereenvoudigt.

OpenAI verzekert dat MRC al is geïmplementeerd in al haar grootste supercomputers met NVIDIA GB200, gebruikt voor het trainen van grensverleggende modellen, waaronder systemen in Oracle Cloud Infrastructure in Abilene, Texas, en de supercomputers Fairwater van Microsoft. Het bedrijf geeft ook aan dat het al verschillende modellen heeft getraind met MRC, gebruikmakend van NVIDIA- en Broadcom-hardware.

De context is van groot belang. OpenAI stelt dat ChatGPT meer dan 900 miljoen gebruikers per week heeft, een schaal die dwingt tot een heroverweging van de onderliggende infrastructuur. Het bedrijf werkt niet langer alleen met experimentele clusters, maar met systemen die deel uitmaken van een wereldwijde productieketen van modellen, producten en AI-diensten.

De kernidee: verdelen, spreiden en falen overleven

Een van de meest intrigerende aspecten van MRC is de topologie. In plaats van een 800 Gb/s netwerkinterface te beschouwen als één enkele aansluiting, stelt OpenAI voor deze op te splitsen in meerdere kleinere verbindingen. Bijvoorbeeld, een interface kan verbinding maken met acht verschillende switches, en daarmee acht parallelle lijnen van 100 Gb/s creëren. Deze keuze verandert de structuur van het cluster: een switch die normaal 64 poorten van 800 Gb/s zou koppelen, kan nu 512 poorten van 100 Gb/s connecten. Volgens OpenAI maakt dit het mogelijk om een netwerk op te bouwen dat ongeveer 131.000 GPU’s verbindt met slechts twee lagen switches, tegenover drie of vier lagen bij conventioneel ontwerp.

Het verminderen van lagen is geen kleinigheid. Minder switches betekent minder energieverbruik, minder onderdelen die kunnen falen en minder operationele complexiteit. Maar het opsplitsen van het netwerk in meerdere lagen only werkt als het dataverkeer optimaal wordt benut. Daar komt het adaptieve “packet spraying” bij kijken: MRC verstuurt niet één enkele patronen van gegevens via één route, maar verdeelt de pakketten over vele paden tegelijk.

Problemen bij grote AI-clustersTraditionele aanpakWat MRC bijdraagt
Congestie op specifieke verbindingenMeestal één route voor elke stroomVerdeelt pakketten over honderden routes
Storingen van verbindingen of switchesNetwerk berekent nieuwe routes en kan seconden vertragenVermijdt defecte routes in microseconden
Meer dan 100.000 GPU’s schaalMeer lagen switches nodigGebruik van multiprotocol netwerken met slechts twee lagen
Out-of-order pakkettenKan prestaties verminderenElk pakket bevat eindadres van het geheugen
Complexiteit van het control-planeDynamische protocollen zoals BGPStatische routes met SRv6 en beheer vanaf de bron
NetwerkonderhoudRekening houden met trainingstijdReparaties en herstarten zonder onderbreking van de werkzaamheden

In een traditioneel netwerk kunnen pakketten die via verschillende routes worden gestuurd, uit de ordening raken. MRC voorkomt dat doordat elk pakket zijn eindadres bevat, waardoor de bestemming ze direct op de juiste plek kan plaatsen zodra ze arriveren. Dit vermindert knelpunten en voorkomt dat sommige overdrachten aanzienlijk trager worden dan andere.

Het protocol onderscheidt ook beter tussen verlies door storingen en verlies door congestie. Als een switch een compleet pakket niet kan doorsturen, kan hij de payload inkorten en alleen de header verzenden. Deze “packet trimming” maakt expliciete retransmissies mogelijk zonder automatisch te concluderen dat de hele route defect is. Het vermindert false positives en houdt goede routes beschikbaar, zelfs als het probleem geen fysieke storing is.

SRv6 en het einde van lastige diagnoseproblemen

MRC introduceert een andere belangrijke keuze: het vervangen van een deel van het traditionele dynamische routeringsproces door source routing met SRv6. In plaats van dat switches dynamisch routes berekenen, geeft de bron het pad door dat elk pakket moet volgen. De switches lezen alleen identifiers en volgen vooraf ingestelde statische tabellen.

Dit vereenvoudigt de operatie aanzienlijk. Bij een routefout stopt MRC die te gebruiken. De switches hoeven niet opnieuw te onderhandelen over paden of routes te herberekenen. Voor een cluster met miljoenen verbindingen is deze vermindering van complexiteit net zo waardevol als het vergroten van de bandbreedte.

OpenAI geeft voorbeelden uit de praktijk ter illustratie. Tijdens trainingssessies heeft het bedrijf enkele transiënt storingen waargenomen tussen switches op het laagste niveau zonder dat dit de training beïnvloedde. Bij een recente training van ChatGPT- en Codex-modellen moest het bedrijf vier switches op niveau 1 opnieuw opstarten, zonder de werkzaamheden te storen. Vroeger zou zo’n operatie de planning flink compliceren om de voortgang niet te verstoren.

De kern is dat een netwerk dat fouttolerant is, het mogelijk maakt om onderhoud uit te voeren en verbindingen te repareren zonder het gehele trainingsproces stil te leggen. Dat verhoogt de productiviteit en vermindert risico’s.

Een open standaard voor een infrastructuurrace

Het feit dat OpenAI MRC via het Open Compute Project vrijgeeft, heeft een strategische betekenis. Het bedrijf houdt het protocol niet achter gesloten deuren, maar biedt het als specificatie voor anderen in de industrie. Dit is een teken dat bepaalde lagen van AI-infrastructuur standaarden nodig hebben om efficiënt te kunnen opschalen.

De AI-race wordt niet alleen gewonnen door betere modellen of meer hardwareversnellers. Het gaat ook om netwerken die optimaal gebruik maken van die GPU’s, datacenters die energie besparen, systemen die bestand zijn tegen storingen en architecturen die kunnen groeien zonder onbeheerste complexiteit. MRC past precies in die onzichtbare laag die door de eindgebruiker niet wordt gezien, maar die bepaalt of een lab modellen groter, sneller en met minder resource-verbruik kan trainen.

Het is ook opmerkelijk dat AMD, Broadcom, Intel, Microsoft en NVIDIA verschillende belangen hebben in de AI-markt, maar één gezamenlijk probleem: als grote clusters niet goed kunnen communiceren, presteren de hardware niet zoals het zou moeten. OpenAI noemt ook Microsoft Azure, OCI, NVIDIA en Arista in haar wereldwijde implementaties. Dit onderstreept dat AI-infrastructuur tegenwoordig een industriële samensmelting is van vele partijen, niet slechts een softwarestack.

De publicatie van MRC betekent niet dat alle datacenters het meteen gaan adopteren. Het vereist compatibele hardware, integratie, testing en gespecialiseerde netwerkoperaties. Maar het stuurt in ieder geval een duidelijke boodschap: clusters van meer dan 100.000 GPU’s hebben netwerken nodig die continu storingen aankunnen, niet alleen perfect functioneren onder ideale omstandigheden.

In de praktijk wil MRC dat GPU’s blijven doorwerken bij congestie, instabiele verbindingen, onderhoud of verschuivende routes. Deze capaciteit lijkt misschien minder spectaculair dan nieuwe modellen, maar het zorgt er wel voor dat die modellen überhaupt kunnen bestaan. De grensverleggende AI begint bij de algoritmes, maar wordt ondersteund door kabels, switches, protocollen en architectuurbeslissingen die onaangedaan moeten werken.

Veelgestelde vragen

Wat is MRC?
MRC, of Multipath Reliable Connection, is een door OpenAI ontwikkeld netwerkprotocol in samenwerking met AMD, Broadcom, Intel, Microsoft en NVIDIA, dat de prestaties en betrouwbaarheid van grote AI-trainingsclusters verbetert.

Waarom is het belangrijk voor het trainen van grote modellen?
Omdat het gedistribueerd trainen enorme datastromen vereist tussen duizenden tot honderdduizenden GPU’s. Vertraging of uitval in een enkele transfer kan het hele trainingsproces vertragen of onderbreken.

Wat biedt MRC ten opzichte van een traditioneel netwerk?
MRC verdeelt pakketten over honderden paden, gebruikt multi-laags netwerken, ondervindt storingen in microseconden en vereenvoudigt het routingproces met SRv6 en statische routes.

Wie kan MRC gebruiken?
OpenAI heeft de specificatie via het Open Compute Project vrijgegeven zodat fabrikanten, cloudproviders en onderzoekscentra deze kunnen bestuderen, adopteren en verder ontwikkelen.

Scroll naar boven