Ultra Ethernet: dezelfde kabels, een andere schaal voor AI-netwerken in datacenters - Cloud News

X (Twitter) Facebook LinkedIn Email WhatsApp

Jarenlang is Ethernet de universele taal gebleven in datacenters: betaalbaar, alomtegenwoordig, interoperabel en ondersteund door een uitgebreid ecosysteem van switches, NICs, optica en tools. Maar de explosie van Kunstmatige Intelligentie (AI) en High-Performance Computing (HPC) clusters heeft een ongemakkelijke realiteit blootgelegd: in deployments met tienduizenden versnellingskaarten is de knelpunt niet langer altijd de GPU… maar vaak de netwerkverbinding die het geheel koppelt.

Het probleem gaat niet alleen over “meer bandbreedte”. In moderne clusters is het east-west verkeer (tussen nodes) immens, onregelmatig en uiterst gevoelig voor latentie en micro-onderbrekingen. In dat kader hebben veel oplossingen geprobeerd Ethernet te “versimpelen” tot een laag-latentienetwerk, maar ze erven beperkingen uit het verleden: starre routes, moeilijk af te stemmen congestion control op grote schaal en kwetsbaarheid wanneer het netwerk zich uitbreidt en burstpatronen zoals in AI ontstaan.

Onder deze spanningsboog is Ultra Ethernet ontstaan: een initiatief dat niet bestaande infrastructuur wil vervangen, maar fysiek compatibel blijft met Ethernet/IP (zelfde connectoren en transceivers), terwijl het een interconnectiearchitectuur introduceert die vanaf dag één is ontworpen voor AI-netwerken op grote schaal. Het resultaat: “dezelfde kabels”, maar met een volledig andere manier van transport en operatie.

Een consortium dat de laag van de interconnectie opnieuw wil vormgeven zonder Ethernet los te laten

De Ultra Ethernet Consortium (UEC) definieert zichzelf als een industriële inspanning om Ethernet specifiek te evolueren voor AI- en HPC-workloads. De grote ambitie is het ontwikkelen van specificaties die schaalbare, lage latency netwerken mogelijk maken met efficiëntie en beter gedrag bij congestie, terwijl ze binnen het Ethernet-ecosysteem blijven. Deze filosofie — onderlaag compatibel, revolutie erboven — maakt het aantrekkelijk voor operators die niet afhankelijk willen zijn van één particulier stack voor hun interconnectie-infrastructuur.

In de praktijk presenteert Ultra Ethernet zich als een “gestapeld systeem”: de fysieke laag blijft die van standaard Ethernet, maar er worden nieuwe (of herijkte) mechanismen toegevoegd op data link- en transportlagen, vooral in hoe betrouwbaarheid, multipath, congestiebeheer en security worden beheerd als het netwerk niet meer slechts een datacenter is, maar een AI-fabriek.

Van “strikt ordenen” naar “efficiënte aflevering”: de sleutelverandering

Een veelgehoorde technische redenering rondom Ultra Ethernet is dat strikte ordering — wat in bepaalde scenario’s nuttig is — juist een belemmering kan vormen bij multipad en het voorkomen van valse congestie in grote fabricen. In enorme netwerken kan het afdwingen dat alles via één pad loopt leiden tot queues waar dat niet hoort, alternatieve routes onderbenut en een verhoogde kans op piekbelasting.

Ultra Ethernet schetst een meer flexibele benadering: laten dat pakketten verschillende routes volgen, soms in de war geraken, en toch snel weer worden “hersteld” bij aankomst. Daarbij wordt prioriteit gegeven aan efficiëntie en throughput-stabiliteit, zonder de latentie te verwaarlozen onder praktische omstandigheden. Het betekent een mentaliteitsverandering: het netwerk stopt met zich te gedragen als een “geordende snelweg” met één rijstrook en wordt een mesh, waarin het doel is dat berichten aankomen goed en op tijd, ook al is het pad dynamisch.

Veiligheid en controle: ingebouwde ‘indakanten’, geen add-on

Een andere belangrijke onderscheidende factor van het consortium is dat veiligheid niet wordt toegevoegd als extra laag, maar ingebakken in het transport zelf. In grote fabricen is veiligheid geen theoretisch probleem: slechte segmentatie, inconsistente configuraties of te grote afhankelijkheid van externe controles kunnen de infrastructuur kwetsbaar maken.

Ultra Ethernet onderstreept dat transportbeveiliging — inclusief gegevensbescherming tijdens verzending — onderdeel moet zijn van het ontwerp en de interoperabiliteit, in plaats van een overlaylaag die elke operator naar eigen inzicht implementeert, met onzekere resultaten tot gevolg.

Specificaties: er zijn al versies… maar de echte uitdaging is acceptatie

Hier is het belangrijk om twee niveaus te onderscheiden: specificatie en uitrol. Het consortium heeft al meerdere iteraties van de specificatie uitgebracht, wat aangeeft dat het werk “levend” is.

Volgens de release-notes van de UEC werd versie 1.0 gepubliceerd op 12 juni 2025; 1.0.1 op 5 september 2025; en 1.0.2 op 28 januari 2026, met vooral correcties en verduidelijkingen van eerdere versies.

Daarnaast publiceert de UEC regelmatig mijlpalen en focuspunten: de publicatie van 1.0 was bedoeld om het ecosysteem te “ontgrendelen”: testen, ontwikkelen en valideren. De grote sprong zal afhangen van hoe fabrikanten en operators deze specificaties in hardware en software integreren en in de praktijk brengen.

Met andere woorden: de specificatie bestaat, de roadmap loopt door, maar de doorslaggevende fase is wanneer er volwassen implementaties komen van NICs, switches, stacks en beheer tools — en wanneer grote clusters dit als een ontwerpvereiste gaan eisen.

Wat betekent dit voor netwerkteams, sysadmins en operators?

Voor datacenter-beheerders betekent Ultra Ethernet vooral dat Ethernet‘s rol als “afspraak” in AI-clusters kan veranderen in een op maat gemaakte, speciaal ontworpen interconnectie voor datacentra die AI ondersteunen.

Praktisch gezien heeft dit vooral invloed op operationeel risico en beheer:

Minder kwetsbaar bij congestie: door multipath en efficiënter congestion control te ondersteunen, zou de netwerkkwaliteit minder snel drastisch verslechteren bij piekbelasting.
Grotere voorspelbaarheid bij bursty verkeer en grote schaal: performance wordt minder afhankelijk van handmatige tuning.
Meer uniforme veiligheid binnen het netwerk, met mechanismen voor multi-tenant en gedeelde infrastructuur.
Fysieke compatibiliteit: de overgang betekent niet onmiddellijk volledige vervanging van kabels en optica, wat de overstap verlaagt.

Toch blijft de realiteit dat niemand een kritische infrastructuur migreert op basis van een nieuwe specificatie zonder robuuste ondersteuning, bewezen interoperabiliteit en volwassen tools. Het UEC benadrukt dat het bouwen van een ondersteunend ecosysteem — tools, validatie en pilots — essentieel is voordat grootschalige adoptie plaatsvindt.

Veelgestelde vragen

Gaat Ultra Ethernet InfiniBand of RoCE vervangen in AI-clusters?
Meer dan vervangen, is het de bedoeling om een Ethernet/IP alternatief te bieden dat specifiek is geoptimaliseerd voor AI/HPC. Het moet beperkingen in operationaliteit en schaalbaarheid verminderen. De compatibiliteit met andere fabrics hangt af van kosten, prestaties en de beschikbaarheid van het ecosysteem.

Wat is nodig om Ultra Ethernet in een datacenter te gebruiken?
Het gaat niet alleen om dezelfde kabels: er is hardware nodig (NICs, switches) en software/firmware die afgestemd zijn op de specificatie, plus beheer- en monitoringtools die fabric management op schaal aankunnen.

Waarom zijn congestie en multipath zo belangrijk bij AI-netwerken?
Omdat het east-west verkeer in grote clusters onregelmatig en massaal is. Als het netwerk niet effectief alternatieve routes gebruikt of pieken niet goed beheert, ontstaan queues, verhoogde latentie en verminderde efficiëntie, wat de totale clusterprestatie beïnvloedt.

Wat is een realistische tijdlijn om het echt in productie te zien?
De specificaties bestaan al (versies 1.0, 1.0.1 en 1.0.2), maar de daadwerkelijke implementaties hangen af van de snelheid waarmee de industrie ze adopteert: stabiele support, interoperabiliteitstests en pilots in veeleisende omgevingen.

vía: tomshardware

X (Twitter) Facebook LinkedIn Email WhatsApp