NVLink Fusion: Het Onzichtbare Netwerk dat de Volgende Generatie AI-Superfabrieken Verbindt

De Toekomst van AI-infrastructuur: NVIDIA’s NVLink Fusion op de Voorgrond

In minder dan tien jaar tijd is de wereld van kunstmatige intelligentie (AI) geëvolueerd van modellen met tientallen miljoenen parameters naar systemen met trillions. Deze explosieve groei, aangedreven door geavanceerde modellen zoals GPT-4 en Claude Sonnet, vormt niet alleen een algoritmische uitdaging, maar ook een ongekende uitdaging voor de infrastructuur. Het is niet langer voldoende om te vertrouwen op chips alleen; het draait om hoe deze met elkaar verbonden zijn.

In dit kader is NVIDIA NVLink uitgegroeid tot de ruggengraat van AI-fabrieken. Met de lancering van NVLink Fusion zet het bedrijf een volgende stap door zijn interconnectietechnologie toegankelijk te maken voor hyperscalers, overheden en grote bedrijven. Dit stelt hen in staat om op maat gemaakte superclusters te bouwen, met CPU’s en XPUs die geïntegreerd zijn in hetzelfde communicatieweefsel dat momenteel de NVL72- en NVL300-racks aandrijft.


Van PCIe naar NVLink: Een Decennium van Stille Revolutie

In 2016, toen NVIDIA de eerste generatie NVLink introduceerde, was het doel om de beperkingen van PCIe Gen3 te overwinnen, dat al ontoereikend was voor HPC- en deep learning workloads. Sindsdien is de evolutie snel gegaan:

  • NVLink 1 (2016): Snellere GPU-GPU-communicatie dan PCIe, met verenigde geheugen.
  • NVLink Switch (2018): 300 GB/s bij topologieën van 8 GPU’s, de eerste netwerkstructuur op middelgrote schaal.
  • NVLink 3 en 4 (2020-2023): Introductie van het SHARP-protocol voor collectieve bewerkingen en vermindering van de latentie in massale clusters.
  • NVLink 5 (2024): Ondersteuning voor 72 GPU’s all-to-all met 1,8 TB/s per GPU en een gezamenlijke bandbreedte van 130 TB/s, bijna 800 keer meer dan de eerste generatie.

Vandaag de dag zijn de NVL72-racks—de basis van de Blackwell GB200-systemen—de facto standaard in de exa-scale AI-fabrieken.


De Werkelijke Bottleneck: Inferentie

Terwijl de media zich vaak richt op de kosten van training, zijn analisten het erover eens dat de werkelijke economische uitdaging ligt in inferentie: het leveren van resultaten in real-time aan miljoenen gebruikers van platforms zoals ChatGPT. Hier is de interconnectie cruciaal:

  • Tijd tot de eerste token (latentie).
  • Tokens per seconde per gebruiker (throughput).
  • Tokens per seconde per megawatt (energie-efficiëntie).

Interne studies van NVIDIA tonen aan dat:

  • In een mesh van 4 GPU’s, neemt de prestaties af door de verdeling van de bandbreedte.
  • In een 8-GPU-configuratie met NVLink Switch, wordt all-to-all bereikt en is het efficiëntie-voordeel aanzienlijk.
  • In een domein van 72 GPU’s, is het resultaat exponentieel: maximale throughput en minimale latentie, met een directe impact op kosten per inferentie en winstmarges.

NVLink Fusion: De Gecorrigeerde Opening van NVIDIA

Tot nu toe waren deze capaciteiten beperkt tot door NVIDIA ontworpen infrastructuur. Met NVLink Fusion biedt het bedrijf toegang tot de volledige interconnectiestack voor integratie in semipersonalisierbare systemen:

  • NVLink chiplets en SERDES.
  • Switches en rack-scale topologieën (NLV72 en NLV300).
  • Ecosysteem voor vloeistofkoeling en energiebeheer.
  • Volledige software-ondersteuning (CUDA, NCCL, Triton, TensorRT-LLM).

Wat Verandert?

Hyperscalers kunnen nu:

  1. Aangepaste CPU’s integreren met NVIDIA GPU’s via NVLink-C2C, waarbij toegang wordt verkregen tot de complete CUDA-X-ecosysteem.
  2. Hybride XPUs ontwerpen (specifieke accelerators) met NVLink-connectiviteit via UCIe.
  3. Aangepaste AI-fabrieken bouwen, met modulaire racks die GPU’s, DPUs en interne processors combineren.

Dit vertegenwoordigt een fundamentele verandering: niet meer afhankelijk zijn van één gesloten ontwerp, maar het co-ontwerpen van infrastructuur direct met de interconnectietechnologie van NVIDIA.


Vergelijking: NVLink vs PCIe vs Alternatieven

TechnologieBandbreedte per GPULatentieSchaalbaarheidTypisch gebruik
PCIe Gen6256 GB/sHoogBeperkt (host-apparaat)HPC, standaardservers
NVLink 51,8 TB/sZeer laagTot 576 coherente GPU’sAI-fabrieken, NVL72-racks
Infinity Fabric (AMD)~800 GB/sGemiddeldBeperkt tot clusters MIGPU’s Instinct MI300
CXL 3.0512 GB/sGemiddeldGroot potentieel (gedeeld geheugen)Geschaalde geheugensystemen

De voordelen van NVLink liggen niet alleen in de bandbreedte, maar ook in de geheugenconsistentie, die het mogelijk maakt om een domein van 72 GPU’s te behandelen als één enkele entiteit, waardoor de complexiteit van programmeren wordt verminderd.


Digitale Soevereiniteit en Geopolitiek

De gedeeltelijke opening van NVLink met Fusion heeft ook geopolitieke implicaties. Europa, India en het Midden-Oosten werken al maanden aan projecten rondom AI-soevereiniteit, met de ambitie om niet volledig afhankelijk te zijn van Amerikaanse infrastructuur.

Met NVLink Fusion verzekert NVIDIA zich van:

  • Behoud van controle over het CUDA-ecosysteem.
  • Mogelijkheid tot soevereine aanpassingen (eigen CPU’s, geïntegreerde racks) zonder schade aan compatibiliteit met zijn bibliotheken.
  • Zorgen dat grote soevereine AI-contracten (zoals het contract van Indonesië met NVIDIA + Cisco + Indosat) worden uitgevoerd met NVLink als de facto standaard.

De Toekomst: NVLink Beyond 72 GPUs

De roadmap van NVIDIA is duidelijk:

  • NVLink 6, 7 en 8 zijn al gepland, met jaarlijkse lanceringen.
  • Verwacht wordt dat de drempel van 1.000 GPU’s in coherente domeinen vóór 2028 wordt overschreden.
  • Er wordt een bandbreedte van 3-5 TB/s per GPU verwacht, met fotonic interconnecties in ontwikkeling.
  • Op lange termijn is de visie dat meerdere distribute AI-fabrieken zullen opereren als een enkele wereldwijde supercluster, verbonden door NVLink en lage-latentie optische netwerken.

Conclusie

Met NVLink Fusion versterkt NVIDIA niet alleen zijn leiderschap in GPU-GPU-interconnecties, maar opent het ook de deur naar een flexibeler ecosysteem waarin cloudgiganten en overheden op maat gemaakte AI-infrastructuren kunnen bouwen zonder concessies te doen aan de CUDA-standaard.

In een tijd waarin latentie per token de inkomsten van een generatieve AI-toepassing bepaalt, is NVLink Fusion geen luxe, maar de sleutel tot het behoud van concurrentievermogen in het superintelligentiebedrijf.


Veelgestelde Vragen (FAQ)

Wat is NVIDIA NVLink Fusion?
Het is een programma dat de NVLink-technologie (chiplets, switches, racks, SERDES) opent voor integratie in aangepaste CPU’s en XPUs, waardoor op maat gemaakte AI-infrastructuren kunnen worden gebouwd.

Wat onderscheidt NVLink van PCIe?
NVLink biedt tot 1,8 TB/s per GPU, geheugencoherentie en schaalbaarheid tot 576 GPU’s. PCIe Gen6 is beperkt tot 256 GB/s en heeft hogere latenties.

Waarom is het cruciaal voor AI-inferentie?
Het stelt clusters in staat met lage latentie en hogere throughput per watt, waardoor kosten worden verlaagd en reactietijden worden verbeterd voor massale diensten zoals ChatGPT.

Welke rol speelt het in digitale soevereiniteit?
NVLink Fusion maakt het mogelijk voor landen en regio’s om hun eigen aangepaste AI-fabrieken te bouwen, met nationale CPU’s of hybride XPUs, en tegelijkertijd compatibiliteit met CUDA behouden.

Scroll naar boven