Azure Lanceert Eerste Megacluster met NVIDIA GB300 NVL72 voor OpenAI: De Nieuwe Standaard in AI Supercomputing

Microsoft lanceert eerste grootschalige clustering met NVIDIA GB300 NVL72 voor OpenAI

Redmond, VS – Microsoft heeft de productie van de eerste grootschalige cluster met NVIDIA GB300 NVL72 voor OpenAI werkbelasting in gang gezet. Dit gaat niet om een pilot of een proof of concept: het bedrijf bevestigt de uitrol van meer dan 4.600 GB300 NVL72-systemen, uitgerust met Blackwell Ultra GPU’s en verbonden via het NVIDIA InfiniBand Quantum-X800-netwerk. Dit markeert de opening van een nieuw tijdperk in AI-infrastructuren, waarmee naar eigen zeggen wat vroeger maanden duurde nu in weken kan worden getraind. Bovendien wordt hiermee de deur geopend naar modellen met honderden biljoenen parameters.

De ambities van Microsoft

Microsoft onderstreept dat deze cluster de eerste is van velen. De roadmap van het bedrijf wijst op de uitrol van honderdduizenden Blackwell Ultra GPU’s verspreid over hun AI-datacenters wereldwijd. Het doel is dubbel: het versnellen van de training van grensoverschrijdende modellen en het verhogen van de inference-prestaties in productie, met langere contextvensters, responsieve agents en multimodaliteit op grote schaal.

“Dit system co-ontworpen biedt de eerste productiekluster op schaal ter wereld, de supercomputer die OpenAI nodig heeft om multibiljoen-modellen te bedienen. Het zet de nieuwe ultieme standaard in versnelde computing,” aldus Ian Buck, vicepresident van Hyperscale and High-performance Computing bij NVIDIA.

Van GB200 naar GB300: Azure verhoogt de lat voor algemene AI

Begin dit jaar introduceerde Azure de ND GB200 v6 virtuele machines, gebaseerd op de NVIDIA Blackwell-architectuur. Deze VM’s werden de ruggengraat van enkele van de meest veeleisende workloads in de sector. Al voor de uitrol van de GB300 NVL72 maakte OpenAI gebruik van grote clusters van GB200 NVL2 om grensverleggende modellen te trainen en te implementeren.

De nieuwe generatie ND GB300 v6 tilde de lat hoger met een ontwerp gericht op redeneringsmodellen, agentachtige AI en multimodale generatieve AI. Elke rack bundelt 18 VM’s met in totaal 72 GPU’s en 36 Grace CPU’s.

Specificaties per rack:

  • 72 NVIDIA Blackwell Ultra GPU’s (met 36 NVIDIA Grace CPU’s).
  • 800 Gbit/s per GPU inter-rack bandbreedte via NVIDIA Quantum-X800 InfiniBand.
  • 130 TB/s NVLink binnen de rack.
  • 37 TB snelle geheugen per rack.
  • Tot 1.440 PFLOPS FP4 Tensor Core prestaties per rack.

De NVLink + NVSwitch-architectuur minimaliseert geheugen- en bandbreedteflessenhalzen binnen de rack, wat zorgt voor interne overdrachten tot 130 TB/s over 37 TB van snel geheugen.

Schaalvergroting zonder blokkering: fat-tree topologie met InfiniBand Quantum-X800

Azure implementeert verder een fat-tree non-blocking topologie met NVIDIA Quantum-X800 InfiniBand, het snelste netwerkweefsel dat momenteel beschikbaar is. Dit ontwerp zorgt ervoor dat klanten ultragrote modeltraining efficiënt kunnen schalen naar tienduizenden GPU’s met minimale communicatieoverhead.

Voordelen:

  • Minder synchronisatie betekent een hogere effectieve benutting van GPU’s.
  • Versnelde iteraties en lagere kosten, zelfs bij intensieve trainingsprocessen.

Gecombineerde engineering in datacenters

De introductie van de GB300 NVL72 gaat verder dan alleen een upgrade van de hardware; het vereist een heroverweging van elke laag van het systeem — computing, geheugen, netwerk, datacenter, koeling en vermogen — als een geïntegreerd systeem**.

Kerncomponenten:

  • Geavanceerde koeling om het watergebruik te minimaliseren.
  • Evoluerende elektrische distributie voor hoge dichtheden.
  • Geoptimaliseerde software-stacks voor maximale efficiëntie en duurzaamheid.

Wat betekent dit voor OpenAI?

Voor OpenAI betekent de beschikbaarheid van de eerste productieschaal GB300 cluster in Azure toegang tot een supercomputermotor die klaar is voor modellen met multibiljoen parameters en kortere trainingstijden. Het trainen en implementeren van grensoverschrijdende modellen vereist gecoördineerde computervelden, waar NVLink/NVSwitch en InfiniBand synchronisatie en collectief verkeer in toom houden.

Conclusie

De invoering van de eerste GB300 NVL72 cluster op schaal positioneert Azure als een directe referentie in de supercomputing van AI voor grensverleggende modellen. Microsoft belooft dat de toekomst snellere, grotere en nuttigere modellen mogelijk maakt, waardoor bedrijven meer kansen krijgen om innovatieve AI-toepassingen te ontwikkelen.

Met deze strategische investeringen hoopt Microsoft de ontwikkelingen in de AI-ruimte naar een nieuw niveau te tillen, waarbij snellere iteraties en betere modelprestaties de nieuwe norm worden.

Veelgestelde vragen (FAQ)

Wat is NVIDIA GB300 NVL72 en hoe verschilt het van de eerder gebruikte GB200 NVL2 op Azure?
GB300 NVL72 is de nieuwe Blackwell Ultra generatie die Azure op grote schaal in productie heeft genomen, gericht op redenering en multimodale AI.

Hoe vermindert Azure netwerkflessenhalsen op grote schaal?
Door gebruik te maken van een fat-tree non-blocking structuur op InfiniBand Quantum-X800 en geoptimaliseerde collectieve libraries, wat de effectiviteit van de netwerkoverdracht verdubbelt.

Microsoft belooft regelmatig updates en benchmarks te delen naarmate de wereldwijde uitrol van de NVIDIA GB300 NVL72 voortgang boekt.

Scroll naar boven