Meta onthult Catalina: een nieuwe AI-hardwarearchitectuur
Meta heeft de details onthuld van Catalina, zijn nieuwe hardwarearchitectuur voor kunstmatige intelligentie (AI). Dit systeem combineert de kracht van de NVIDIA Blackwell GB200 NVL72, de standaard Open Rack v3 (ORv3) en hoogwaardige vloeistofkoeling. Deze aankondiging, gedaan in het kader van het Open Compute Project (OCP), toont niet alleen aan hoe het bedrijf zijn AI-infrastructuur opschaalt, maar versterkt ook zijn inzet voor open en gestandaardiseerde samenwerking in een sector die vaak gedomineerd wordt door propriëtaire oplossingen.
Van 6.000 naar 100.000 GPU’s: de exponentiële groei van Meta in AI
In 2022 werkte Meta met clusters van ongeveer 6.000 GPU’s, voornamelijk gericht op aanbevelingssystemen en rankingmodellen. Een jaar later, met de opkomst van generatieve AI en grote taalmodellen (LLM), groeide het aantal GPU’s naar 16.000-24.000, wat een verviervoudiging betekent.
In 2024 werkte het bedrijf al met meer dan 100.000 GPU’s in productie en verwacht dat dit aantal de komende jaren nog eens tien keer zal groeien. Deze groei is een reactie op de training van modellen zoals Llama 3.1 met 405 miljard parameters, dat meer dan 16.000 H100 GPU’s vereiste voor training op 15 biljoen tokens.
Catalina komt voort uit deze explosieve vraag naar rekenkracht, waarbij niet alleen het aantal GPU’s essentieel is, maar ook de interconnectiviteitscapaciteit, energie-efficiëntie en schaalbaarheid van het systeem.
Wat is Catalina?
Catalina is een AI-pod-systeem, waarbij elke pod bestaat uit twee IT-racks die samen een schaalgebied van 72 GPU’s vormen. Elk rack is georganiseerd met:
- 18 rekken voor rekenkracht (boven en onder).
- 9 NVSwitches aan elke zijde om de GPU’s met elkaar te verbinden.
- NVLink-verbindingen om een coherente geheugendomein te vormen.
- ALCs (Air-assisted Liquid Cooling) die vloeistofkoeling mogelijk maken in traditionele datacenters.
De kracht van Catalina ligt in zijn capaciteit om te kopiëren en op te schalen: de pods kunnen via het Disaggregated Scheduled Fabric (DSF) met elkaar worden verbonden, een open en modulaire netwerktechnologie die meerdere pods, racks en zelfs volledige gebouwen verbindt in een enkele geoptimaliseerde AI-supercluster.
Open Rack v3 en de inzet voor standaardisatie
Catalina is de eerste implementatie van hoge capaciteit van Open Rack v3 (ORv3). Deze standaard, die is gepromoot door het Open Compute Project, kan tot 94 kW per rack (600 A) ondersteunen en is ontworpen voor de extreme eisen van AI-versnellers.
De modulariteit van ORv3 maakt het mogelijk om:
- 480 V-voedingsunits te integreren die naar 48 V DC converteren, wat de efficiëntie optimaliseert.
- Vloeistofkoelsystemen direct van de faciliteiten naar het rack te verbinden.
- De veiligheid te verbeteren met de Rack Management Controller (RMC) die lekken monitort, kleppen controleert en het koelsysteem orkestreert.
Dit biedt niet alleen meer vermogen per rack, maar vermindert ook de inzet- en onderhoudstijd, een cruciale factor in een omgeving waar de vraag naar AI exponentieel toeneemt.
Vloeistofkoeling en duurzaamheid
De energie dichtheid van de Blackwell GPU’s vereist een herziening van het thermische ontwerp van datacenters.
Meta heeft een hybride systeem geïmplementeerd:
- Lucht-geassisteerde vloeistofkoeling (ALC) aan de zijkanten van de racks.
- Een vloeistofmanagementsysteem dat wordt bijgehouden door de RMC, met gedistribueerde sensoren die lekken detecteren in trays, racks en koelsystemen.
- Compatibiliteit met infrastructuren van nieuwe generatie, waarmee water direct naar de racks kan worden geleid.
Dit ontwerp is gericht op het behoud van energie-efficiëntie en het tegelijkertijd verminderen van het operationele risico in kritische omgevingen.
Verder dan NVIDIA: openstelling voor AMD en Broadcom
Hoewel Catalina is gebaseerd op de NVIDIA GB200 NVL72, breidt Meta ook zijn open platforms uit naar andere leveranciers. Het platform Grand Teton, gelanceerd in 2022, integreert nu de AMD Instinct MI300X, wat aantoont dat de toekomst van AI niet afhankelijk kan zijn van één enkele speler.
Bovendien heeft Meta:
- Nieuwe 51T-netwerkswitches gebaseerd op ASICs van Broadcom en Cisco geïntroduceerd.
- Zijn eerste eigen netwerkswitch (FBNIC) ontwikkeld om de communicatie in AI-clusters te optimaliseren.
- Het Disaggregated Scheduled Fabric (DSF) gepresenteerd, een open en leverancier-onafhankelijke netwerkinfrastructuur, ondersteund door standaarden zoals OCP-SAI en RoCE over Ethernet.
Met deze strategie streeft Meta ernaar om de technologische lock-in te doorbreken en een open ecosysteem te bevorderen waarin verschillende fabrikanten onder gelijke omstandigheden kunnen concurreren.
Meta en Microsoft: een gezamenlijke inspanning in OCP
Meta werkt sinds 2018 nauw samen met Microsoft binnen het OCP. Samen hebben ze bijgedragen aan de ontwikkeling van de SAI (Switch Abstraction Interface)-standaard en hebben ze belangrijke initiatieven bevorderd zoals het Open Accelerator Module (OAM).
Momenteel werken ze aan Mount Diablo, een gedesaggregeerde 400 VDC rack die meer versnellers per rack met hogere efficiëntie mogelijk maakt.
Deze gezamenlijke inspanning weerspiegelt een paradigmaverschuiving in de industrie: technologische giganten concurreren niet alleen, maar werken ook samen om standaarden te bevorderen die innovatie in de hand werken.
Catalina als symbool van openheid
De presentatie van Catalina is niet alleen een technische aankondiging, maar ook een verklaring van intenties. Meta benadrukt dat AI zijn ware potentieel niet zal bereiken zonder openheid. Dit houdt in:
- Open, modulaire en gestandaardiseerde hardware.
- Gedesaggregeerde netwerken, vrij van afhankelijkheid van een enkele leverancier.
- Industriële samenwerking om de innovatie te versnellen.
In de woorden van de verantwoordelijken van het bedrijf: “Het openen van onze hardwareontwerpen is net zo belangrijk als het vrijgeven van softwareframeworks. Alleen zo kunnen we AI democratiseren en ervoor zorgen dat de voordelen voor iedereen toegankelijk zijn.”
Conclusie
Catalina vertegenwoordigt de synthese van drie krachten die het komende tijdperk van digitale infrastructuur definiëren:
- Massale schaal voor het trainen en implementeren van steeds grotere generatieve AI-modellen.
- Energie-efficiëntie en vloeistofkoeling om groei mogelijk te maken zonder duurzaamheid in gevaar te brengen.
- Technologische openheid, met standaarden zoals ORv3 en DSF, die de weg wijzen naar een samenwerkend ecosysteem.
In een tijd waarin datacenters de fabrieken van kunstmatige intelligentie worden, is Catalina Meta’s inzet om niet alleen technologische spierkracht te bieden, maar ook een filosofie van openheid die de koers van de industrie zou kunnen veranderen.