Oracle Introduce OCI Zettascale10: De ‘Supercomputer’ voor AI in de Cloud met Tot 16 ZettaFLOPS en 800.000 GPU’s per Cluster

Oracle Introduce OCI Zettascale10: Een Nieuwe Generatie AI Supercomputers in de Cloud

Oracle heeft onlangs de Oracle Cloud Infrastructure (OCI) Zettascale10 onthuld, hun nieuwste generatie “supercomputers” voor kunstmatige intelligentie (AI) in de cloud. Dit innovatieve systeem verbindt honderdduizenden NVIDIA GPU’s via meerdere datacenters en biedt een multigigawatt capaciteit met theoretische pieken tot 16 zettaFLOPS. Zettascale10 vormt de basis voor het vlaggenschip supercluster dat in samenwerking met OpenAI is ontwikkeld in Abilene, Texas, binnen het Stargate-programma.

Wat is OCI Zettascale10?

Zettascale10 is ontworpen voor:

  • Prestaties en schaling: Tot 16 zettaFLOPS en multi-gigawatt IT-implementaties op macro-campuslocaties die zijn geoptimaliseerd voor extreme dichtheid, wat de latentie tussen GPU’s minimaliseert voor grootschalige training.

  • Clusterarchitectuur: De Oracle Acceleron RoCE-technologie biedt een gelijkmatige lage latentie en hoog-bandbreedte verbinding tussen GPU’s, met fysieke en logische netwerkplannen die het verkeer kunnen omleiden bij congestie zonder dat taken hoeven te worden herstart.

  • Samenwerking met OpenAI: De architectuur is eerst ontwikkeld en uitgerold in Abilene voor het gezamenlijke supercluster Stargate van Oracle en OpenAI.

  • Prijs/prestatieverhouding en databeheer: Oracle positioneert Zettascale10 als een basis voor geïndustrialiseerde AI, met mogelijkheden voor gebruik in hun gedistribueerde cloud en beheersystemen voor data- en AI-soevereiniteit.

Mahesh Thiagarajan, EVP van Oracle Cloud Infrastructure, merkte op: “Met OCI Zettascale10 combineren we onze Oracle Acceleron RoCE-netwerkarchitectuur met NVIDIA’s nieuwe generatie AI-infrastructuur om multigigawatt capaciteit te bieden op een ongekend schaal.”

Technische Ondersteuning en Ontwerp

Oracle heeft vijf technische pijlers voor Zettascale10 gedefinieerd:

  1. Breed, ondiep en veerkrachtig netwerk: De GPU NIC fungeert als een mini-switch en verbindt meerdere geïsoleerde fysieke en logische lagen, wat de netwerkniveaus, kosten en verbruik verlaagt en de schaling vergroot.

  2. Betrouwbaarheid: Verkeer kan automatisch migreert naar stabiele lagen, waardoor herstarts en verlies van checkpoints tijdens lange training worden voorkomen.

  3. Consistente prestaties: Door een laag te verwijderen in vergelijking met traditionele driedelige ontwerpen, streeft Oracle naar uniformere en voorspelbare GPU-GPU latentie.

  4. Efficiënte optica: Met Linear Pluggable Optics (LPO) en Linear Receiver Optics (LRO) wil Oracle netwerk- en koelingskosten verlagen, terwijl het 400G/800G throughput biedt.

  5. Operationele flexibiliteit: Onderhoud per laag en onafhankelijkheid van het besturingssysteem vermindert stilstandstijden en versnelt de implementatie van verbeteringen.

Cluster Grootte, Beschikbaarheid en Doelgroep

  • Initiële uitroldoelstelling: Tot 800.000 NVIDIA GPU’s per cluster, met voorspelbare prestaties en efficiënte kosten.

  • Bestellingen en data: Bestellingen zijn vandaag geopend; de beschikbaarheid wordt verwacht in de tweede helft van het komende jaar.

  • Gebruiksscenario’s: Ideaal voor het trainen van grootschalige fundamentele modellen, serve en inferentie van hoge prestaties en schaal, en de consolidatie van IA- onderzoeks-pijplijnen naar productie.

Ian Buck, VP van Hyperscale bij NVIDIA, voegde eraan toe: “OCI Zettascale10 biedt de rekeninfrastructuur die nodig is om de status quo in AI te verbeteren en te transformeren van experimenteren naar een geindustrialiseerde AI.”

De Belang van Zettascale10

Als Oracle de beloften waarmaakt, kan Zettascale10 de concurrentie versterken met een AI-infrastructuur op zettaFLOPS-schaal met zeer lage GPU-GPU latentie en veerkrachtige operationele kenmerken. Voor klanten die op zoek zijn naar geïndustrialiseerde AI en willen overstappen van experimenten naar grootschalige diensten, kan de combinatie van capaciteit, soevereiniteit, kosten/baten en operationele voorspelbaarheid beslissingen beïnvloeden in een markt waar een schaarste aan GPU’s en netwerkcapaciteit bestaat.

Veelgestelde Vragen

Wat is OCI Zettascale10 precies?
OCI Zettascale10 is een cloud-gebaseerde AI-clusterarchitectuur van Oracle die honderden duizenden NVIDIA GPU’s combineert verspreid over meerdere datacenters.

Wat biedt Oracle Acceleron RoCE ten opzichte van traditionele netwerken?
Het biedt een “breed en ondiep” netwerk met geïsoleerde lagen die het verkeer herdistribueren bij incidenten, waardoor de latentie en kosten verminderen en consistente prestaties worden bereikt.

Wanneer zal het beschikbaar zijn en op welke schaal?
Oracle accepteert nu bestellingen en verwacht beschikbaarheid in de tweede helft van het komende jaar, met clusters tot 800.000 GPU’s bij de lancering.

Wat is de connectie met OpenAI en Stargate?
Zettascale10 is de basisinfrastructuur van het supercluster in Abilene, Texas, dat Oracle en OpenAI opereren binnen het Stargate-programma.

Welke voordelen biedt het op het gebied van kosten/prestatie en energie?
Oracle streeft naar een competitieve prijs/prestatieverhouding en een betere benutting van het cluster, ondersteund door lineaire optica en netwerken die het energieverbruik verlagen, zodat er meer vermogen beschikbaar komt voor rekenkracht.

Scroll naar boven