Google introduce Ironwood: de TPU voor het leiderschap in modelinferentie in het exascale-tijdperk

Google Introduce Ironwood: De Nieuwe TPU Generatie voor Inference op Grote Schaal

Google heeft de machine learning-sessies op de Hot Chips-conferentie afgesloten met een onthulling van groot belang: Ironwood, de nieuwe generatie van zijn TPU (Tensor Processing Units), specifiek ontworpen voor inference van taalmodellen en grootschalig redeneren.

In tegenstelling tot eerdere generaties, die vooral gericht waren op training, is Ironwood gemaakt voor de productie van LLM’s, mixture-of-experts architecturen en redeneringsmodellen, waar latentie en betrouwbaarheid cruciale factoren zijn.


Massale Schaalbaarheid

Een van de meest opvallende kenmerken is de mogelijkheid om tot 9.216 chips in één node te schalen, wat resulteert in een indrukwekkend 42,5 exaflops aan prestaties (FP8). Dit gaat hand in hand met 1,77 PB aan direct adresseerbaar HBM3e-geheugen, dat gedeeld wordt via optische circuitswitches (OCS), wat de schaal verdubbelt ten opzichte van de TPUv4 (4.096 chips).

De ontwerpkeuze voor 9.216 in plaats van een exact aantal zoals 8.192 zorgt voor extra rackcapaciteit in geval van storingen.


Energie-efficiëntie en Betrouwbaarheid

Google beweert dat Ironwood dubbel zoveel rendement per watt biedt als Trillium en tot zes keer meer efficiëntie in vergelijking met TPUv4, dankzij:

  • Multi-chiplet architectuur (twee compute dies per chip).
  • 8 stacks HBM3e met 192 GB per chip en 7,3 TB/s bandbreedte.
  • Derde generatie vloeistofkoeling, met meerdere circuits om de warmtewisselaars schoon te houden.
  • Controle van piekbelasting om het verbruik te stabiliseren in megawatt-implementaties.

Betrouwbaarheid (RAS: Reliability, Availability, Serviceability) is een prioriteit, met functies zoals:

  • Automatische checkpointing om workloads opnieuw toe te wijzen bij een falen van een node.
  • Detectie van stille gegevenscorruptie en rekenkundige controles tijdens uitvoering.
  • Geïntegreerde root of trust, veilige opstart en ondersteuning voor confidential computing.

AI Ontworpen met AI

Google verklaarde dat zelfs het interne ontwerp van de chip geoptimaliseerd is met AI toegepast op het ontwerp van ALU’s en floorplanning, in samenwerking met hun AlphaChip-team.

Dit weerspiegelt een toenemende trend: AI niet alleen gebruiken voor het uitvoeren van taken, maar ook voor het ontwerpen van de hardware die de volgende golf van modellen aandrijft.


SparseCore en Nieuwe Functies

Ironwood bevat de 4e generatie SparseCore, specifieke versnellers voor embeddings en collectieve operaties, die cruciaal zijn binnen enorme modelarchitecturen.

Op rackniveau:

  • 64 TPU’s per rack (16 trays met elk 4 TPU’s).
  • 16 rack-host CPU’s om het werk te coördineren.
  • Interne koperverbindingen en de OCS verbinden de racks in een driedimensionale logische structuur.

Een Sleutelcomponent voor Google Cloud

Ironwood wordt niet verkocht als onafhankelijke hardware, maar is exclusief voor Google Cloud, geïntegreerd in hun aanbod van Cloud TPU. Dit versterkt Google’s model om hun eigen infrastructuur te ontwerpen om diensten aan derden te bieden, zoals met YouTube, Gmail en Search, waar AI een transversale rol speelt.

Voor klanten belooft Ironwood:

  • Realtime inference van redeneringsmodellen.
  • Grotere stabiliteit in productie, cruciaal voor generatieve AI als autonome agent.
  • Energieoptimalisatie en betrouwbaarheid op datacenter-schaal.

Conclusie

Met Ironwood streeft Google ernaar zijn leiderschap in AI op hardware-niveau te consolideren op een moment dat NVIDIA GB300 en andere voorstellen de richtlijnen voor AI-rekenkracht bepalen.

Terwijl NVIDIA zich richt op GPU’s die zijn ontworpen voor gemengde training en inference workloads, kiest Google voor een eigen accelerator, geoptimaliseerd voor grootschalige inference, met de nadruk op redeneren en lage latentie.

Het resultaat is een supersysteem van tot 42,5 exaflops, met 1,77 PB aan gedeeld geheugen, ontworpen voor het tijdperk van de biljoen-parameters modellen en AI-agenten die betrouwbaar, efficiënt en veilig moeten zijn in productie.


Veelgestelde Vragen (FAQ)

Wat is het verschil tussen Ironwood en eerdere TPU-generaties?
Ironwood is specifiek ontworpen voor inference op grote schaal, terwijl eerdere TPU’s meer gericht waren op training.

Wat is de rol van de Optical Circuit Switches (OCS)?
Ze stellen geheugendeling tussen duizenden chips binnen een pod mogelijk, schalen tot 9.216 TPU’s en herconfigureren het systeem dynamisch bij storingen.

Welke geheug verbeteringen heeft Ironwood?
Elke chip integreert 8 stacks HBM3e (192 GB) met een bandbreedte van 7,3 TB/s, essentieel voor LLM’s en redeneren.

Is Ironwood buiten Google Cloud verkrijgbaar?
Nee, Ironwood is exclusief voor klanten van Google Cloud TPU.

Scroll naar boven