Ironwood: Google's Nieuwe TPU voor de Toekomst van Cloudinference - Cloud News

X (Twitter) Facebook LinkedIn Email WhatsApp

Google onthult de zevende generatie TPU’s: Ironwood voor de toekomst van AI-inferentie

Tijdens het Google Cloud Next 2025 evenement heeft Google zijn nieuwste innovatie gepresenteerd: Ironwood, de zevende generatie Tensor Processing Unit (TPU). Deze nieuwe architectuur is speciaal ontworpen om de inferentie van AI-modellen in de cloud te versnellen en markeert een significant technologisch niveauverhoging sinds de introductie van de eerste TPU in 2016.

Met Ironwood zet Google een nieuwe standaard voor zijn AI-infrastructuur, gericht op het overstappen van reactieve modellen naar modellen die proactief kunnen denken en handelen. Dit is de basis van wat Google de “tijdperk van inferentie” noemt.

Een historische sprong in rekenkracht

Ironwood kan opschalen tot 9.216 chips per pod, wat resulteert in een brute kracht van 42,5 exaflops—meer dan 24 keer de capaciteit van de krachtigste supercomputer ter wereld, El Capitan (1,7 exaflops). Elk individueel chip bereikt een piek van 4.614 teraflops (FP8) en is uitgerust met 192 GB HBM-geheugen, wat zorgt voor een ongekend 7,2 TB/s bandbreedte.

Deze indrukwekkende capaciteit is bedoeld voor geavanceerde modellen zoals Gemini 2.5 en AlphaFold, evenals toekomstige architecturen van LLM’s (Large Language Models) en MoEs (Mixture of Experts), die extreme parallelle verwerking en snelle geheugentoegang vereisen. Google heeft daarvoor een Inter-Chip Interconnect (ICI) netwerk geïmplementeerd met 1,2 Tbps bidirectioneel, een stijging van 50% ten opzichte van de vorige generatie, Trillium.

Ontworpen voor inferentie, niet alleen training

Waar veel huidige AI-architecturen zijn geoptimaliseerd voor training, is Ironwood vanaf de basis ontwikkeld om inferentie op schaal te maximaliseren. Dit leidt tot lagere latenties, hogere energie-efficiëntie en een grotere capaciteit om modellen gelijktijdig aan duizenden gebruikers in de cloud te leveren.

“De tijdperk van inferentie is een periode waarin modellen niet alleen reageren, maar ook begrijpen, interpreteren en handelen,” aldus Sundar Pichai, CEO van Google. “Ironwood is onze inzet om deze transitie te leiden.”

Een architectuur gericht op prestaties en efficiëntie

Ironwood valt niet alleen op door zijn kracht, maar ook door zijn thermische en energetische efficiëntie. Dankzij een vloeistofkoelsysteem en een optimaal chipontwerp bereikt Ironwood een tweemaal zo hoog rendement per watt vergeleken met Trillium, en tot 30 keer efficiënter dan de TPU v2 uit 2018.

In een tijd waarin energievoorziening een knelpunt is voor het opschalen van AI-infrastructuren, wordt deze verbetering in efficiëntie een cruciaal onderscheid voor cloud-klanten die zowel prestaties als duurzaamheid en kostenbeheersing vereisen.

Twee configuraties voor elke werklast

Ironwood zal beschikbaar zijn in twee hoofdconfiguraties in Google Cloud:

Ironwood 256: gericht op startups en bedrijven die geavanceerde prestaties nodig hebben zonder gebruik te maken van hyper-schaal infrastructuur.
Ironwood 9.216: gericht op leiders in de sector, zoals onderzoekslaboratoria, leveranciers van LLM’s of bedrijven die modellen met triljoenen parameters in real-time moeten trainen en uitdelen.

Beide configuraties zijn geïntegreerd binnen het AI Hypercomputer-ecosysteem van Google Cloud, wat een architectuur biedt van hardware, netwerken, opslag en geoptimaliseerde software, waarmee ontwikkelaars eenvoudig kunnen opschalen via Pathways, de machine learning runtime van Google DeepMind.

Ondersteuning voor niet-traditionele workloads

Ironwood is niet alleen ontworpen voor LLM’s of generatieve modellen. Het omvat ook verbeteringen in SparseCore, de gespecialiseerde inferentie-accelerator voor grote embeddings die vaak worden gebruikt in aanbevelings- en zoeksystemen, maar steeds gebruikelijker worden in financiën, gezondheidszorg en wetenschappelijke simulaties.

Deze evolutie plaatst Ironwood als een flexibele oplossing die kan variëren van conversatie-AI tot kritieke sectorwerkload waar lage latentie, consistentie en schaalbaarheid van levensbelang zijn.

De weg naar de toekomst: AI-as-a-Service met Google-DNA

Met Ironwood heeft Google Cloud zijn positie als meest ervaren leverancier van AI-rekenkracht bevestigd. Niet alleen heeft het bedrijf de hardware ontworpen, maar ook de hele softwarestack, netwerken van interconnectie en het gedistribueerde inferentiesysteem.

“Google is de enige hyperscaler met meer dan een decennium ervaring in het aanbieden van AI op wereldwijde schaal. Gmail, Google Search en andere diensten bedienen dagelijks miljarden mensen met onze infrastructuur,” aldus het team van Google Cloud.

Met Ironwood wordt deze ervaring omgezet in een AI-as-a-Service aanbieding die elke onderneming in staat stelt krachtige modellen te implementeren zonder zelf infrastructuur te hoeven bouwen. Google regelt alles: van koeling tot opschaling, beveiliging en kostenoptimalisatie.

Conclusie: Ironwood is de toekomst van inferentiële AI

Ironwood is niet zomaar een andere chip. Het is de neerslag van een decennium van leiderschap in AI-rekenkracht en een brug naar de volgende fase van kunstmatige intelligentie, waar modellen denken, redeneren en handelen.

Met significante verbeteringen in kracht, geheugen, netwerken en efficiëntie, markeert Ironwood een keerpunt in de cloud-infrastructuur voor kunstmatige intelligentie. Een toekomst waarin het trainen en aanbieden van modellen geen obstakel meer vormt, maar een concurrentievoordeel voor bedrijven die de cloud als platform voor innovatie omarmen.

Bron: Google Blog

X (Twitter) Facebook LinkedIn Email WhatsApp