Google lanceert TPU 8t en 8i voor het versnellen van het tijdperk van AI-agenten

Google heeft de achtste generatie van zijn Tensor Processing Units (TPU) gepresenteerd en heeft voor het eerst duidelijk onderscheid gemaakt tussen twee verschillende chips: TPU 8t, gericht op het trainen van modellen, en TPU 8i, ontworpen voor lage latentie inferentie. Het bedrijf positioneert ze als zijn antwoord op een nieuwe fase van Kunstmatige Intelligentie, gekenmerkt door agenten die niet alleen vragen beantwoorden, maar ook redeneren, stappen ketenen, leren van hun acties en complexe flow in realtime uitvoeren.

De boodschap van Google is duidelijk: agentgerichte AI past niet meer goed binnen een generieke infrastructuur. Daarom heeft het gekozen voor twee “purpose-built” architecturen, dat wil zeggen, vanaf het ontwerp gespecialiseerd voor heel verschillende workloads. TPU 8t richt zich op het verkorten van de ontwikkelcyclus van grote modellen, terwijl TPU 8i zich vooral richt op het efficiënter en met lagere latentie dienen van inferentie op grote schaal. Beide chips zullen binnenkort algemeen beschikbaar zijn vanaf dit jaar via Google Cloud en maken deel uit van hun AI Hypercomputer-platform.

Het gaat niet alleen om een productupdate. Google probeert een idee te versterken dat het al jaren uitdrukt: de toekomst van AI hangt niet enkel af van de chip, maar van de integratie tussen silicium, netwerk, opslag, software, koeling en datacenters. In die lijn zullen TPU 8t en TPU 8i voor het eerst draaien op de Axion-processors, de eigen Arm-CPU’s van Google, en blijft de inzet op vloeistofkoeling en systeemgerichte energie-optimalisatie gehandhaafd.

Twee TPU’s voor twee verschillende problemen

De beslissing om training en inferentie te scheiden, ontstaat uit een diepgaande marktverandering. Enkele jaren geleden lag de focus vooral op het trainen van steeds grotere fundamentele modellen. Nu komt er bij dat ook een belangrijke rol bij het diensten van modellen in productie en het afhandelen van miljoenen verzoeken, het onderhouden van lange contexten en het coördineren van gespecialiseerde agents die samenwerken. Google stelt dat deze workloads zulke verschillende eisen stellen dat het niet meer zinvol is om ze met hetzelfde hardwaretype aan te pakken.

TPU 8t is primair gericht op massaal trainen. Google garandeert dat één superpod tot wel 9.600 chips kan schalen, met twee petabyte gedeelde HBM-geschikte geheugen en dubbele bandbreedte tussen chips vergeleken met de vorige generatie. Het bedrijf schat de rekenkracht op 121 exaflops en beweert dat het systeem bijna drie keer meer prestaties per pod levert dan het vorige. Daarnaast biedt het toegang tot opslag die tien keer sneller is en een doel van meer dan 97 % goodput, dat wil zeggen, daadwerkelijk nuttige rekentijd, zonder verspilling door fouten, wachttijden of herstarts.

TPU 8i is specifiek ontworpen voor inferentie, post-trainingstaken en redeneren. Hier ligt de nadruk op geheugen en latency. Elke chip bevat 288 GB HBM en 384 MB on-chip SRAM, drie keer zoveel als de vorige generatie, en maakt gebruik van een nieuwe onderlinge communicatie-architectuur genaamd Boardfly. Deze architectuur biedt verbindingen tot 1.152 chips in een pod en verkort de maximale netwerkradius van 16 naar 7 sprongen, essentieel voor modellen met Mixture of Experts (MoE) en workloads waarbij de coördinatie tussen agents en specialisten een bottleneck kan worden. Google claimt dat TPU 8i tot 80 % betere prestaties per dollar levert vergeleken met Ironwood.

Een race die niet meer alleen met meer FLOPS wordt gewonnen

Voorbij de cijfers geeft de aankondiging een duidelijke boodschap af: de strijd om hardware voor AI verschuift van geïsoleerde chips naar het volledige systeem. Google benadrukt dat TPU 8t en TPU 8i samen met Google DeepMind zijn ontwikkeld, met specificaties die aansluiten bij de werkelijke behoeften van huidige modellen. De Boardfly-topologie, bijvoorbeeld, is ontworpen voor de communicatievereisten van redeneringsmodellen; de SRAM in TPU 8i is gericht op het beter ondersteunen van de KV-cache in productie; en het Virgo-netwerk speelt in op de eisen van parallellisatiefases bij het trainen van modellen met biljoenen parameters.

Daarnaast probeert Google energie-efficiëntie als onderdeel van het verkoopargument te maken. Volgens het bedrijf leveren TPU 8t en TPU 8i tot twee keer meer prestaties per watt dan Ironwood, mede dankzij een vierde generatie vloeistofkoeling. Ze integreren ook connectiviteit en rekencapaciteit op dezelfde chip, en een algehele optimalisatie die het mogelijk maakt voor datacenters om zes keer meer rekenkracht per eenheid elektriciteit te leveren dan vijf jaar geleden.

Dit alles is geen toeval. AI stuit al op zeer fysieke grenzen: energie, koeling, dichtheid en operationele kosten. In dat licht is meer rekenkracht alleen niet meer voldoende. Google wil duidelijk maken dat haar voordeel ligt in het volledige controlen van de hele stack, van CPU tot netwerk, software en datacenter-ontwerp.

Vergelijkingstabel: zo delen TPU 8t en TPU 8i de workload

KenmerkTPU 8tTPU 8i
HoofdfocusGrootschalig trainenInferentie, serving en redenering
Maximale schaal per systeem9.600 chips per superpod1.152 chips per pod
HBM-geheugen per chip216 GB288 GB
SRAM on-chip128 MB384 MB
Netwerktopologie3D torusBoardfly
Uitstekende prestatie121 exaflops per superpod+80 % performance per dollar t.o.v. Ironwood
Belangrijkste verbeteringOngeveer 3x meer prestaties per podLagere latentie en hogere efficiëntie in inferentie

Bron: Google Cloud en Google Blog.

Een bericht ook aan Nvidia

Hoewel Google de aankondiging niet ziet als een directe aanval op Nvidia, is het onderliggende concurrentieveld duidelijk. TechCrunch en andere Amerikaanse media benadrukken dat deze achtste generatie TPU de positie van Google Cloud versterkt in een race waarin Nvidia nog steeds de markt voor AI-versnellers domineert. Het verschil is dat Google al jaren TPU’s inzet in haar eigen diensten, inclusief modellen zoals Gemini, en nu wil dat interne ervaring gebruiken om een meer agressieve cloud-aanbieding te doen voor klanten.

Google verkoopt niet de illusie van een gesloten systeem. Het benadrukt dat beide systemen native compatibel zijn met JAX, PyTorch, SGLang en vLLM, en dat bare-metal toegang beschikbaar is om de implementatie van bestaande modellen en workloads te vergemakkelijken. Tegelijkertijd benadrukt Google dat TPU 8t en TPU 8i niet slechts chips zijn, maar onderdelen van een breder aanbod dat ook opslag, netwerken, software en flexibele consumptiemodellen binnen AI Hypercomputer omvat.

Veelgestelde vragen

Wat heeft Google precies gepresenteerd?
Google heeft zijn achtste generatie TPU aangekondigd, bestaande uit twee verschillende chips: TPU 8t voor het trainen van modellen en TPU 8i voor inferentie, serving en redeneringstaken.

Wat is het belangrijkste verschil tussen TPU 8t en TPU 8i?
TPU 8t is geoptimaliseerd voor grootschalige training en kan tot 9.600 chips per superpod schalen, terwijl TPU 8i zich richt op geheugen, latency en efficiëntie voor inferentie met maximaal 1.152 chips per pod.

Wanneer komen ze beschikbaar?
Google heeft aangegeven dat beide chips later dit jaar algemeen beschikbaar zullen zijn via Google Cloud.

Waarom spreekt Google over het “era van agents”?
Omdat de nieuwe modellen niet meer alleen reageren, maar ook multistaps flow uitvoeren, redeneren, samenwerken en werken met lange contexten, wat een andere infrastructuur voor training en inferentie vereist.

via: blog.google

Scroll naar boven