Microsoft introduceert Maia 200: de inferentieversneller waarmee ze de “token-economie” willen verlagen

Microsoft heeft Maia 200 aangekondigd, haar nieuwste inferencia-accelerator (tokengeneratie) ontworpen om de kosten en efficiëntie bij het draaien van grootschalige AI-modellen aanzienlijk te verbeteren. Het bedrijf positioneert het als een kernonderdeel van haar heterogene infrastructuur, waarmee meerdere modellen kunnen worden bediend — inclusief de GPT-5.2 van OpenAI — binnen Microsoft Foundry en Microsoft 365 Copilot.

De verklaring wordt gedaan op een moment dat de industrie haar leiderschap niet meer alleen meet aan de hand van “bruto FLOPS” en steeds meer prioriteit geeft aan de prestaties/€-verhouding, de geheugencapaciteit, de energie-efficiëntie en dataverkeer. In dat speelveld streeft Microsoft naar twee doelen: kostenreductie bij inferentie (waar de operationele uitgaven het hoogst zijn) en controle over delen van de technologische keten (silicium + netwerk + software) om optimalisatieruimte te vergroten.


Wat Maia 200 belooft en waarom dat relevant is

Volgens Microsoft is Maia 200 vervaardigd op 3 nm en geoptimaliseerd voor lage precisies (FP8/FP4), die nu gangbaar zijn bij grootschalige inferentie. Het bedrijf benadrukt drie kernpunten:

  1. Laagprecisie computation voor maximale doorvoer van tokens.
  2. Gericht memoriaal subsysteem om grote modellen te voeden zonder dat de uitvoering wordt belemmerd.
  3. Netwerk en gegevensoverdracht op schaal ondersteund door Ethernet, waardoor het mogelijk is om dichte clusters te schalen zonder afhankelijkheid van eigen netwerkarchitecturen.

Daarnaast bevestigt Microsoft dat er initiële implementaties plaatsvinden in de regio US Central (Des Moines, Iowa), gevolgd door meer uitrol in US West 3 (Phoenix, Arizona), met verdere uitbreiding naar andere regio’s.


Belangrijke specificaties

Microsoft verstrekt concrete cijfers en positioneert Maia 200 als een grote sprong voorwaarts binnen haar inferentiepallet:

  • Meer dan 140 miljard transistors
  • 216 GB HBM3e met 7 TB/s geheugenbandbreedte
  • 272 MB SRAM op chip
  • Piek prestaties per chip: >10 petaFLOPS in FP4 en >5 petaFLOPS in FP8
  • Thermische envelop: 750 W (TDP SoC)
  • Volgens Microsoft ongeveer 30% betere prestaties/dollar dan het nieuwste hardware in haar fleet

Daarnaast vergelijkt Microsoft (zelfdiagnozerend) de piek-prestaties van Maia 200 met andere hyperscalers, vooral in FP4/FP8-formaat.


Overzicht van functies en capabilities van Maia 200

OnderdeelWat Maia 200 bevatWat het betekent in praktijk
Fabricage-node3 nmHogere dichtheid en efficiëntie voor langdurige workloads
Nativere precisieTensor cores FP8/FP4Meer tokens per watt/€ bij moderne inferentie
Memory216 GB HBM3e / 7 TB/s + 272 MB SRAMMinder databus-verkeer en betere acceleratorbenutting
DataoverdrachtGerichte motoren (DMA/Nieuw netwerk) en geoptimaliseerde routesVermindert bottlenecks bij grote modellen
SchalingOntwerp van twee lagen binnen Ethernet (cloudgerichte schaal)Grootschalige clusters zonder eigen interconnectie
InfrastructuurintegratieTelemetry, diagnose en beheer geïntegreerd in besturingslaagBetrouwbaardere en voorspelbare operaties op grote schaal
ToolchainMaia SDK (PyTorch, Triton, kernels, lage-niveau taal, simulator en kostenrekenaar)Snellere portabiliteit en fijnmazige optimalisaties
Intern gebruikFoundry/Copilot, synthetische data-generatie en RLAfstemming tussen silicium en continue productieprocessen

(De beschikbaarheid en het uiteindelijke bereik hangen af van het programma en de regionale uitrol door Microsoft).


Essentie: niet alleen FLOPS, ook geheugen en netwerk

In inferentie kan de rekenkracht van een accelerator overvloedig zijn, maar alsnog prestaties limiteren als geheugen en netwerk het dataverkeer niet kunnen bijbenen. Microsoft benadrukt dat Maia 200 dat optimaliseert: een geheugen-subsystem gericht op lage-precisie-datatypes en een communicatiedesign voor collectief schalen en clustering.

Op ontwikkelingsniveau legt Microsoft de focus op het Maia SDK, met integratie in PyTorch en optimalisaties via Triton, plus tools voor simulatie en kostenraming om efficiëntie te maximaliseren vóór implementatie.


Veelgestelde vragen

Waarvoor dient Maia 200: training of inferentie?
Microsoft positioneert Maia 200 specifiek als een acceleratieplatform voor inferentie, gericht op het efficiënt genereren van tokens en het bedienen van modellen.

Waarom zijn FP4 en FP8 zo belangrijk in 2026?
Omdat veel moderne inferentie gebaseerd is op lage-precisie formats om throughput te verhogen en energiekosten te verlagen, terwijl kwaliteit acceptabel blijft door kwantisatietechnieken.

Wat betekent 216 GB HBM3e voor de prestaties?
Het maakt het mogelijk om grote modellen (of grotere gedeelten daarvan) te hosten met minder dataverkeer en geheugenbottlenecks, wat de daadwerkelijke benutting van het chipvermogen verhoogt.

Is de software proprietair of integreert het ook met gangbare tools?
Microsoft onderstreept een natuurlijke integratie met PyTorch, ondersteund door Triton voor optimalisatie en lage-niveau programmeermogelijkheden om het hardwaregebruik te maximaliseren.


Microsoft Azure Maia 200: Scott Guthrie EVP

Bron: blogs.microsoft

Scroll naar boven