A100, H100 en H200: De stille strijd om GPU-kracht in AI (en waarom sneller niet altijd beter is) - Cloud News

X (Twitter) Facebook LinkedIn Email WhatsApp

De openbare discussie over kunstmatige intelligentie blijft vaak beperkt tot wat zichtbaar is: modellen die schrijven, afbeeldingen genereren of programmeren. Maar onder de motorkap verloopt het echte gesprek anders: welke GPU wordt gekocht, gehuurd of ingezet om alles soepel te laten verlopen zonder dat de kosten escaleren, de latentie onmenselijk wordt of de prestatie door een onverwachte bottleneck wordt beperkt.

In die schaal worden doorgaans drie namen genoemd in vrijwel elk serieus project: NVIDIA A100, NVIDIA H100 en NVIDIA H200. Op het eerste gezicht lijken ze een logische opbouw in kracht. Maar in de praktijk ligt de keuze lastiger: de nieuwste GPU wint niet altijd, omdat niet de marketing, maar de aard van de workload (training, inferentie, modelgrootte, lange contexten, parallelisme, etc.) de doorslag geeft.

Wat de situatie beïnvloedt, is dat deze GPUs niet enkel verschillen in “snelheid”. In de praktijk wordt het rendement bepaald door drie factoren die vaak met elkaar concurreren:

Rekenkracht (hoeveel “brute kracht” er is voor multipliers/matrices).
Geheugen (VRAM-capaciteit en vooral breedte band).
Interconnectie (hoe goed het schaalt wanneer meerdere GPUs worden ingezet).

Het kernpunt: bottlenecks liggen niet altijd waar je denkt

Om te begrijpen waarom A100, H100 en H200 zich zo verschillend gedragen, is het handig om dit in alledaagse taal te vertalen:

Als de workoad beperkt wordt door rekenkracht, is de GPU als een keuken: meer “branders” en een betere “motor” koken sneller.
Als de workload beperkt wordt door geheugen, is de GPU als een magazijn en een laadgang: een grote keuken helpt niet als de ingrediënten te laat aankomen of niet passen.

Bij grote modellen (LLM’s), vooral bij inferentie, besteedt het systeem soms meer tijd aan verschijning van gewichten en activaties uit het geheugen te halen dan aan “rekenen” zelf. Daarom kunnen twee GPU’s met vergelijkbare rekenkracht heel verschillend presteren als een ervan meer bandwidth of VRAM heeft.

Belangrijke specificaties (zonder in technische details te verzanden)

Er is een vergelijking die het generatie-overschakeling goed samenvat: A100 is een solide referentie, H100 levert enorme prestatiewinsten en introduceert nieuwe capaciteiten, en H200 bouwt voort op de basis van H100, met een sterke focus op geheugen.

Samenvatting (typische waarden voor serverplatforms):

GPU	Geheugen	Type geheugen	Breedte band (bij benadering)	NVLink (bij benadering)
NVIDIA A100	80 GB	HBM2e	2,0 TB/s	600 GB/s
NVIDIA H100	80 GB	HBM3	3,35 TB/s	900 GB/s
NVIDIA H200	141 GB	HBM3e	4,8 TB/s	900 GB/s

Deze cijfers zijn geen decoratie: ze verklaren waarom een GPU in een model met 8 miljard parameters vlekkeloos functioneert, maar bij een model van 70 miljard met lang context, veel gelijktijdigheid of een grote KV-cache, problemen kan krijgen.

A100: de ervaren krachtpatser die nog steeds meestrijdt (mits je geen wonderen verwacht)

A100 was jarenlang de ruggengraat van AI door zijn eenvoudige balans. In veel scenario’s van inferentie en gemiddeld trainen blijft hij uitstekend werken, vooral als het model comfortabel binnen VRAM past en geen extreme bandwidth-vereisten heeft.

Maar de wereld is veranderd: moderne LLM’s en hun toepassingen (RAG, lange contexten, agents, grote batchgroottes, lage latency) leggen meer druk op geheugen en bandwidth. In die gevallen “faalt” de A100 niet, maar levert hij aanzienlijk minder prestaties.

H100: meer dan snelheid — een “andere manier van werken”

H100 is niet zomaar “A100 maar sneller”. Het grote voordeel is dat hij ontworpen is om moderne workloads, vooral transformators, optimaal te ondersteunen. Een belangrijke innovatie daarbij is FP8 en het bijbehorende ecosysteem, dat een verschil maakt in praktische scenario’s.

Vast gezegd: FP8 maakt het mogelijk om dataverkeer te verminderen en de prestaties te verhogen, maar het is geen magie. Het vereist softwareondersteuning en workflows die hiervan profiteren, en niet elk project wil (of kan) precisie veranderen, kalibreren, kwantiseren of trade-offs accepteren.

Voor teams die dat wel kunnen, wordt H100 vaak de “sweet spot”: hoge prestaties, brede beschikbaarheid en duidelijke verbetering ten opzichte van de A100.

H200: de “H100 met steroïden” op geheugengebied (en dat zegt bijna alles)

Hier zit de valstrik die veel mensen over het hoofd zien: H200 is geen radicaal nieuwe architectuur, maar een upgrade op geheugengebied: méér capaciteit en breder geheugenband.

Wat merk je ervan?

Grote modellen die, door VRAM-beperkingen, anders meerdere GPUs vereisen met H100.
Lange contexten (16K, 32K of meer) waar de KV-cache groeit en het geheugen opslokt.
Meer gelijktijdigheid zonder dat de latency daardoor sterk toeneemt.
Minder complexiteit: als je minder GPUs nodig hebt om hetzelfde te doen, vermindert dat de synchronisatie, communicatie en potentiële punten van falen.

Met andere woorden: H200 blinkt uit wanneer het niet om “rekenen” gaat, maar om gegevens passen en verplaatsen.

De lastige vraag: wanneer kies je voor H200 en wanneer hou je het bij H100?

In de praktijk wordt de keuze vaak vanzelf duidelijk wanneer je eerlijk bent over drie vragen:

Past je model “goed” binnen 80 GB, inclusief marge voor KV-cache en activaties?
Zo ja, dan is H100 meestal de meest rationele keuze.
Ga je lange contexten en veel gelijktijdige workloads gebruiken?
Zo ja, dan begint H200 zijn waarde te bewijzen.
Heb je een deployment die vooral veel GPU’s vraagt vanwege geheugen, niet vanwege rekenkracht?
Als dat zo is, kan H200 goedkoper uitvallen in totaal, doordat het het paralellisme vereenvoudigt en minder GPU’s vereist.

Deze laatste overweging zorgt ervoor dat in sommige projecten de keuze niet “H200 is duur” is, maar “H200 voorkomt dat je het dubbele aan H100 moet inzetten”.

De diepere boodschap: AI duwt hardware naar een nieuw limiet

Dit debat is geen hightech-spelletje van ingenieurs. Het wijst op een nieuwe fase: AI verscherpt de eisen aan de infrastructuur waarin niet meer alleen de “beste chip” telt. Geheugen, energieverbruik, koeling, beschikbaarheid en operationele kosten worden minstens zo belangrijk.

De vergelijking A100 versus H100 versus H200 is dus geen simpel ranglijstje. Het gaat om een meer confronterende, maar veel nuttigere strategie: kies de GPU die je bottleneck aanpakt, niet die met de nieuwste naam.

Veelgestelde vragen

Welke GPU is het beste voor inferentie van LLM’s met lange contexten (16K of meer)?
Bij grote contexten verbruikt de KV-cache veel VRAM. In zulke gevallen heeft H200 vaak de voorkeur vanwege de 141 GB en de hogere bandwidth, omdat dat de kans verkleint dat je zonder geheugen komt te zitten of de gelijktijdigheid moet inperken.

Wat is het praktische verschil tussen HBM3 en HBM3e in AI?
Vooral qua bandwidth en soms capaciteit: HBM3e biedt doorgaans meer bandwidth en, afhankelijk van de configuratie, ook meer capaciteit. Dit is vooral merkbaar bij inferentie van grote modellen, waar dataverkeer vanaf geheugen bepalend is voor het aantal tokens per seconde.

Wat betekent FP8 en waarom wordt het zo vaak gekoppeld aan H100/H200?
FP8 is een lager-precisie floating point formaat dat prestaties en efficiëntie kan verbeteren bij geschikte workloads. H100 en H200 maken gebruik van speciale software (zoals Transformer Engine) om dat mogelijk te maken in praktische toepassingen.

Blijft de A100 relevant in 2026?
Ja, zeker als je model en use-case niet zwaar leunen op geheugen of bandwidth. Voor middelgrote inferenties of workloads waar kosten prioriteit hebben, blijft de A100 een goede keuze.

X (Twitter) Facebook LinkedIn Email WhatsApp