In de wereld van kunstmatige intelligentieshuizen wordt de focus steeds meer verlegd van pure prestaties naar praktische kosten en latency-issues, vooral bij het gebruik van MoE (Mixture of Experts) modellen. Deze geavanceerde architecturen activeren dynamisch gespecialiseerde experts, wat efficiëntie bevordert maar ook de interne communicatie en bandbreedte sterk beïnvloedt.
Volgens een recent rapport van Signal65 wordt de economische haalbaarheid van MoE-systemen mede bepaald door de balans tussen hardwarekosten en de werkelijke tokens die per seconde worden gegenereerd, afhankelijk van de interactievereisten. Het rapport vergelijkt NVIDIA- en AMD-platforms en komt tot de conclusie dat een rack met NVIDIA GB200 NVL72, dat gebruikmaakt van de Grace-Blackwell architectuur, tot 28 keer hogere throughput kan leveren per GPU in hoog-interactieve scenario’s (75 tokens per seconde per gebruiker), vergeleken met AMD’s MI355X.
Deze verschillen blijken vooral te wijten aan de architectuur: NVIDIA focus op rack-scale systemen met hoge snelheidsverbindingen en gedeeld geheugen minimaliseert de latency en interne communicatiekosten die cruciaal zijn voor MoE. AMD’s kracht ligt dan weer in de grote geheugenbandbreedte en densiteit, wat vooral relevant is voor zeer grote en veeleisende toepassingen.
De economische analyse laat zien dat, afhankelijk van de doelstellingen qua tokens per gebruiker en latency, de kosten en prestaties sterk kunnen variëren. Bij een interactie van 25 tokens per seconde per gebruiker is de verhouding tussen de platformen ongeveer 1,86 keer in prijs, terwijl bij 75 tokens er een verschil in performance tot 28 keer wordt waargenomen, met NVIDIA significant voorop.
Het is belangrijk te benadrukken dat deze resultaten onder specifieke aannames en configuraties tot stand komen. De werkelijke kosten en prestaties kunnen variëren op basis van softwarestack, cloudtarieven, contractuele afspraken en gebruikspatronen. Bovendien richt dit onderzoek zich vooral op scenario’s waarbij latency en interne communicatie essentieel zijn, zoals chatbots en interactieve AI-toepassingen.
Kortom, voor wie zich bezighoudt met het implementeren van MoE-modellen op grote schaal, laat dit zien dat niet alleen de hardwarekracht telt, maar vooral hoe goed het hele systeem – van hardware tot software en interconnectie – is ontworpen om latency en datacommunicatie te minimaliseren. Alleen zo kan men in de “nationale competitie” voor AI-inferentie echt voordeel behalen.
