"NVIDIA Vernieuwt AI Inferentie: Grote Clusters, Fotonic Silicon en Ultra-efficiënte Netwerken voor een Toekomst met Redeneringsmodellen"

NVIDIA Leidt de Toekomst van AI Infrastructuur met Geavanceerde Generatieve Modellen

De onderneming zet in op hoogperformante, gecentraliseerde infrastructuren als antwoord op de opkomst van geavanceerde generatieve modellen en toenemende inferentiebelastingen, terwijl hun co-geïntegreerde optische technologie de grenzen van energie-efficiëntie in datacenters herdefinieert.

Jarenlang was de leidraad voor het bouwen van een AI-cluster duidelijk: zoveel mogelijk GPU’s samenbrengen, deze verbinden via ultrabrede netwerken en ze voeden met enorme hoeveelheden data. Echter, de overgang van generatieve kunstmatige intelligentie van de trainingsfase naar massale inzet in inferentie verandert de fundamentele principes van datacenterontwerp. NVIDIA wil deze transitie leiden.

In een verklaring aan DataCenterDynamics legt Kevin Deierling, senior vice-president van netwerken bij NVIDIA, uit dat het tijdperk van "lichte" inferentie ten einde is. In plaats daarvan stimuleert de nieuwe generatie modellen—vooral redeneringsmodellen en agentbelasting—een recentralisatie van de infrastructuur rondom steeds efficiëntere, massieve clusters.

Inferentie: Meer Dan Alleen Een Vraag-en-Antwoord Proces

Volgens Deierling heeft de markt zich ontwikkeld in drie belangrijke fasen:

  1. Pretraining: de ontwikkeling van fundamentele modellen op basis van initiële gegevensvolumes.
  2. Posttraining: het verfijnen van modellen met honderden petabytes of zelfs triljoenen parameters.
  3. Testtijd-schaalvergroting: waarbij het model, eenmaal getraind, aanvullende rekenkracht inzet tijdens de inferentie om meerdere mogelijke uitkomsten te simuleren en de beste respons te selecteren.

Deze laatste stap vertegenwoordigt een paradigmawisseling: inferentie is niet langer een directe vraag-en-antwoord interactie, maar een iteratief en rekenintensief proces. Modellen zoals DeepSeek R1 (671 miljard parameters) vereisen tientallen GPU’s in parallel voor inferentietaken, wat het uitvoeren op de rand of individuele apparaten steeds minder haalbaar maakt.

Hergebruik van Trainingsclustern voor Inferentie

NVIDIA signaleert een duidelijke trend bij hun meest geavanceerde klanten: het hergebruiken van trainingsclustern voor inferentietaken. Waar inferentie oorspronkelijk werd gedacht te worden uitgevoerd op geïsoleerde machines, is het nu duidelijk dat de economisch meest waardevolle modellen—zoals in autonome agenten of multimodale zoekmachines—complexe en dichte netwerken vereisen.

Co-Packaged Optics (CPO): NVIDIA’s Energiestap

Met datacenters die eenvoudig honderdduizenden GPU’s kunnen huisvesten, is het belangrijkste limiet voor opschaling niet langer de hardwarekosten, maar het energiebudget. NVIDIA heeft daarom ingezet op de integratie van co-geïntegreerde optica (CPO): switches met geïntegreerde fotonica direct in de siliciumchip.

Belangrijke voordelen van CPO:

  • Tot 50% minder energieverbruik voor interconnectie.
  • Enorme vermindering van transceivers: eliminatie van honderdduizenden externe optische componenten.
  • Grotere operationele betrouwbaarheid: minder bewegende delen, minder kans op menselijke fouten in omgevingen met hoge dichtheid.
  • Verhoogde capaciteit per rack, waardoor ruimte en kracht vrijkomt voor meer GPU’s.

Optische Netwerken en Ultra Lage Latentie

NVIDIA’s visie beperkt zich niet tot het optimaliseren van individuele racks. In de grootste datacenters ter wereld worden al optische interconnecties tussen complete campussen uitgerold, die meerdere gebouwen verbindt voor het uitvoeren van multicluster trainingstaken en gedistribueerde inferentielasten.

Hoewel de invloed van latentie op menselijke gebruikers beperkt is (200 ms is acceptabel), geldt dit niet voor agent-inferentie, waarbij meerdere autonome modellen in real-time met elkaar interactie hebben. Hier is sub-millisecond latentie cruciaal, en dat kan alleen gegarandeerd worden binnen hetzelfde datacenter of via zeer lage-latentie optische verbindingen.

Een Nieuwe Architectuur voor de Toekomst van AI

De overgang van snelle, eenvoudige inferenties naar complexe en gedistribueerde redeneringsprocessen vereist een heroverweging van de gehele infrastructuurstack: van netwerk tot verbruik, van optische verpakking tot fysieke plaatsing van racks. Volgens NVIDIA zullen de architecturen van de toekomst niet afhankelijk zijn van de scheiding tussen edge en cloud, maar van hoe computation, netwerk en energie integraal worden beheerd.

Bron: Nieuws over Kunstmatige Intelligentie en DCD.

Scroll naar boven