Red Hat lanceert de LLM-D-gemeenschap voor het versnellen van grootschalige gedistribueerde inferentie in generatieve AI

Red Hat Lanceert LLM-D: De Toekomst van Schaalbare Generatieve AI-Inferentie

Amsterdam – Red Hat, wereldleider op het gebied van open source-oplossingen, heeft vandaag llm-d gepresenteerd, een nieuw project dat zich richt op een van de meest urgente uitdagingen van de toekomst van generatieve kunstmatige intelligentie: inference at scale. Dit innovatieve systeem is erop gericht de prestaties en efficiëntie van generatieve taalmodellen (LLM’s) te verbeteren bij real-world toepassingen in productieomgevingen.

LLM-D is vanaf het begin ontworpen om optimaal te profiteren van native Kubernetes-omgevingen en combineert een gedistribueerde architectuur gebaseerd op vLLM met een geavanceerd AI-bewust netwerk routing-systeem. Deze combinatie stelt het systeem in staat om inference clouds te implementeren die voldoen aan de hoogste operationele eisen en serviceniveaus (SLO’s), zelfs in omgevingen met hoge belasting.

Hoewel het trainen van modellen nog steeds een essentieel onderdeel is, ligt de sleutel tot succes in generatieve AI steeds meer in de inferentiefase: het moment waarop getrainde modellen worden gebruikt om antwoorden, inhoud of oplossingen te genereren. Dit moment vertaalt zich in echte gebruikerservaringen en waarde voor bedrijven.

Een recent rapport van Gartner benadrukt dat tegen 2028 meer dan 80% van de werkbelastingversnellers in datacenters gericht zal zijn op inferentietaken, niet op training. Dit onderstreept de noodzaak voor tools zoals LLM-D, die zijn ontworpen om de uitvoering van complexe en omvangrijke modellen op te schalen zonder in problemen met latentie of buitensporige kosten te vervallen.

De centralisatie van inferentie in grote servers begint beperkingen te vertonen ten opzichte van het toenemende aantal verzoeken en de complexiteit van huidige modellen. In dit kader biedt LLM-D een flexibele, schaalbare en open alternatief waarmee ontwikkelaars en organisaties gedistribueerde en duurzame inferentie-infrastructuren kunnen implementeren, met behoud van hoge prestaties.

Met deze lancering versterkt Red Hat zijn toewijding aan open innovatie en de evolutie van het ecosysteem van kunstmatige intelligentie, door tools te bieden die de verantwoorde en efficiënte adoptie van technologieën op basis van generatieve modellen vergemakkelijken.

LLM-D: Aanpakken van de Noodzaak voor Schaalbare Generatieve AI-Inferentie

Red Hat en zijn industriële partners confronteren deze uitdaging recht in het gezicht met LLM-D, een visionair project dat de mogelijkheden van vLLM vergroot om de beperkingen van een enkele server te overstijgen en productie op schaal voor AI-inferentie mogelijk te maken. Door gebruik te maken van de beproefde orchestratietools van Kubernetes, integreert LLM-D geavanceerde inferentiecapaciteiten in bestaande IT-infrastructuren. Dit unificerende platform stelt IT-teams in staat om de diverse servicenoden voor kritische bedrijfswerkbelastingen aan te pakken, terwijl innovatieve technieken worden ingezet om de efficiëntie te maximaliseren en de totale eigendomskosten (TCO) van krachtige AI-versnellers aanzienlijk te verlagen.

LLM-D biedt een krachtig pakket innovaties, waaronder:

  • vLLM, dat zich snel heeft gevestigd als de de facto open-source inferentieserver, met modelondersteuning vanaf dag één voor opkomende geavanceerde modellen en ondersteuning voor een breed scala aan versnellers.

  • Desaggregatie van prefill en decode om de fasen van invoercontext en token generatie in discrete bewerkingen te scheiden, die vervolgens over meerdere servers kunnen worden verdeeld.

  • KV-cache (key-value) offload, gebaseerd op LMCache, die de geheugendruk van KV-cache van GPU-geheugen naar goedkopere en overvloedigere standaardopslag zoals CPU-geheugen of netopslag verplaatst.

  • Kubernetes-gebaseerde clusters en controllers voor efficiëntere planning van reken- en opslagbronnen, terwijl de werkbelasting fluctuaties aanneemt en tegelijkertijd lage latentie behoudt.

  • AI-bewust netwerk routing om inkomende verzoeken te programmeren naar servers en versnellers die waarschijnlijk "warme" caches van eerdere inferentieberekeningen hebben.

  • Hoge-prestatie communicatie-API’s voor snellere en efficiëntere gegevensoverdracht tussen servers, met ondersteuning voor de NVIDIA Inference Xfer Library (NIXL).

LLM-D: Ondersteund door Industriële Leiders

Dit nieuwe open-sourceproject heeft al de steun verkregen van een indrukwekkende coalition van toonaangevende aanbieders van generatieve AI-modellen, pioniers in AI-versnellers en prominente cloudplatforms. CoreWeave, Google Cloud, IBM Research en NVIDIA zijn founding partners, en worden ondersteund door AMD, Cisco, Hugging Face, Intel, Lambda en Mistral AI, wat de sterke samenwerking binnen de sector benadrukt voor de toekomst van LLM-diensten op grote schaal.

Met een stevig fundament in open samenwerking, erkent Red Hat het cruciale belang van dynamische en toegankelijke gemeenschappen in het snel evoluerende landschap van generatieve AI-inferentie. Red Hat zal actief de ontwikkeling van de LLM-D-gemeenschap bevorderen, waarbij een inclusieve omgeving voor nieuwe leden wordt gecultiveerd en voortdurende evolutie wordt gestimuleerd.

Red Hat’s Visie: Elk Model, Elke Versneller, Elke Cloud

De toekomst van AI moet worden gekenmerkt door onbegrensde kansen, niet door de beperkingen van infrastructuursilo’s. Red Hat voorziet een toekomst waarin organisaties elk model op elke versneller en via elke cloud kunnen implementeren, met een uitzonderlijke en consistente gebruikerservaring zonder exorbitante kosten. Om het ware potentieel van investeringen in generatieve AI te ontsluiten, hebben bedrijven een universeel inferentieplatform nodig: een standaard voor soepelere en hogere prestaties in AI-innovatie, nu en in de toekomst.

Net zoals Red Hat pionierswerk verrichtte door Linux tot de basis van moderne IT te transformeren, staat het nu klaar om de toekomst van AI-inferentie vorm te geven. Het potentieel van vLLM is dat van een centrale spil voor gestandaardiseerde generatieve AI-inferentie, en Red Hat is vastbesloten een bloeiend ecosysteem te creëren rond niet alleen de vLLM-gemeenschap, maar ook LLM-D voor gedistribueerde inferentie op grote schaal. De visie is helder: ongeacht het AI-model, de onderliggende versneller of de implementatieomgeving, heeft Red Hat de ambitie om vLLM om te vormen tot de ultieme open standaard voor inferentie in de nieuwe hybride cloud.

Scroll naar boven