Gradient AI, een bedrijf gespecialiseerd in kunstmatige intelligentie, heeft een aanzienlijke doorbraak bereikt op het gebied van natuurlijke taalverwerking door de context van Meta’s Llama 3-modellen uit te breiden tot meer dan 1 miljoen tokens. Deze prestatie plaatst deze modellen als de meest contextrijke in het domein van open-source.
Een kwantumsprong in verwerkingscapaciteit
De onlangs door Meta gelanceerde Llama 3 taalmodellen hebben veel enthousiasme gewekt in de open-sourcegemeenschap vanwege hun uitzonderlijke prestaties. Een opvallende beperking was echter hun relatief kleine contextlengte. Gradient AI zag hier een kans om deze modellen te verbeteren.
De contextlengte bepaalt hoeveel tekst een model tegelijkertijd kan overwegen in de invoer en uitvoer. Terwijl de meest geavanceerde modellen contextvensters van maximaal 128.000 tokens (ongeveer 90.000 woorden) bieden, heeft Gradient AI deze capaciteit verhoogd tot meer dan 1 miljoen tokens voor de Llama 3-modellen met 8B en 70B parameters.
Infrastructuur en technologie achter de prestatie
Voor dit project werkte Gradient AI samen met Crusoe, een leverancier van computerinfrastructuur. De keuze van hardware was cruciaal; ze kozen voor NVIDIA L40S GPU’s vanwege hun snelle beschikbaarheid en hun uitstekende prestaties in 8-bits floating-point (FP8) operaties.
Het Gradient AI-team paste geavanceerde optimalisatietechnieken toe, zoals RingAttention, om geheugenbeperkingen te overwinnen en effectief oneindige contextlengtes mogelijk te maken. Bovendien ontwikkelden ze eigen strategieën om de rekentaak te balanceren en de algehele trainingsprestaties te verbeteren.
Impact en efficiëntie
De resulterende modellen hebben uitstekende resultaten laten zien in informatieherwinningstests en behoren tot de beste op het Open LLM Leaderboard. Bovendien is de geschatte trainingskost voor deze uitgebreide modellen concurrerend in vergelijking met de fine-tuning opties die beschikbaar zijn via commerciële API’s.
Milieuoverwegingen
In een tijd waarin de vraag naar krachtigere AI-modellen exponentieel toeneemt, hebben Gradient AI en Crusoe ook het aspect van duurzaamheid aangepakt. Crusoe voedt zijn datacenters met een mix van verspilde, gestrande en schone energie, waardoor AI-werklasten op grote schaal kunnen worden uitgevoerd terwijl ze in lijn blijven met klimaatdoelstellingen.
Deze vooruitgang in het uitbreiden van de context van de Llama 3-modellen vertegenwoordigt een significante stap richting capabelere en veelzijdigere taalmodellen, met potentiële toepassingen in een breed scala van industrieën en gebruiksscenario’s.
Bron: Crusoe
