Tot Hoever In Het Geheugen Van Taalmodellen? Een Analyse Van De Werkelijke Contextcapaciteit Van LLM’s

De Wedloop om de Contextvenster van Taalmodellen: RULER Onderzoekt Werkelijke Prestaties

De race om de contextvenster van taalmodellen uit te breiden, is een van de belangrijkste technische strijdtonelen in de ontwikkeling van generatieve kunstmatige intelligentie. Bedrijven zoals OpenAI, Google, Anthropic en Meta concurreren om modellen aan te bieden die steeds meer tekst tegelijkertijd kunnen verwerken. Maar een nieuw onderzoek, getiteld RULER: What’s the Real Context Size of Your Long-Context Language Models?, ontwikkeld door onderzoekers van NVIDIA en hun partners, stelt de werkelijke prestaties van deze modellen ter discussie wanneer ze worden geconfronteerd met taken die coherentie en precisie vereisen in werkelijk uitgebreide contexten.

Wat is de contextvenster?

In de wereld van taalmodellen (LLM) definieert de contextvenster de maximale hoeveelheid tokens — fragmenten van tekst zoals woorden, tekens of karakters — die het model tegelijkertijd kan verwerken, analyseren en onthouden. Dit bepaalt hoeveel tekst een model ‘in gedachten’ heeft bij het genereren van antwoorden.

Deze parameter is cruciaal voor geavanceerde toepassingen zoals codegeneratie, documentanalyse, zakelijke assistenten en wetenschappelijk onderzoek. Hoe groter de venster, hoe meer informatie coherent kan worden verwerkt zonder de draad kwijt te raken.

RULER: Een Meer Veeleisende Test

De RULER-studie (Real Use-case Long-context Evaluation and Ranking) had als doel niet alleen de maximale tekstgrootte te meten die de modellen beweren aan te kunnen, maar ook hun werkelijke vermogen om hun prestaties te behouden in lange contexten. Het team ontwikkelde een synthetische en configureerbare testbank met taken die veeleisender zijn dan simpele informatieherstel-oefeningen.

In totaal werden 17 open-source en commerciële modellen beoordeeld in 13 taken, gegroepeerd in vier categorieën: informatieherstel, variabelen volgen, gegevensaggregatie en multi-hop vragen. Het doel was om hun effectieve prestaties te meten binnen verschillende contextbereiken, van 4.000 tot 128.000 tokens.

Belangrijkste Resultaten: Veel Beloften, Weinig Realiteiten

De analyse onthult een overtuigende conclusie: de meeste modellen ervaren een aanzienlijke daling in prestaties voordat ze de contextlengte bereiken die ze beweren te kunnen ondersteunen. Slechts een handvol behoudt een prestatie van meer dan 85 procent wanneer de grens van 64.000 tokens wordt overschreden.

Hier volgt een selectie van de meest opvallende resultaten:

ModelAangegeven VensterEffectieve VensterGemiddelde Prestaties (%)
Jamba-1.5-large256.000 tokensMeer dan 128.00096,0
Gemini 1.5 Pro (Google)1.000.000 tokensMeer dan 128.00095,8
Jamba-1.5-mini256.000 tokensMeer dan 128.00093,9
GPT-4 Turbo128.000 tokens64.000 tokens91,6
Llama 3.1 (70B)128.000 tokens64.000 tokens89,6
Mistral-Large-2411128.000 tokens64.000 tokens86,0
Qwen2 (72B)128.000 tokens32.000 tokens85,9

In tegenstelling tot deze modellen die claimen contexten van tot een miljoen tokens aan te kunnen, halen zij in de praktijk nauwelijks meer dan 16.000 tokens.

Marketing Boven Engineering

De onderzoekers waarschuwen dat de promotie van opgeblazen cijfers over de contextgrootte bedrijven en ontwikkelaars kan misleiden die op zoek zijn naar betrouwbare modellen voor echte toepassingen. Vaak kunnen de modellen wel ‘zien’ wat er in de tekst staat, maar niet effectief ‘redeneren’ over deze tekst buiten een bepaalde drempel.

De RULER-test introduceert een paradigmaverschuiving: het is niet genoeg om één trefwoord in een uitgebreide tekst te onthouden; de modellen moeten complexe cognitieve operaties uitvoeren — zoals het volgen van variabelen of het synthetiseren van verspreide informatie — over de volledige lengte van de context.

Implicaties voor de Industrie

In zakelijke, juridische of wetenschappelijke omgevingen, waar precisie en consistentie essentieel zijn, kan een daling in prestaties in lange contexten leiden tot kostbare fouten of verkeerde interpretaties. Dit rapport benadrukt de noodzaak om modellen te evalueren buiten hun technische specificaties en onder omstandigheden die echte toepassingen simuleren.

Bovendien onderstreept het de noodzaak van onafhankelijke en open benchmarks om de capaciteiten van de modellen te evalueren. Tools zoals RULER maken het mogelijk om modellen van verschillende leveranciers objectief te vergelijken, wat bijdraagt aan transparantie in een groeiende markt.

Conclusie

De race om de contextvenster uit te breiden zal een cruciale factor blijven in de ontwikkeling van LLM’s. De resultaten van RULER maken echter duidelijk dat de belofte om miljoenen tokens effectief te beheren nog ver van de werkelijkheid verwijderd is. Ondertussen moeten technologische verantwoordelijken hun modellen kiezen aan de hand van werkelijke prestaties en niet enkel op basis van marketingbeloften.

Geheugen is belangrijk, maar wat je ermee doet, is nog belangrijker. En voor nu tonen slechts enkele modellen aan dat ze een blijvende begrip hebben wanneer de tekst zich verder uitstrekt dan gebruikelijk.

Bron: Nieuws AI

Scroll naar boven