Intel Verdient Sprong Vooruit: CPU Benaderen NVIDIA GPU Prestatie in Kunstmatige Intelligentie Met Microkernels van 1 en 2 Bits

De Strijd Tussen CPU en GPU in Kunstmatige Intelligentie: Intel Maakt Een Sprongetje Voorwaarts

De voortdurende strijd tussen CPU’s en GPU’s op het gebied van kunstmatige intelligentie heeft onlangs een opmerkelijke wending genomen. Intel heeft aangetoond dat zijn conventionele processors, dankzij een herontwerp met geoptimaliseerde microkernels, in staat zijn om grote taalmodellen (LLM) met een snelheid uit te voeren die gevaarlijk dichtbij de prestaties van de populaire NVIDIA A100 ligt. Deze GPU is jarenlang de maatstaf geweest voor training en inferentie van AI.

Van 16 Bits naar 2 Bits: Een Paradigma Verschuiving

Tot nu toe was het standaard voor efficiënte inferentie van LLM’s het gebruik van gewichten van 16 bits (BF16 of FP16) of recentelijk van 4 bits. Dit stelt gebruikers in staat om geheugen en energie te besparen, maar gaat vaak gepaard met een onvermijdelijk verlies van precisie. Intel echter gaat verder:

  • Hun ingenieurs hebben microkernels voor 1 en 2 bits ontwikkeld, die in staat zijn om informatie uiterst compact “in te pakken”.
  • Door deze in moderne x86 CPU’s uit te voeren, wordt een drastische besparing op bandbreedte en geheugen bereikt.
  • Testresultaten tonen aan dat, ondanks deze extreme reductie, de eindprestaties de kwaliteit van het model behouden en de inferentie tot 7 keer sneller kunnen zijn dan de traditionele 16 bits.

In concrete cijfers: terwijl een NVIDIA A100 250 tokens per seconde haalt, liggen de Intel Core Ultra-processors getest tussen de 82 en 110 tokens per seconde, afhankelijk van het CPU-model. Dit verschil is minder dan verwacht, gezien de GPU beschikt over 17 tot 20 keer meer geheugenbandbreedte dankzij zijn HBM2E in vergelijking met traditionele DDR5.

De Experimenten: Drie CPU’s Tegen de A100

Het Intel-team testte zijn microkernels op drie recente consumentenprocessoren:

  • Intel Core Ultra 9 285K met 24 cores (8 P-cores en 16 E-cores).
  • Intel Core Ultra 7 255H met 14 cores.
  • Intel Core Ultra 7 258V met 8 cores.

De resultaten waren consistent: de modellen van 2 bits laten rechte versnellingen zien, dicht bij de theoretische prestatiedrempel van elke processor.

Hoe Hebben Ze Het Voor Elkaar Krijgen?

De sleutel tot dit succes ligt in wat Intel noemt “up-convert and compute”:

  1. Gewichten van het model worden opgeslagen in 1 of 2 bits, wat de gegevenshoeveelheid drastisch vermindert.
  2. Tijdens de inferentie worden ze omgezet in 8-bits gehele getallen.
  3. Ze worden verwerkt met FMA (fused-multiply-add), geoptimaliseerd met AVX2-instructies.

Om ervoor te zorgen dat de tijd om gegevens uit te pakken de winst niet ondermijnt, introduceerde Intel een gewichtsindeling genaamd VNNI4-interleaved, die de kosten voor het reorganiseren van gegevens vermindert voordat de vectorbewerkingen plaatsvinden.

De Impact: AI op Elke Laptop

De grootste relevantie van deze vooruitgang is niet alleen dat een CPU kan concurreren met een GPU van enkele jaren geleden. Het belangrijkste is dat het de deur opent voor het uitvoeren van geavanceerde LLM’s op modeste apparaten zoals laptops of desktops, zonder dat er een speciale GPU nodig is.

Deze ontwikkeling heeft directe gevolgen:

  • Democratisering van toegang: Modellen zoals Falcon3-1B of Llama3-8B, die ooit beperkt waren tot datacenters, zouden nu op een gewone pc kunnen draaien.
  • Energiebesparing: De microkernels verbruiken tussen de 4 en 8 keer minder geheugen en verminderen de energie die nodig is per gegenereerd token.
  • Edge-scenario’s: Apparaten met een laag energieniveau, zoals edge-servers of embedded systemen, kunnen LLM’s in real-time uitvoeren zonder afhankelijk te zijn van de cloud.

Een Klap voor NVIDIA?

NVIDIA heeft de AI-markt gedomineerd met zijn GPU’s met extreem hoge bandbreedte HBM-geheugen. Maar wat Intel voorstelt, is een strategische schaakmat:

  • Niet alle gebruikers hebben grote modellen nodig; velen hebben alleen inferentie nodig.
  • Als die inferentie op gewone CPU’s kan worden uitgevoerd, verliest de GPU-markt een deel van zijn aantrekkingskracht.
  • Bovendien dalen de kosten: er is geen duizenden euro’s meer nodig voor een GPU om een open-source model lokaal uit te voeren.

Volgende Stappen: Van x86 naar ARM en AVX10

Intel is niet van plan om te stoppen bij x86. Hun ingenieurs werken al aan het overdragen van deze optimalisaties naar ARM CPU’s en SoC’s, gebruikmakend van AArch64 en SVE-instructies. Dit zou het mogelijk maken dat telefoons, tablets en ARM-apparaten met geïntegreerde NPU dezelfde voordelen kunnen benutten.

Met de komst van AVX10.2, dat vectoren tot 512 bits ondersteunt, belooft Intel de capaciteiten van deze microkernels verder te verdubbelen, waardoor de prestaties van de CPU nog dichter bij die van de GPU komen.

Conclusie

Wat enkele jaren geleden ondenkbaar leek — het draaien van miljardenparameter-modellen op een laptop — komt steeds dichterbij. Met microkernels van 1 en 2 bits heeft Intel niet alleen een sterke boodschap naar NVIDIA gestuurd, maar ook een nieuw tijdperk ingeluid: AI toegankelijk vanaf elk apparaat, zonder afhankelijkheid van gespecialiseerd hardware.

In tijden waarin de kosten van AI-training en inferentie een grote bezorgdheid vormen voor regeringen, bedrijven en gebruikers, markeert deze vooruitgang een keerpunt. Geavanceerde kunstmatige intelligentie zou niet langer in datacenters opgesloten hoeven te blijven, maar kan de sprong naar desktops maken.

Scroll naar boven