Intel en AMD bereiden ACE voor, de x86-uitbreiding om AI te versnellen vanaf de CPU - Cloud News

X (Twitter) Facebook LinkedIn Email WhatsApp

Intel en AMD hebben opnieuw een stap gezet in de modernisering van x86 met de specificatie ACE v1.15, wat staat voor AI Compute Extensions. Deze nieuwe uitbreiding is ontwikkeld binnen de x86 Ecosystem Advisory Group, het samenwerkingsverband opgezet door beide bedrijven om de toekomst van de architectuur te coördineren en fragmentatie tussen platforms te verminderen. Het hoofddoel is duidelijk: AI- en machine learning-bewerkingen direct vanaf de CPU versnellen, met speciale aandacht voor matrixvermenigvuldiging en lage-precisie-formaten.

ACE moet niet worden gezien als een geïntegreerde NPU of als vervanging van de GPU. Het is een uitbreiding van de x86-instructieset die toekomstige CPU’s beter in staat moet stellen om veelvoorkomende AI-berekeningen uit te voeren, vooral wanneer het niet rendabel is om data naar een externe accelerator te verplaatsen of wanneer de workload lage latentie, directe systeemintegratie of voorspelbare uitvoering vereist.

Het technische document beschrijft ACE als een extensie voor het versnellen van berekeningen, aanvankelijk gericht op matrixvermenigvuldigingen en formaten met verminderde precisie die relevant zijn voor ML-belastingen. De specificatie voegt een nieuwe registerstatus toe, datatransfert-instructies en operaties die AVX-vectorregisters combineren met tile-achtige registreerstructuren, binnen een architectuur die meer rekenkracht wil bieden zonder af te wijken van de bestaande x86-basis.

Waarom ACE belangrijk is voor de toekomst van x86

Kunstmatige intelligentie heeft het debat vooral verplaatst naar GPU’s, NPU’s en gespecialiseerde accelerators. Dat is logisch: grote modellen, training en veel inferentiebelastingen vereisen meestal gespecialiseerde hardware. Maar niet alle AI-taken worden op grote clusters uitgevoerd. Er is ook lichte inferentie, kleine modellen, ingebedde functies in applicaties, werkstations, algemene servers en laptops waar de CPU nog steeds een centrale rol speelt.

Daar past ACE bij. Matrixvermenigvuldigen is een kernbewerking in neurale netwerken, transformers en machine learning-systemen. AVX10 kan al werken met vectoren en SIMD-bewerkingen, maar de ACE-specificatie erkent dat de rekenintensiteit en schaalbaarheid van traditionele vectorbenaderingen zijn limieten heeft. Daarom introduceert het primitieve matrixbewerkingen met tile-registers, die dichter aansluiten bij hoe deze workloads op moderne accelerators worden uitgevoerd.

Technologie	Hoofdtaken
AVX10	Moderne vectorbasis voor x86
ACE	Matrix-uitbreiding voor AI en ML-belastingen
Tile-registers	Opslag en werken met 2D-blokken
Block Scale Registers	Blokgrootte-scaling voor OCP MX-formaten
GPU	Massale versnelling van AI, graphics en parallelle berekeningen
NPU	Efficiënte lokale inferentie op clientapparaten

De strategie heeft ook een strategische inslag. x86 concurreert met andere architecturen die terrein winnen in efficiëntie, mobiliteit en geïntegreerde acceleratie. Apple, Qualcomm, Arm, NVIDIA en anderen sturen op ontwerpen waarbij CPU, GPU, NPU en geheugen steeds meer geïntegreerd werken. Intel en AMD moeten hun x86-ontwikkeling zo vormgeven dat het niet weer tot fragmentatie leidt, wat het ontwikkelaars- en fabrikantenlandschap bemoeilijkte in het verleden.

Het meest aangehaalde precedent is AVX-512. Jarenlang maakten beperkte, wisselvallige of ondermaats ondersteunde implementaties dat ontwikkelaars routes voor code moesten onderhouden, capaciteiten nauwkeurig moesten controleren en dat niet alle x86-processors gelijk presteerden. ACE probeert anders te starten: als een gezamenlijke specificatie, gecoördineerd door Intel en AMD, zodat compilers, libraries en frameworks op een meer gemeenschappelijke basis kunnen worden voorbereid.

Hoe ACE werkt: tiles, AVX en lage precisie

ACE combineert AVX-registers met een nieuwe status van tile-achtige registers. Volgens de specificatie bevat het tile-registerbestand acht 512-bit twee-dimensionale registers, elk met 16 rijen. Elke rij is even groot als een vector van AVX-512. In de eerste versie ligt de focus op accumulatie voor datatypes van 32 bits, zoals FP32 en INT32.

Daarnaast bevat de uitbreiding een Block Scale Register van 1024 bits, verdeeld in twee helften van 512 bits, voor schaalfactoren die gekoppeld zijn aan de twee invoerposities van de operaties. Dit register maakt toepassing van schaalvergroting per blok mogelijk, een belangrijke techniek in formaten zoals OCP MX. In AI-toepassingen helpt dit format bij het verminderen van geheugen- en bandbreedtegebruik, vooral bij gekwantiseerde of lage-precisiemodellen.

Component van ACE	Wat voegt het toe
Tile-registers	2D-registraties voor matrixbewerkingen
Block Scale Register	Schaalfactoren voor OCP MX-formaat
Tile outer product	Uitstrekende vermenigvuldigingen op tiles
AVX-tile bewegingen	Overdracht tussen AVX-registers en ACE-standaarden
Formaatconversies	Van FP32 naar FP16, BF16, FP8, FP6, FP4 en INT8
Systeembeheer	XSAVE, CPUID-ondersteuning en OS-integratie

De kernoperatie is het outer product. Simpel gezegd stelt ACE je in staat om twee vectoren te behandelen als gedeeltelijke matrices en het resultaat op te tellen in een tile. De specificatie definieert operaties voor 2- en 4-bits formaten, zoals BF16, INT8, MX FP8 en MX INT8. Deze zijn bedoeld om grotere matrices te bouwen door ze in stappen op te splitsen.

De ondersteunde formaten laten zien waar de industrie richt op. ACE dekt onder meer INT8, INT32, FP32, BF16, FP16, E8M0, FP8, MX FP8, MX FP6, MX FP4 en MX INT8. Deze formaten worden al veel gebruikt in AI-versnelling; FP8, BF16, FP16 en INT8 voor training en inferentie, terwijl MX-varianten en E8M0 verdere precisie-reductie mogelijk maken voor efficiënter geheugen- en datadoorvoer.

Formaat	Gebruik in AI-toepassingen
FP32	Hoge precisie en accumulatie
BF16	Training en inferentie met goede balans
FP16	Laag-precisie-belastingen en acceleratie
FP8	Efficiënte inferentie en training
FP6 / FP4	Aggressieve kwantisatie en bandbreedtebesparing
INT8	Gequantiseerde inferentie
MX FP8 / MX INT8	Formaten met schaalverdeling
E8M0	Power-of-two schaal voor OCP MX

De specificatie vereist dat implementaties compatibel minimaal op basis van AVX10.1 worden gebouwd. Daarnaast moet volledige ondersteuning van ACE v1 worden bevestigd via CPUID en onder andere ondersteuning voor ACE, ACE_VSN 1 of hoger, AVX10_V2_AUX en de juiste XSAVE-standaarden voor tiles en schaalregisters. Dit betekent dat niet alleen de CPU moet ondersteunen, maar ook het besturingssysteem, compilers, bibliotheken en frameworks moeten worden voorbereid.

Geen onmiddellijke verbetering voor huidige Ryzen- of Core-processors

Het is belangrijk om niet al te hoge verwachtingen te koesteren. ACE is een architectuurpecificatie en geen update die op korte termijn extra prestaties biedt op bestaande processors. Het document waarschuwt dat de betrokken technologieën nog in ontwerpstadium zijn en dat plannen kunnen veranderen. Het is dus nog niet zeker wanneer deze instructies in hardware terechtkomen en door software worden gebruikt.

De daadwerkelijke impact hangt af van meerdere lagen. Ten eerste moeten Intel en AMD ACE in toekomstige CPU-generaties implementeren. Vervolgens moeten besturingssystemen het nieuwe registerbeheer correct ondersteunen. Ook moeten compilers instructies voor ACE genereren. En ten slotte moeten bibliotheken en frameworks zoals BLAS, NumPy, SciPy, oneDNN, PyTorch, TensorFlow en andere inferentielagen optimalisaties toevoegen.

Benodigde laag	Wat moet gebeuren
CPU	Fysieke implementatie van ACE in nieuwe architecturen
Firmware	Correcte blootstelling via CPUID en configuratie
Besturingssysteem	Beheer van XSAVE-standaarden voor tiles en BSR
Compilers	Intrinsics, assembler en codegeneratie
Bibliotheken	Geoptimaliseerde GEMM-kernels en conversie-ondersteuning
AI-frameworks	Gebruik maken van ACE-routes waar mogelijk
Toepassingen	Werkelijke voordelen bij inferentie en specifieke workloads

AMD heeft in haar communicatie rond de x86 Ecosystem Advisory Group aangegeven dat ACE deel uitmaakt van een bredere werkagenda, naast FRED, AVX10 en ChkTag. Daarnaast wijzen technische bronnen erop dat toekomstige AMD-architecturen zoals Zen 6 en Zen 7 verbeteringen voor AI, nieuwe data-formaten en matrixengines zullen bevatten. Totdat producten commercieel beschikbaar zijn en onafhankelijke metingen worden gedaan, is het verstandig om elk tijdsbestek met behoedzaamheid te behandelen.

De strijd gaat niet alleen over prestaties, maar ook over compatibiliteit

Misschien is het interessantste aspect van ACE niet de raw rekencapaciteit, maar de coördinatie. Al tientallen jaren concurreren Intel en AMD binnen de x86-wereld, maar de toenemende vraag naar AI en alternatieve architecturen dwingt tot een betere compatibiliteit. Voor ontwikkelaars is het het ergst als een instructie ingewikkeld is, of als er meerdere incompatibele varianten bestaan zonder een duidelijke route.

ACE probeert een gemeenschappelijke basis te bieden zodat AI-software zonder volledige scheiding kan worden geoptimaliseerd voor x86. Als het lukt, is dat voordelig voor servers, werkstations, clients en embedded systemen, waar lokale AI-uitvoering naar verwachting de komende jaren zal groeien.

Historisch risico	Wat ACE probeert te voorkomen
Instructiefragmentatie	Een gezamenlijke basis tussen Intel en AMD
Gescheiden codepaden	Vermindert onderhoud voor libraries en frameworks
Onvoorspelbare partial-support	Heldere detectie via CPUID
Te grote afhankelijkheid van GPU/NPU	Meer opties voor CPU-gestuurde inferentie
Oudere formaten	Directe ondersteuning voor lage precisie en OCP MX

Dit betekent niet dat ACE GPU’s zal vervangen. Voor het trainen van grote modellen en massale inferentie blijven accelerators onverminderd belangrijk. Maar veel toepassingen vereisen geen dedicated GPU voor elke operatie. Op een laptop, een algemene server of bij software die al dicht op de CPU zit, kan het vermijden van dataverplaatsingen tussen devices latentie besparen en het proces eenvoudiger maken.

In lokale AI-toepassingen is de ervaring daarnaast afhankelijk van meer factoren dan alleen de TOPS. Het gaat om beschikbare geheugen, bandbreedte, latency, energie-efficiëntie, systeemintegratie en ontwikkelsnelheid. ACE biedt x86 een extra instrument om in dat landschap competitief te blijven.

Een indicatie van de richting voor generalistische processoren

Jarenlang werd gedacht dat de algemene CPU haar belang zou verliezen aan gespecialiseerde accelerators. De werkelijkheid is genuanceerder. De CPU blijft essentieel voor systeemcontrole, applicatielogica, databewegingen, geheugenbeheer, interrupt-afhandeling en uiteenlopende workloads. Als AI op allerlei momenten wordt ingebed, moet de CPU die patronen beter begrijpen.

ACE speelt in op die situatie. Het brengt matrix- en moderne AI-formaten naar de kern van x86, zonder de CPU compleet te veranderen of alle belasting daar te laten uitvoeren. Het doel lijkt meer pragmatisch: de CPU efficiënter en voorspelbaarder maken voor bepaalde AI-bewerkingen, vooral inferentie, kwantisering, preprocessing, kleine operaties of scenario’s waarbij dataverplaatsing kostbaar is.

De uiteindelijke waarde hangt af van de uitvoering. Als Intel en AMD ACE consistent implementeren, OS-ondersteuning goed is en frameworks het omarmen, krijgt x86 een stevigere basis voor lokale en zakelijke AI. Slechte of vertraagde ondersteuning, of fragmentatie tot enkele lage klassen, zal het effect beperken.

De ACE v1.15-specificatie verandert vandaag niet de prestaties van bestaande systemen, maar geeft wel een belangrijke richting aan: Intel en AMD begrijpen dat AI een gedegen, gecoördineerde evolutie van x86 vereist. Het gaat niet alleen om meer cores of hogere snelheden, maar om betere samenwerking met matrices, lage-precisieformaten en modellen die steeds dichter bij de gebruiker worden uitgevoerd.

Veelgestelde vragen

Wat is ACE in x86?
ACE, of AI Compute Extensions, is een specificatie van Intel en AMD voor instructies die gericht zijn op het versnellen van AI- en ML-bewerkingen, vooral matrixvermenigvuldigingen en lage-precisie-formaten.

Vervangt ACE een GPU of NPU?
Nee. ACE vervangt geen gespecialiseerde accelerators voor massale workloads. Het is bedoeld om de capaciteiten van toekomstige x86-CPU’s te verbeteren voor bepaalde AI-bewerkingen.

Welke formaten ondersteunt ACE?
De specificatie omvat INT8, INT32, FP32, BF16, FP16, FP8, MX FP8, MX FP6, MX FP4, MX INT8 en E8M0 voor schaalverdeling.

Komt ACE naar huidige processors via een firmware- of software-update?
Nee, ACE vereist ondersteuning in hardware. Het zal niet mogelijk zijn om het via een update op bestaande CPUs te activeren. Er moeten nieuwe processoren komen die het hardware-ondersteuning bieden, plus de juiste OS-, compiler- en bibliotheekondersteuning.

X (Twitter) Facebook LinkedIn Email WhatsApp