AMD en Intel bereiden ACE voor om Kunstmatige Intelligentie op x86 te versnellen

AMD en Intel hebben een ongebruikelijke stap gezet in een industrie die gewend is om te concurreren in elke generatie processors: ze werken samen aan een gezamenlijke uitbreiding om AI-belastingen binnen de x86-architectuur te versnellen. Het voorstel heet ACE, wat staat voor AI Compute Extensions, en heeft als doel matrixvermenigvuldiging te standaardiseren en te delen als een ingebouwde capaciteit voor toekomstige x86-chips.

Deze initiatief maakt deel uit van het werk van de x86 Ecosystem Advisory Group, een groep opgericht door AMD, Intel en andere partners om compatibiliteit en evolutie van x86 te versterken te midden van de druk van Arm, gespecialiseerde accelerators en de groei van kunstmatige intelligentie. Het technische whitepaper van ACE, gedateerd 15 april 2026, presenteert de extensie als een manier om de prestaties, schaalbaarheid en energie-efficiëntie te verbeteren in matrixvermenigvuldigingen, een fundamenteel onderdeel voor het trainen en inferentie van taalmodellen en neurale netwerken.

Waarom ACE belangrijk is voor x86

Matrixvermenigvuldiging is een kernoperatie in moderne kunstmatige intelligentie. Het komt voor bij vooruitgaande propagatie, backpropagation, gewichtsupdates, lagen in neurale netwerken en primitieve bewerkingen in taalmodellen. Vectoruele uitbreidingen zoals AVX10 maken het al mogelijk om deze soorten berekeningen uit te voeren, maar AMD en Intel erkennen in het document dat de rekenintensiteit en schaalbaarheid mogelijk tekortschieten voor bepaalde workloads.

ACE probeert dat gat te dichten zonder de bestaande x86-wereld te doorbreken. De sleutel ligt in integratie met AVX10, in plaats van het los te koppelen als een compleet aparte technologie. Dit zou hergebruik mogelijk maken van reeds door ontwikkelaars geschreven code, bibliotheken, runtimes en optimalisaties, wat de last voor softwareontwikkelaars en fabrikanten verlaagt.

De aanpak is gebaseerd op buitenproduct-operaties, een techniek die de rekencapaciteit verhoogt ten opzichte van standaard vectoroperaties. Volgens het document kan een ACE-bewerking met buitenproduct een verbetering van 16 keer in reken-dichtheid bieden ten opzichte van een equivalente vermenigvuldiging + accumulatie-operatie in AVX10, terwijl dezelfde invoervectoren worden gebruikt.

Vaste technische aspectenWat ACE bijdraagt
IntegratieWordt een natuurlijke uitbreiding van AVX10
BasishandelingenBuitenproduct voor versnelde matrixberekeningen
Reken-dichtheidTot 16 keer hoger dan een equivalente AVX10-operatie
Inheemse formatenINT8, OCP FP8, OCP MXFP8, OCP MXINT8 en BF16
Nieuwe status8 tegels in registers en één blokschalingregister
Voorzien softwareCompilers, debuggers, profilers, HPC-bibliotheken en machine learning-frameworks

Deze benadering heeft een strategische insteek. AMD en Intel willen niet elk x86-CPU veranderen in een GPU of toegewijde NPU, maar ze willen wel dat de algemene processor beter gereedschap krijgt voor het uitvoeren van belangrijke delen van AI-belastingen. Dit kan handig zijn in laptops, werkstations, servers, HPC-omgevingen en systemen waar het niet altijd efficiënt is om elke operatie naar gespecialiseerde hardware te verplaatsen.

Van laptop tot datacenter

Een van de belangrijkste boodschappen uit het whitepaper is de schaalbaarheid. ACE wordt gepresenteerd als een matrixversnellingsarchitectuur die toepasbaar is van laptops tot datacenter-servers. Het idee is dat ontwikkelaars kunnen vertrouwen op een meer uniforme basis binnen de x86-wereld, in plaats van afhankelijk te zijn van gefragmenteerde oplossingen of incompatibele uitbreidingen van verschillende fabrikanten.

Dat betekent niet dat ACE GPU’s, AI-accelerators of NPUs zal vervangen. De grootste workloads voor training en veel inferentietaken blijven gebruik maken van gespecialiseerde hardware. Maar ACE kan stigma’s in hybride operaties, pre-processing, ondersteunende kernels, lokale inferentie, numerieke bibliotheken en delen van modellen waar de CPU nog een belangrijke rol speelt, verminderen.

Het document legt ook uit dat ACE aan de software wordt gepresenteerd als een nieuwe “palette” binnen de AMX-structuur, waardoor een deel van het programmatiemodel en de bijbehorende OS-ondersteuning kan worden hergebruikt. Dit is technisch relevant omdat het adoptiekosten verlaagt voor low-level software.

Wat dataformaten betreft, ondersteunt ACE gangbare AI-formaten zoals INT8, BF16 en OCP MX. Ondersteuning van OCP MX is bijzonder interessant doordat het inline block-scaling bevat, een techniek ontworpen voor low-precision formats die bandwidth en geheugenbehoefte vermindert zonder al te veel aan nuttigheid in moderne modellen te verliezen.

Low-precision-operaties worden steeds essentiëler voor efficiënte AI. Het is niet altijd nodig om met hoge precisie te rekenen als modellen acceptabele kwaliteit kunnen behouden met INT8, FP8, BF16 of andere compacte formats. ACE erkent dat en voegt conversie- en verpakkingsmechanismen toe voor beter werken met smallere data, inclusief formats van 2 tot 7 bits via de instructie VUNPACKB.

Een technische alliantie met politieke implicaties

Dat AMD en Intel samenwerken aan zo’n extensie is veelzeggend. Beide bedrijven concurreren in desktop-, laptop-, server- en werkstation-CPU’s, maar delen hetzelfde belang: dat x86 ook in het AI-tijdperk een aantrekkelijke platform blijft voor ontwikkelaars.

Jarenlang lag de kracht van x86 in compatibiliteit, grote geïnstalleerde basis en de volwassenheid van het ecosysteem. Nu moet dat waarde worden gecombineerd met nieuwe eisen: energie-efficiëntie, modelversnelling, ondersteuning van low-precision formats en het kunnen opereren in steeds meer heterogeneous workloads. ACE probeert hier vanuit de architectuur zelf een antwoord op te geven.

Standaardisatie kan duidelijk een voordeel zijn. Als AMD en Intel compatibele functies implementeren, hebben ontwikkelaars minder redenen om los van elkaar te optimaliseren per merk. In theorie kunnen AI-bibliotheken, frameworks zoals PyTorch of TensorFlow, of wetenschappelijke bibliotheken als NumPy en SciPy, profiteren van gezamenlijke acceleratieroutes in de toekomst.

Het witte boek vermeldt dat de software-omarming al in gang is gezet, met initiële integratie in compilers, debuggers en profilers. Toekomstige inspanningen richten zich op geoptimaliseerde kernels, deep learning- en HPC-bibliotheken, primitieve bewerkingen voor taalmodellen en ML-runtimes.

Wat moeten we nog weten?

ACE is nog steeds een technische ambitieschets en biedt geen garanties voor concrete productprestaties. Belangrijke vragen blijven: welke generaties processors zullen het implementeren? Met welke werkelijke prestaties? Wat worden de verschillen tussen AMD en Intel? Hoe zal het besturingssysteem reageren en hoe snel zullen populaire bibliotheken het gericht ondersteunen?

Ook moet nog blijken hoe ACE zich verhoudt tot andere hardwarecomponenten. Laptops combineren al CPU, GPU, NPU en multimedia-accelerators; servers combineren CPUs met GPUs, FPGAs, SmartNICs en gespecialiseerde accelerators. In dat overzicht moet de CPU zijn matrixbereik verbeteren zonder nutteloos te dupliceren wat andere componenten al doen.

De echte kans ligt in de tussenzones: moderate lokale inferentie, ondersteunende operaties, wetenschappelijke workloads, gegevensvoorbereiding, kleinere modellen, bedrijf automatisering en toepassingen waarbij dataverplaatsing naar een andere accelerator meer nadeel dan voordeel oplevert. Als ACE deze frictie vermindert, kan het de rol van x86 versterken in een belangrijk deel van het dagelijks werk met AI.

De uitdaging ligt in adoptie: instructie-extensies worden pas marktveranderd als ze in echte processors verschijnen, goed ondersteund worden door besturingssystemen en onzichtbaar worden voor ontwikkelaars via volwassen bibliotheken. AVX10 was al een eerste poging om de vectorfuture van x86 te structureren. ACE voegt de ontbrekende matrixcomponent toe, zodat de architectuur niet langer puur afhankelijk is van externe accelerators in AI-discoursen.

AMD en Intel beseffen dat samenwerking op deze basis niet betekent dat de concurrentie verdwijnt. Ze blijven concurreren in ontwerp, kloksnelheid, energieverbruik, caches, fabricageprocessen, verpakking en platforms. Maar als ACE succesvol is, kunnen ze beide profiteren van iets belangrijks: dat x86 ook in het AI-tijdperk een betrouwbare en ontwikkelvriendelijke architectuur blijft, zelfs in een markt die al niet eenvoudig is.

Veelgestelde vragen

Wat is ACE in x86-processors?
ACE, of AI Compute Extensions, is een voorstel voor een uitbreiding van x86, ontwikkeld door AMD en Intel om matrixvermenigvuldigingen te versnellen die worden gebruikt in AI-belastingen.

Vervangt ACE een GPU of NPU?
Nee. ACE is bedoeld om de matrix-vermogens van de x86-CPU te verbeteren, maar GPU’s, NPUs en gespecialiseerde accelerators blijven belangrijk voor grote trainingsbelasting en inferentie.

Hoe verhoudt ACE zich tot AVX10?
ACE integreert met AVX10 en hergebruikt vectorregistres als input voor matrixbewerkingen. Het doel is om de capaciteit van x86 uit te breiden zonder de bestaande softwaremodellen te doorbreken.

Welke datatypes ondersteunt ACE?
Het technische document noemt native ondersteuning voor INT8, OCP FP8, OCP MXFP8, OCP MXINT8 en BF16, relevante formats voor AI-belastingen en low-precision berekeningen.

via: X Twitter

Scroll naar boven