Is de chiparchitectuur van FuriosaAI echt innovatief of slechts een verbeterde systolische matrix? - Cloud News

X (Twitter) Facebook LinkedIn Email WhatsApp

Titel: FuriosaAI Introduceert Revolutionaire Tensor Contraction Processing voor EfficiÃ«nte AI-Hardware

Met de toenemende complexiteit van kunstmatige intelligentie (AI)-werkbelasting, zijn bedrijven dringend op zoek naar efficiÃ«ntere en schaalbare hardware-architecturen om diepe leermodellen uit te voeren. FuriosaAI, een veelbelovende speler in de chipontwikkeling voor AI, heeft de Tensor Contraction Processing (TCP) geÃ¯ntroduceerd als een alternatief voor de traditionele systolische matrices.

Maar is TCP werkelijk een revolutionaire innovatie of slechts een evolutie van bestaande architecturen? Ingenieurs van FuriosaAI, Younggeun Choi en Junyoung Park, hebben onlangs de verschillen tussen TCP en systolische matrices besproken op belangrijke evenementen zoals de Hot Chips Conference, de AI Hardware Summit en de PyTorch Conference. In dit artikel verkennen we hun uitleg en hoe TCP de versnelling van AI zou kunnen herdefiniÃ«ren.

Wat is een systolische matrix en welke beperkingen kent het?

Een systolische matrix is een rooster van verwerkings-elementen (PE’s) die gegevens in een gestructureerde en gesynchroniseerde volgorde verplaatst, vergelijkbaar met de hartslag (vandaar de naam "systolisch"). Het wordt veel gebruikt voor matrixvermenigvuldiging, een cruciale operatie in diep leren, en vormt de basis voor veel AI-versnellers.

Bij optimaal gebruik biedt een systolische matrix hoge rekenefficiÃ«ntie en laag energieverbruik, omdat de gegevens voorspelbaar stromen en alle verwerkings-elementen voortdurend bezet zijn. Echter, de rigide structuur komt met verschillende beperkingen:

Vaste grootte: Als de werkbelasting niet exact overeenkomt met de afmetingen van de matrix, worden middelen verspild en daalt de benuttings efficiÃ«ntie.
Voorgedefinieerd gegevensstromingspatroon: Dit beperkt de aanpasbaarheid bij het verwerken van tensors van verschillende vormen â€“ een veelvoorkomend probleem bij AI-inferentietaken.
Risico van inefficiÃ«ntie: Als de matrix te groot is, worden rekencycli verspild op kleine matrices; als deze te klein is, wordt de verwachte efficiÃ«ntie bij grote werkbelastingen niet gehaald.

Hierbij probeert de TCP-architectuur van FuriosaAI de situatie te verbeteren.

Wat maakt TCP anders?

Hoewel TCP en systolische matrices het doel hebben om berekeningen te paralleliseren, introduceert FuriosaAI sleutelinnovaties op het gebied van flexibiliteit en efficiÃ«ntie:

Dynamische configuratie van rekeneenheden: In tegenstelling tot de vaste structuur van een systolische matrix, bestaat TCP uit kleinere eenheden ("slices") die dynamisch kunnen worden geconfigureerd op basis van de grootte van de tensor. Dit stelt TCP in staat om hogere benutting te behouden, zelfs wanneer de werkbelastingen variÃ«ren.
Grotere flexibiliteit in gegevensverplaatsing: In een systolische matrix worden gegevens in een enkele voorgedefinieerde richting verplaatst, wat kan leiden tot verspilde rekencycli. TCP introduceert een fetch-netwerk dat gegevens tegelijkertijd naar meerdere verwerkingseenheden distribueert, wat de hergebruik van gegevens vergroot.
Natuurlijke tensorbewerkingen: Traditionele NPUs (neurale verwerkings eenheden) zijn geoptimaliseerd voor matrixvermenigvuldiging, waardoor software gedwongen wordt tensorbewerkingen om te zetten naar 2D-matrices. TCP verwerkt tensors direct, waardoor de noodzaak voor conversie wordt geÃ«limineerd en efficiÃ«ntieverlies wordt voorkomen.
Hogere energie-efficiÃ«ntie: Gegevensaccess is de grootste energieconsument in AI: het verplaatsen van gegevens tussen externe geheugens (DRAM) en verwerkings eenheden op de chip kan tot 10.000 keer meer energie verbruiken dan de berekening zelf. TCP maximaliseert hergebruik van gegevens binnen interne buffers, waardoor dure externe geheugentoegang aanzienlijk wordt verminderd.

Hoe gaat TCP om met dynamische AI-werkbelastingen beter dan GPUs?

Een van de grootste uitdagingen bij AI-inferentie is het omgaan met variabele batchgroottes en tensor-vormen. Traditionele systolische matrices worstelen hiermee omdat zij:

Een statische werkbelastingstructuur vereisen, wat de efficiÃ«ntie vermindert wanneer de batchgroottes veranderen.
Alleen efficiÃ«nt zijn als de werkbelasting de matrix volledig vult, wat zelden voorkomt bij daadwerkelijke inferentie.

TCP overkomt deze beperkingen door de dynamische herconfiguratie van zijn rekeneenheden op basis van de vorm van de tensor.

Hoe verbetert TCP de AI-inferentie vergeleken met GPUs?

GPU’s domineren momenteel de AI-versnelling, maar vertonen inefficiÃ«nties in vergelijking met specifiek ontworpen chips zoals TCP:

Energieverbruik: Hight performance GPU’s zoals de Nvidia H100 verbruiken tot 1.200W, terwijl de RNGD-chip van FuriosaAI slechts 150W verbruikt, wat leidt tot een vermindering van 8 keer het energieverbruik.
EfficiÃ«nte gegevensverwerking: GPU’s verwerken tensors als 2D-matrices, wat overhead en verminderd parallelisme met zich meebrengt. TCP behoudt tensorstructuren, waardoor inefficiÃ«nte transformaties worden geÃ«limineerd.
Modellen implementatie en aanpassing: Het optimaliseren van AI-modellen voor GPU’s vereist uitgebreide kernel-engineering om efficiÃ«ntieverlies door tensorconversie te verhelpen. TCP verwijdert deze complexiteit door tensors direct te verwerken, wat het implementeren en afstemmen van AI-modellen vergemakkelijkt.

De toekomst van AI-versnelling: Waar past TCP?

De sector voor AI-hardware evolueert snel, met een toename van op maat gemaakte chipontwerpen om de afhankelijkheid van Nvidia te verminderen en de efficiÃ«ntie te verbeteren. TCP weerspiegelt belangrijke industrie trends:

De neergang van general-purpose AI-chips: Terwijl GPUs de AI-revolutie hebben ingeluid, zoeken bedrijven nu naar gespecialiseerde chips voor optimale efficiÃ«ntie in specifieke werkbelastingen.
De opkomst van op maat gemaakt silicium voor AI: Giganten zoals Google, Meta en Amazon ontwikkelen hun eigen AI-versnellers om kosten te verlagen en prestaties te verbeteren.
De stap voorwaarts vanuit systolische matrices: Systolische matrices hebben de versnelling van AI gedomineerd, maar hun structurele beperkingen zijn niet langer levensvatbaar voor moderne modellen. TCP vertegenwoordigt de volgende evolutie door zowel prestatie als energiemanagement te optimaliseren.

Conclusie: Is TCP de toekomst van AI-hardware?

De TCP-architectuur van FuriosaAI vertegenwoordigt een significante vooruitgang in de versnelling van AI door de beperkingen van systolische matrices en GPU’s te overstijgen. Met bedrijven zoals Meta die acquisities in dit veld onderzoeken, zou TCP een cruciale rol kunnen spelen in de volgende generatie AI-hardware. Het zal GPU’s niet volledig vervangen, maar zijn efficiÃ«ntie en aanpasbaarheid positioneren het als een belangrijke speler in de moderne AI-versnelling.

Bron: FuriosaAI

X (Twitter) Facebook LinkedIn Email WhatsApp