Is de chiparchitectuur van FuriosaAI echt innovatief of slechts een verbeterde systolische matrix?

Titel: FuriosaAI Introduceert Revolutionaire Tensor Contraction Processing voor Efficiënte AI-Hardware

Met de toenemende complexiteit van kunstmatige intelligentie (AI)-werkbelasting, zijn bedrijven dringend op zoek naar efficiëntere en schaalbare hardware-architecturen om diepe leermodellen uit te voeren. FuriosaAI, een veelbelovende speler in de chipontwikkeling voor AI, heeft de Tensor Contraction Processing (TCP) geïntroduceerd als een alternatief voor de traditionele systolische matrices.

Maar is TCP werkelijk een revolutionaire innovatie of slechts een evolutie van bestaande architecturen? Ingenieurs van FuriosaAI, Younggeun Choi en Junyoung Park, hebben onlangs de verschillen tussen TCP en systolische matrices besproken op belangrijke evenementen zoals de Hot Chips Conference, de AI Hardware Summit en de PyTorch Conference. In dit artikel verkennen we hun uitleg en hoe TCP de versnelling van AI zou kunnen herdefiniëren.

Wat is een systolische matrix en welke beperkingen kent het?

Een systolische matrix is een rooster van verwerkings-elementen (PE’s) die gegevens in een gestructureerde en gesynchroniseerde volgorde verplaatst, vergelijkbaar met de hartslag (vandaar de naam "systolisch"). Het wordt veel gebruikt voor matrixvermenigvuldiging, een cruciale operatie in diep leren, en vormt de basis voor veel AI-versnellers.

Bij optimaal gebruik biedt een systolische matrix hoge rekenefficiëntie en laag energieverbruik, omdat de gegevens voorspelbaar stromen en alle verwerkings-elementen voortdurend bezet zijn. Echter, de rigide structuur komt met verschillende beperkingen:

  • Vaste grootte: Als de werkbelasting niet exact overeenkomt met de afmetingen van de matrix, worden middelen verspild en daalt de benuttings efficiëntie.
  • Voorgedefinieerd gegevensstromingspatroon: Dit beperkt de aanpasbaarheid bij het verwerken van tensors van verschillende vormen – een veelvoorkomend probleem bij AI-inferentietaken.
  • Risico van inefficiëntie: Als de matrix te groot is, worden rekencycli verspild op kleine matrices; als deze te klein is, wordt de verwachte efficiëntie bij grote werkbelastingen niet gehaald.

Hierbij probeert de TCP-architectuur van FuriosaAI de situatie te verbeteren.

Wat maakt TCP anders?

Hoewel TCP en systolische matrices het doel hebben om berekeningen te paralleliseren, introduceert FuriosaAI sleutelinnovaties op het gebied van flexibiliteit en efficiëntie:

  1. Dynamische configuratie van rekeneenheden: In tegenstelling tot de vaste structuur van een systolische matrix, bestaat TCP uit kleinere eenheden ("slices") die dynamisch kunnen worden geconfigureerd op basis van de grootte van de tensor. Dit stelt TCP in staat om hogere benutting te behouden, zelfs wanneer de werkbelastingen variëren.

  2. Grotere flexibiliteit in gegevensverplaatsing: In een systolische matrix worden gegevens in een enkele voorgedefinieerde richting verplaatst, wat kan leiden tot verspilde rekencycli. TCP introduceert een fetch-netwerk dat gegevens tegelijkertijd naar meerdere verwerkingseenheden distribueert, wat de hergebruik van gegevens vergroot.

  3. Natuurlijke tensorbewerkingen: Traditionele NPUs (neurale verwerkings eenheden) zijn geoptimaliseerd voor matrixvermenigvuldiging, waardoor software gedwongen wordt tensorbewerkingen om te zetten naar 2D-matrices. TCP verwerkt tensors direct, waardoor de noodzaak voor conversie wordt geëlimineerd en efficiëntieverlies wordt voorkomen.

  4. Hogere energie-efficiëntie: Gegevensaccess is de grootste energieconsument in AI: het verplaatsen van gegevens tussen externe geheugens (DRAM) en verwerkings eenheden op de chip kan tot 10.000 keer meer energie verbruiken dan de berekening zelf. TCP maximaliseert hergebruik van gegevens binnen interne buffers, waardoor dure externe geheugentoegang aanzienlijk wordt verminderd.

Hoe gaat TCP om met dynamische AI-werkbelastingen beter dan GPUs?

Een van de grootste uitdagingen bij AI-inferentie is het omgaan met variabele batchgroottes en tensor-vormen. Traditionele systolische matrices worstelen hiermee omdat zij:

  • Een statische werkbelastingstructuur vereisen, wat de efficiëntie vermindert wanneer de batchgroottes veranderen.
  • Alleen efficiënt zijn als de werkbelasting de matrix volledig vult, wat zelden voorkomt bij daadwerkelijke inferentie.

TCP overkomt deze beperkingen door de dynamische herconfiguratie van zijn rekeneenheden op basis van de vorm van de tensor.

Hoe verbetert TCP de AI-inferentie vergeleken met GPUs?

GPU’s domineren momenteel de AI-versnelling, maar vertonen inefficiënties in vergelijking met specifiek ontworpen chips zoals TCP:

  1. Energieverbruik: Hight performance GPU’s zoals de Nvidia H100 verbruiken tot 1.200W, terwijl de RNGD-chip van FuriosaAI slechts 150W verbruikt, wat leidt tot een vermindering van 8 keer het energieverbruik.

  2. Efficiënte gegevensverwerking: GPU’s verwerken tensors als 2D-matrices, wat overhead en verminderd parallelisme met zich meebrengt. TCP behoudt tensorstructuren, waardoor inefficiënte transformaties worden geëlimineerd.

  3. Modellen implementatie en aanpassing: Het optimaliseren van AI-modellen voor GPU’s vereist uitgebreide kernel-engineering om efficiëntieverlies door tensorconversie te verhelpen. TCP verwijdert deze complexiteit door tensors direct te verwerken, wat het implementeren en afstemmen van AI-modellen vergemakkelijkt.

De toekomst van AI-versnelling: Waar past TCP?

De sector voor AI-hardware evolueert snel, met een toename van op maat gemaakte chipontwerpen om de afhankelijkheid van Nvidia te verminderen en de efficiëntie te verbeteren. TCP weerspiegelt belangrijke industrie trends:

  • De neergang van general-purpose AI-chips: Terwijl GPUs de AI-revolutie hebben ingeluid, zoeken bedrijven nu naar gespecialiseerde chips voor optimale efficiëntie in specifieke werkbelastingen.
  • De opkomst van op maat gemaakt silicium voor AI: Giganten zoals Google, Meta en Amazon ontwikkelen hun eigen AI-versnellers om kosten te verlagen en prestaties te verbeteren.
  • De stap voorwaarts vanuit systolische matrices: Systolische matrices hebben de versnelling van AI gedomineerd, maar hun structurele beperkingen zijn niet langer levensvatbaar voor moderne modellen. TCP vertegenwoordigt de volgende evolutie door zowel prestatie als energiemanagement te optimaliseren.

Conclusie: Is TCP de toekomst van AI-hardware?

De TCP-architectuur van FuriosaAI vertegenwoordigt een significante vooruitgang in de versnelling van AI door de beperkingen van systolische matrices en GPU’s te overstijgen. Met bedrijven zoals Meta die acquisities in dit veld onderzoeken, zou TCP een cruciale rol kunnen spelen in de volgende generatie AI-hardware. Het zal GPU’s niet volledig vervangen, maar zijn efficiëntie en aanpasbaarheid positioneren het als een belangrijke speler in de moderne AI-versnelling.

Bron: FuriosaAI

Scroll naar boven