Qualcomm Introduce AI200 en AI250: Rack-scale Accelerators voor Generatieve Inferentie met Meer Geheugen, Lagere TCO en Verbeterde Bandbreedte

Qualcomm Lanceert AI200 en AI250: Innovatieve Oplossingen voor AI Inferentie in Datacenters

Qualcomm heeft een krachtige stap gezet in de race om AI-inferentie binnen datacenters te verbeteren. Het bedrijf heeft de AI200 en AI250 aangekondigd, twee oplossingen die als kaarten en volledige rekken worden aangeboden. Deze oplossingen beloven rack-schaal prestaties, een grotere geheugencapaciteit en een toonaangevend totale eigendomskosten (TCO) voor het efficiënt implementeren van generatieve modellen (LLM en LMM) zonder in te boeten op veiligheid of flexibiliteit.

“Met AI200 en AI250 herdefiniëren we wat mogelijk is op het gebied van AI-inferentie op rack-schaal. Deze oplossingen maken het mogelijk om generatieve AI uit te rollen met een ongekende TCO, terwijl ze de flexibiliteit en veiligheid bieden die moderne datacenters vereisen,” aldus Durga Malladi, SVP & GM van Technology Planning, Edge Solutions & Data Center bij Qualcomm Technologies.

Een Stap Vooruit in AI-inferentie

De AI200 en AI250 komen beschikbaar in een gefaseerd tijdschema: AI200 wordt verwacht in 2026 en AI250 in 2027, als onderdeel van een meerjarige roadmap die jaarlijks de focus legt op inferentieprestaties, energie-efficiëntie en TCO.

AI200: Geheugen en Prestaties

De Qualcomm AI200 wordt gepresenteerd als een oplossing voor inferentie op rack-niveau met een lage TCO en hoge prestaties per dollar per watt. Een opvallende specificatie is tot 768 GB LPDDR per kaart, wat de geheugencapaciteit verdrievoudigt of verviervoudigt ten opzichte van veel huidige accelerators. Dit ontwerp is gericht op het verwerken van lange contexten en grotere batches zonder prestatiedalingen door een gebrek aan capaciteit.

  • Geheugen: 768 GB LPDDR per kaart
  • Doel: Inferentie van LLM en multimodale modellen (LMM)
  • Schaalbaarheid: Zowel kaarten als volledige rekken
  • Koeling: Directe vloeistofkoeling
  • Beveiliging: Confidential computing

Deze combinatie van een hoge geheugencapaciteit en PCIe focust op het verlagen van latentie en energieverbruik, een cruciaal aspect voor de prestaties van AI-inferentie.

AI250: Near-Memory Architectuur

De Qualcomm AI250 introduceert een disruptieve near-memory computing architectuur met als doel een generatiewisseling in efficiëntie en prestaties. Het doel is om meer dan 10× effectievere bandbreedte en een lager energieverbruik te bieden.

  • Near-memory computing: Vergroot de effectieve bandbreedte (>10×)
  • Energie-efficiëntie: Minder stroom per verwerkte token
  • Flexibele componentenseparatie: Verbeterde hardwarebenutting

AI250 richt zich op de snelheid van datatoegang en verwerking, wat essentieel is voor het optimaliseren van de prestaties van grote modellen.

Uiteindelijk Geschikt voor Productie

Beide oplossingen worden ook aangeboden als volledige rekken, klaar voor verschillende schalingstoepassingen:

  • Directe vloeistofkoeling voor hogere dichtheden
  • PCIe en Ethernet voor verschillende schaalstrategieën
  • Beveiliging door geëncrypteerde en geïsoleerde workloads

De onderlinge verbinding van deze componenten biedt modulaire oplossingen, zodat bedrijven flexibel kunnen schalen op basis van hun unieke behoeften.

Software-Stack en Uitrol

Qualcomm ondersteunt deze hardware met een uitgebreide software-stack, geoptimaliseerd voor inferentie en compatibel met de belangrijkste machine learning frameworks.

  • Frameworks en runtimes: Ondersteuning voor generatieve frameworks
  • Model onboarding: Eenvoudige integratie van modellen via de Qualcomm AI Inference Suite
  • Tooling: Opslag, observatie en schaling van modellen

Deze integratie stelt bedrijven in staat om bestaande modellen effectief te benutten zonder grote aanpassingen aan hun infrastructuur.

Waarom Dit Belangrijk Is

  1. Geheugen en Bandbreedte: De AI200 en AI250 pakken de twee grootste knelpunten aan die generatieve inferentie vertragen.
  2. TCO per Token: Focus op kosten per aanvraag in plaats van ruwe prestaties.
  3. Operationele Flexibiliteit: De combinatie van schaalstrategieën laat bedrijven verschillende resources toewijzen.
  4. Adoptieroute: De compatibiliteit met bestaande frameworks verlaagde de kosten van verandering.

Beschikbaarheid en Toekomstige Ontwikkelingen

  • AI200: Verwacht in 2026
  • AI250: Verwacht in 2027
  • Roadmap: Jaarlijkse releases met focus op prestatieverbeteringen

De timing van deze aankondigingen komt overeen met de marktverwachtingen voor schaalbare AI-oplossingen, waardoor bedrijven zich kunnen voorbereiden op de volgende fase van AI-integratie.

Conclusie

Qualcomm’s AI200 en AI250 presenteren significante vooruitgangen in de mogelijkheden van AI-inferentie, gericht op efficiëntie en schaalbaarheid. Terwijl bedrijven zich voorbereiden op meer geavanceerde AI-toepassingen, bieden deze oplossingen de nodige steun om aan de groeiende eisen van de digitale wereld te voldoen.

Scroll naar boven