Snowflake werkt samen met Meta om een nieuwe familie van toonaangevende modellen te huisvesten en te optimaliseren op Snowflake Cortex AI.

Snowflake, het data cloud bedrijf aangedreven door AI, heeft aangekondigd dat het de open source meertalige taalmodellen collectie Llama 3.1 zal integreren in zijn Snowflake Cortex AI platform. Deze toevoeging zal het voor bedrijven mogelijk maken om krachtige AI-applicaties op grote schaal gemakkelijker te maken en te benutten. De release omvat het grootste en meest geavanceerde open source taalmodel van Meta, de Llama 3.1 405B. Snowflake heeft een set van inferentietools ontwikkeld en openbaar gemaakt om real-time prestaties mogelijk te maken en het gebruik van geavanceerde natuurlijke taalverwerkings- en generatieapplicaties te democratiseren. De optimalisatie door Snowflake voor Llama 3.1 405B maakt een contextvenster van 128K vanaf de eerste dag mogelijk, met tot drie keer mindere latentie en 1.4 keer hogere prestaties dan de huidige open source oplossingen. Bovendien kan het model op grote schaal worden afgesteld met een enkele GPU-node, wat zowel de complexiteit als de kosten voor ontwikkelaars en gebruikers binnen Cortex AI vermindert.

Via hun samenwerking met Meta biedt Snowflake klanten een efficiënte en veilige manier om toegang te krijgen, het model af te stellen en de nieuwste Meta-modellen te deployen op hun AI data cloud platform, met een focus op vertrouwen en beveiliging vanaf het begin.

“We maken het voor bedrijven en de open source gemeenschap gemakkelijker om state-of-the-art modellen zoals Llama 3.1 405B te gebruiken voor inferentie en afstemming, en maximaliseren de efficiëntie”, zegt Vivek Raghunathan, Vicepresident van AI Engineering bij Snowflake. “We bieden niet alleen directe toegang tot Meta’s modellen via Snowflake Cortex AI, maar bieden ook nieuw onderzoek en open source code die 128K contextvensters, multi-node inferentie, pijpleiding parallelisme, 8-bit floating point kwantisatie en meer ondersteunen om het AI-ecosysteem vooruit te helpen”.

Het AI-onderzoeksteam van Snowflake blijft bijdragen aan de open source innovaties door bijdragen te leveren aan de AI-gemeenschap en doorzichtigheid over hun LLM technologieën aan te houden. Samen met de uitrol van Llama 3.1 405B, introduceren zij hun set van massale inferentieoplossingen en systeemafstemmings optimalisatie in samenwerking met DeepSpeed, Hugging Face, vLLM en de algemene AI-gemeenschap. Dit vertegenwoordigt een significante vooruitgang in de inferentie en afstemming van modellen met miljarden parameters.

Grote modellen en geheugenvereisten vormen aanzienlijke uitdagingen voor het bereiken van lage latentie-inferentie in real-time applicaties, hoge prestatiemogelijkheden voor kostenefficiëntie en ondersteuning voor lange contexten in bedrijfsgeneratieve AI. De set van massale LLM inferentie- en fijnafstellingsoptimalisatie systemen van Snowflake behandelt deze problemen door gebruik te maken van geavanceerde parallelisme- en geheugenoptimalisatietechnieken, wat efficiënte verwerking mogelijk maakt zonder de noodzaak van kostbare infrastructuur. In het geval van Llama 3.1 405B biedt het Snowflake-platform een hoogwaardige real-time prestatie op een enkele GPU-node en ondersteunt het een contextvenster van 128.000 in multi-node configuraties. Deze flexibiliteit is van toepassing op zowel moderne als oudere hardware, waardoor het toegankelijk is voor een breder scala aan bedrijven. Bovendien kunnen datawetenschappers Llama 3.1 405B afstellen met gemengde precisietechnieken op minder GPU’s, waardoor de noodzaak voor grote GPU-clusters wordt geëlimineerd. Als resultaat kunnen organisaties generatieve zakelijke AI-applicaties op een eenvoudige, efficiënte en veilige manier aanpassen en implementeren.

Snowflake heeft ook een fijnafstelling infrastructuur ontwikkeld die is geoptimaliseerd met technieken zoals modeldestillatie, veiligheidsbarrières, vergrote Recovery Generation (RAG) en de generatie van synthetische data, wat een gemakkelijke instap in deze use cases binnen Cortex AI vergemakkelijkt.

De beveiliging van AI is cruciaal voor Snowflake en zijn klanten. Daarom heeft Snowflake Snowflake Cortex Guard gelanceerd om te beschermen tegen schadelijke inhoud in elke LLM-applicatie of asset gecreëerd in Cortex AI, of het nu gaat om gebruik van Meta-modellen of LLMs van andere belangrijke providers zoals AI21 Labs, Google, Mistral AI, Reka, en Snowflake zelf. Cortex Guard maakt gebruik van Meta’s Llama Guard 2 om te zorgen dat de gebruikte modellen veilig zijn.

Commentaar van klanten en partners van Snowflake over dit nieuws omvat:

  • Dave Lindley, Sr. Director van Data Producten bij E15 Group: “We vertrouwen op generatieve AI om onze Customer Voice platform te analyseren en beter te begrijpen. Toegang tot Meta’s Llama-modellen binnen ஊe Snowflake Cortex AI helpt ons de inzichten te verkrijgen die nodig zijn om onze business te verbeteren.”
  • Ryan Klapper, AI leider bij Hakkoda: “Beveiliging en betrouwbaarheid in generatieve AI zijn essentieel. Snowflake biedt ons de noodzakelijke waarborgen om op een veilige manier gebruik te maken van geavanceerde taalmodellen, waardoor we onze interne applicaties kunnen verbeteren.”
  • Matthew Scullion, CEO en cofounder van Matillion: “Het integreren van Meta’s Llama-modellen in Snowflake Cortex AI biedt onze klanten toegang tot de meest geavanceerde taalmodellen en flexibiliteit om aan hun AI-behoeften te voldoen.”
  • Kevin Niparko, VP van Product Strategie en Technologie bij Twilio Segment: “De mogelijkheid om in Snowflake Cortex AI het juiste model te kiezen stelt onze klanten in staat om intelligente AI-gebaseerde inzichten te genereren en ze toe te passen in hun tools, wat helpt bij het bereiken van optimale resultaten.”
Scroll naar boven