Snowflake Introduce Snowpark Connect voor Apache Spark™
Amsterdam – Snowflake, het toonaangevende platform voor AI Data Cloud, heeft de publieke preview aangekondigd van Snowpark Connect voor Apache Spark™. Deze nieuwe functie stelt Spark-gebruikers in staat om hun code rechtstreeks op de Snowflake-engine uit te voeren. Deze integratie belooft aanzienlijke prestatieverbeteringen, kostenreductie en een merkbare operationele vereenvoudiging voor organisaties die werken met data-intensieve workloads.
Nieuwe Architectuur
Snowpark Connect is gebaseerd op een ontkoppelde client-serverarchitectuur, waardoor het gebruikerscode scheidt van de Spark-cluster die verantwoordelijk is voor de verwerking. Deze innovatieve architectuur, die door de Apache Spark™-gemeenschap is geïntroduceerd in versie 3.4, zorgt ervoor dat Spark-taken direct door de Snowflake-engine worden aangestuurd.
Dankzij deze integratie kunnen gebruikers moderne Spark-code uitvoeren — inclusief Spark DataFrame, Spark SQL en door gebruikers gedefinieerde functies (UDF) — zonder dat ze aparte Spark-omgevingen hoeven te onderhouden of zich zorgen hoeven te maken over afhankelijkheden, versies of updates. Snowflake beheert het hele proces automatisch en zorgt voor dynamische schaalverdeling en prestatie-optimalisatie, waardoor de operationele last voor ontwikkelaars wordt verminderd.
Verbeterde Governance en Kostenbesparing
Het verplaatsen van dataverwerking naar Snowflake stelt bedrijven in staat om een uniforme governance-structuur te creëren vanaf het begin van de gegevensstroom, wat zorgt voor consistentie, veiligheid en compliance gedurende de hele levenscyclus, zonder dubbele inspanningen.
Volgens een intern onderzoek van Snowflake hebben klanten die gebruik maken van Snowpark Client voor het creëren van pipelines in Python, Java of Scala een gemiddelde prestatieverbetering van 5,6 keer bereikt en 41% bespaard op kosten in vergelijking met traditionele beheerde Spark-omgevingen.
Toekomstgericht Ontwerp
Snowpark Connect voor Spark benut de ontkoppelde architectuur van Spark Connect, waarmee applicaties een logisch onopgelost plan naar een externe Spark-cluster kunnen sturen voor verwerking. Deze scheiding tussen client en server is essentieel geweest voor het ontwerp van Snowpark sinds het begin. Momenteel ondersteunt Snowpark Connect versie 3.5.x van Spark, wat ervoor zorgt dat de nieuwste functies en verbeteringen beschikbaar zijn.
Deze innovatie elimineert de noodzaak om gegevens tussen Spark en Snowflake te verplaatsen, wat historisch gezien heeft geleid tot extra kosten, latentie en governance-complexiteit. Organisaties kunnen nu Spark DataFrame-code, SQL en UDF in Snowflake uitvoeren via Snowflake Notebooks, Jupyter-notebooks, opgeslagen procedures van Snowflake, VSCode, Airflow of Snowpark Submit. Dit stelt gebruikers in staat om probleemloos te integreren in verschillende opslagopties binnen Snowflake, Iceberg (in Snowflake of extern beheerd) en cloudopslagopties.
Samenwerking met Open Data Lakehouse
Snowpark Connect voor Spark werkt samen met Apache Iceberg™-tabellen, inclusief extern beheerde Iceberg-tabellen en databases die zijn gekoppeld aan catalogi. Hierdoor kunnen organisaties profiteren van de kracht, prestaties, gebruiksvriendelijkheid en governance van het Snowflake-platform zonder hun gegevens te verplaatsen of hun Spark-code te herschrijven.
Met deze stap bevestigt Snowflake zijn toewijding om efficiënte en geïntegreerde tools te bieden voor ontwikkelaars en datawetenschappers, en zo de voordelen van Spark binnen zijn cloud-ecosysteem te integreren.