Cloudera Introduce Innovaties in Open Lakehouse met Iceberg
New York, 25 oktober 2023 – Tijdens het grensverleggende evenement EVOLVE25 NYC heeft Cloudera twee nieuwe producten aangekondigd die hun inzet voor een open lakehouse op basis van Apache Iceberg verder versterken. De integratie van de Cloudera Iceberg REST Catalog in het gehele platform bevordert het delen van gegevens zonder duplicatie en biedt een verenigd metadata-systeem. Aan de andere kant introduceert Cloudera de Lakehouse Optimizer, een innovatieve dienst voor automatische optimalisatie en slim onderhoud van Iceberg-tabellen, die volgens interne tests queries tot 13 keer versnelt en opslagkosten met 36% vermindert. Beide producten zijn vanaf vandaag beschikbaar, met een on-premises versie van de Optimizer in een toekomstige lancering.
Waarom dit Belangrijk is: AI “In Elke Cloud” zonder Gegevens te Verplaatsen
In de praktijk leiden datamigraties voor training, inferentie of analyse tot hogere kosten en vertraagde besluitvorming. De geïntegreerde Iceberg REST Catalog van Cloudera speelt in op deze uitdaging door tabellen en metadata via REST beschikbaar te stellen, met unifiëerde beleidsregels en uitgebreid lineage/auditing voor geautoriseerde gebruikers. Hierdoor wordt zero-copy interoperabiliteit bereikt met derde partijen zoals Snowflake, Databricks en AWS, terwijl ACID-eisen en toegangsbeleid consistent blijven.
Tegelijkertijd vermindert de Lakehouse Optimizer de “verborgen wrijving” van Iceberg-tabellen door slimme herschrijving van manifests en position deletes, compaction, clustering, proactief onderhoud en declaratieve beleidsregels per tabel of catalogus. Wat voorheen ad-hoc jobs, onderhoudsvensters en operationele last betekende, wordt nu beloofd als automatisering met bedrijfsniveau observability.
Cloudera Iceberg REST Catalog: Open Interoperabiliteit en Uniek Beheer
Cloudera positioneert zich als de eerste leverancier die de Iceberg REST Catalog integreert in een volledige data- en AI-platform. Sleutelfuncties zijn onder andere:
- Zero-copy data sharing: Derden kunnen direct toegang krijgen tot gegevens zonder deze te kopiëren of verplaatsen, of ze nu in de cloud, datacenters of aan de edge worden beheerd.
- Verenigd beheer en veiligheid: Met SDX worden toegangsregels en auditing uitgelegd naar externe tools.
- Open metadata: Directe ontdekking van activa zonder lock-in met eigen catalogi.
- Minder TCO: Klanten rapporteren tot 79% lagere opslaan-kosten en verbeterde zichtbaarheid tussen verschillende bedrijfsafdelingen.
Door toegang te standaardiseren via REST en Iceberg wil Cloudera dat bedrijven sprake krijgen zonder opgesloten te zitten in gesloten catalogi, terwijl ze controle, zichtbaarheid en compliance behouden.
Lakehouse Optimizer: Hands-free Onderhoud voor Iceberg en Elke Motor
De Optimizer komt als een intelligente service, open voor elke compatibele engine met Iceberg en biedt een interface voor gedetailleerde beleidsregels:
- Geavanceerde optimalisatie: Herschrijft manifests en position delete-files, beheert compactie en layout voor betere prestaties met lagere kosten.
- Declaratieve beleidsregels: Toepasbaar per tabel of catalogus; de motor voert uit en monitort.
- Observability: Metrics, dashboards en tracering van wat, wanneer en hoeveel geoptimaliseerd wordt.
Cloudera benadrukt dat het de enige service van deze soort biedt die ook on-premises beschikbaar zal zijn in een toekomstige versie, wat een onderscheidend element is voor gereguleerde sectoren met specifieke soevereiniteitseisen.
“Een Echte Open Lakehouse”: Positie en Belofte
Cloudera’s narratief, dat ooit het pad naar “Big Data” heeft uitgezet, draait om Apache Iceberg als de standaard voor open lakehouses. De REST Catalog biedt interoperabiliteit en gedeelde metadata, terwijl SDX veiligheid en governance toepast op alle gegevens. De Optimizer automatiseert de hygiëne en efficiëntie zonder afhankelijkheid van de raadplegende motor.
Leo Brunnick, Chief Product Officer van Cloudera, geeft aan dat de onderneming blijft investeren om Iceberg “enterprise-ready” te maken, met een focus op flexibiliteit, schaalbaarheid en ononderbroken inzichten “wanneer en waar ze nodig zijn”. De ambitie is om de “enige platform te zijn die AI naar gegevens brengt in alle cloud-omgevingen en op de edge, met een verenigd governance en multi-engine analytics zonder kopieën of lock-in”.
Impact voor Data Teams en CFO’s
De voordelen van de Iceberg REST Catalog en Lakehouse Optimizer zijn er niet alleen voor data teams, maar ook voor CFO’s:
- Minder ETL voor delen: De REST Catalog voorkomt kopieën, waardoor minder werk en lagere latentie ontstaat.
- Consistent bestuur: Beleid, lineage en auditing worden geërfd, waardoor het risico van “shadow zones” afneemt en compliance eenvoudiger wordt.
- Kosten: De beloften van tot 79% besparing in opslag en 36% door de Optimizer zijn sterke argumenten voor kostenbeheersing.
- Multi-engine interoperabiliteit: Teams kunnen verschillende engines gebruik zonder opgesloten te raken, wat politieke wrijving vermindert en ROI verhoogt.
Marktinterpretatie: Iceberg als Lingua Franca
De inspanning van Cloudera valt samen met de opkomst van Iceberg als een open formaat dat ACID-tabellen mogelijk maakt op objectopslag. Differentiatie zal vooral gebaseerd zijn op hoe governance, delen, onderhoud en uitvoering plaatsvinden.
Beschikbaarheid en Volgende Stappen
Cloudera bevestigt dat Data Sharing met de Iceberg REST Catalog en de Lakehouse Optimizer vanaf vandaag beschikbaar zijn. De on-premises versie van de Optimizer zal in een toekomstige aflevering verschijnen. Voor meer commerciële en technische informatie kunt u terecht op Cloudera.com.
Veelgestelde Vragen
Wat is het “Iceberg REST Catalog” precies?
Het is een REST-implementatie van de Iceberg Catalog die tabellen en metadata op een open en gestandaardiseerde manier blootlegt.
Hoe verbetert de Lakehouse Optimizer de prestaties?
Het past geavanceerde optimalisatie toe door inefficienties te verminderen, waardoor queries sneller en goedkoper worden.
Kunnen deze capaciteiten overal worden gebruikt?
Ja, de REST Catalog en zero-copy interoperabiliteit zijn beschikbaar in publieke clouds, datacentra en aan de edge.
Hoe wordt de besparing op opslag gerealiseerd?
Cloudera wijst op het elimineren van redundante kopieën en het unifiseren van toegang, wat leidt tot een optimalisatie van de totale opslaghuishouding.
In een tijdperk waarin data centraal staat voor bedrijfsstrategieën, bewijzen Cloudera’s laatste innovaties de kracht van open systemen en de voordelen van een naadloze gegevensarchitectuur.
