在 CDP中使用Iceberg 为数据湖仓增压

2022-12-02 21:03:34 浏览数 (2)

我们很高兴地宣布在 Cloudera 数据平台 (CDP) 中全面推出 Apache Iceberg。Iceberg 是 100% 开放的表格格式,由Apache Software Foundation开发,帮助用户避免供应商锁定。今天的一般可用性公告涵盖了在 Cloudera 数据平台 (CDP) 中的关键数据服务中运行的 Iceberg,包括Cloudera 数据仓库 ( CDW )、Cloudera 数据工程 ( CDE ) 和 Cloudera 机器学习 ( CML ))。这些工具使分析师和数据科学家能够通过他们选择的工具和分析引擎轻松地就相同的数据进行协作。作为 CDP 的一部分,公司无需付出任何努力即可获得 Iceberg 的好处。不再有锁定、不必要的数据转换或跨工具和云的数据移动,只是为了从数据中提取洞察力。

作为第一个提供开放数据湖仓的混合数据平台,CDP 支持对跨多个云和本地的云原生对象存储中的流数据和存储数据进行 PB 级的多功能分析。这使我们的客户可以自由选择他们喜欢的分析工具。凭借 Cloudera 对混合数据的愿景采用开放数据湖仓的企业可以轻松地在本地环境和任何公共云之间获得应用程序互操作性和可移植性,而无需担心数据扩展。借助从一开始就内置在 CDP 中的共享数据体验 (SDX),客户可以从所有数据的通用元数据、安全性和治理模型中受益。

为什么要将 Apache Iceberg 与 Cloudera 数据平台集成?

在 Cloudera,我们对开放性和互操作性的承诺毫不含糊。这推动了我们为 Apache Hive、Apache Spark、Apache Nifi、Apache Impala、Apache YuniKorn 等社区的创新做出了许多重大贡献。2022 年 2 月,我们在 CDP 中引入了 Apache Iceberg作为技术预览。

在过去的十年中,Cloudera 通过引入 Hive 表格式和 Hive ACID 实现了对数据湖的多功能分析。Lakehouse 模式已经发展到云,但是,它仍然由与主要引擎相关联的表格格式驱动,通常是单一供应商。另一方面,公司继续需要数据湖上高度可扩展和灵活的分析引擎和服务,而不受供应商的限制。组织需要能够随着业务的发展而发展的现代数据架构,我们很高兴通过第一个开放数据湖仓为他们提供支持。

Apache Iceberg现在作为 CDP 的一部分包含在内,它为现代数据架构带来了显着的好处,包括:

  • 就地进行表演变,涵盖架构和分区更改,作为单个命令,而不是耗时一周的过程
  • 通过时间点查询进行时间旅行,以实现取证可见性和法规遵从性功能
  • 并发多功能分析可满足从边缘到 AI 的端到端数据生命周期需求
  • 性能:通过积极分区提高性能以处理超大规模数据集

CDP 提供了通往Iceberg的最快、最简单的途径

我们将 Iceberg 直接集成到 CDP 的 SDX 层中,因此客户可以轻松使用 Iceberg 并立即获得开放表格格式的所有生产力和性能优势。客户在单个命令中使用仅元数据迁移,而无需触及任何底层大型数据集。这是采用的巨大加速器。

为您的数据湖仓增压,使其开放

数据湖仓对于 Cloudera 或我们的客户来说并不陌生。例如, IQVIA使用 Cloudera 将来自全球 250 个数据仓库(包括 Oracle、IBM Netezza 和 Teradata 系统)的超过 2 PB 数据汇集到一个全球多租户数据湖中,并在该数据湖上运行分析。IQVIA 使用 Hive 开放表格式和 Cloudera 的预集成多功能分析平台已有五年多的时间。但目前的数据湖屋架构模式还不够。我们看到公司需要一个跨越整个数据生命周期的平台,该平台可以提供多个高级分析用例,其中包含完整的动态数据和运营数据库产品。这是开放数据湖仓,只有 Cloudera 可以在混合数据平台中提供。

借助 CDP 中的 Apache Iceberg,Cloudera 凭借开放的数据和社区生态系统以及企业强化和性能领先于数据湖仓。我们的技术预览客户分享了以下反馈:

  • Teranet:“在评估了所有主要的开源存储框架来构建我们的 Lakehouse 之后,我们选择了 Apache Iceberg,因为它100% 开放、功能丰富并且具有强大的社区参与度。现在有了 Iceberg,CDP 支持开放的数据湖仓架构,该架构为我们的所有分析工作负载提供面向未来的数据平台。我们选择变更数据捕获作为我们在 Iceberg 上的第一个用例。通过频繁更新我们的数据湖,我们的目标是加速报告和商业智能,让我们的业务团队能够访问当前的洞察力。分区演化对我们来说也是一项关键能力,为大规模数据工程和 BI 工作负载提供卓越的查询性能,”Teranet 的系统架构师 Steve Brackenbury 说。
  • Modak Nabu:“Modak 与 Cloudera 的合作使我们能够帮助我们的客户部署一个统一所有数据的 Lakehouse 架构,同时为任何分析用例(人工智能、机器学习、SQL、商业智能报告、仪表板和更多的。通过使用 Cloudera 的 CDP Iceberg 表格格式对 Modak Nabu 进行认证,企业客户可以加速任何数据的 PB 级数据摄取、管理和消费,从而简化数据管理和更快的数据访问,”Daniel Mantovani 说,创新主管莫达克分析。

客户通过 CDP 充分利用了分区演化功能,并通过在其数据上使用更细粒度的分区,实现了 10 倍以上的查询性能优势。他们可以做到这一点,而无需重新生成或修改任何基础数据。

我们对 Apache Iceberg 的集成增强了 CDP 超越数据湖仓的能力。我们可以在任何地方处理任何数据,包括混合云和多云。我们在您的数据诞生、登陆和使用的地方工作。

原文作者:Bill Zhang, Shaun Ahmadian, and Cloudera Contributors

原文链接:https://blog.cloudera.com/supercharge-your-data-lakehouse-with-apache-iceberg-in-cloudera-data-platform/

0 人点赞