介绍
dbt允许数据团队使用 SQL 生成可信数据集,用于报告、ML 建模和操作工作流,其简单的工作流遵循模块化、可移植性和持续集成/持续开发 (CI/CD) 等软件工程最佳实践。我们很高兴地宣布针对 CDP 中的所有引擎(Apache Hive、Apache Impala和 Apache Spark)的 dbt 开源适配器普遍可用,并增加了对Apache Livy和Cloudera Data Engineering的支持。使用这些适配器,Cloudera 客户可以使用 dbt 在 CDP 公共云、CDP One 和 CDP 私有云上协作、测试、部署和记录他们的数据转换和分析管道。
Cloudera 的使命、价值观和文化长期以来一直围绕在开放数据和表格格式上使用开源引擎来帮助客户构建灵活和开放的数据湖。最近,随着Cloudera 数据平台 (CDP) 中 Apache Iceberg的普遍可用性,我们成为第一个也是唯一一个支持同一数据上的多个引擎的开放数据湖库。
为了便于在 Cloudera 数据平台 (CDP) 上开始使用 dbt,我们将我们的开源适配器和 dbt Core 打包在一个经过全面测试和认证的可下载包中。我们还简化了 dbt 与 CDP 的治理、安全和 SDX 功能的无缝集成。通过此公告,我们欢迎我们的客户数据团队在其开放数据湖库中使用任何引擎在任何形式的任何格式的数据之上简化数据转换管道,并提供其业务可以信任的高质量数据。
开放数据湖仓
在具有多个团队和业务部门的组织中,根据不同用户的偏好和要求,存在各种带有工具和查询引擎的数据堆栈。当不同的用例需要对相同的数据使用不同的查询引擎时,需要设置和维护复杂的数据复制机制,以使数据始终可用于不同的团队。
开放式 Lakehouse 的一个关键方面是让数据团队可以自由地对同一数据使用多个引擎,从而无需为不同的用例复制数据。但是,不同的团队和业务部门有不同的流程来构建和管理他们的数据转换和分析管道。这种多样性可能导致缺乏标准化,从而导致数据重复和不一致。这就是为什么对跨数据团队、业务功能和引擎的数据转换管道具有一致的软件开发生命周期 (SDLC) 体验的中央、透明、版本控制存储库的需求日益增长。简化 SDLC 已被证明可以加快数据项目的交付并提高透明度和可审计性,从而建立一个更受信任的数据驱动型组织。
Cloudera 为开放数据湖仓中的所有引擎构建 dbt 适配器
dbt 为数据转换管道提供了这种一致的 SDLC 体验,并因此在大大小小的公司中得到广泛采用。任何了解 SQL 的人现在都可以轻松构建生产级管道。
图 1. 用于数据仓库转换管道的 dbt(图片来源:https://github.com/dbt-labs/dbt-core)
迄今为止,dbt 仅在专有的云数据仓库上可用,不同引擎之间的互操作性很少。例如,在一个引擎中执行的转换在其他引擎中是不可见的,因为没有公共存储或元数据存储。
Cloudera 为开放数据湖库中的所有引擎构建了 dbt 适配器。公司现在可以使用 dbt-core 将他们跨不同引擎的所有转换管道整合到一个版本控制的存储库中,并在团队之间使用一致的 SDLC。Cloudera 还可以使用 Cloudera 机器学习和 Cloudera Data Science Workbench 轻松地将 dbt 部署为在 CDP 中运行的打包应用程序。此功能使客户无论在本地还是在云中使用 CDP,都可以获得一致的体验。此外,鉴于 dbt 只是向 CDP 中的底层引擎提交查询,客户可以获得 SDX 提供的完整治理功能,如自动沿袭捕获、审计和影响分析。
Cloudera 的开放数据湖库和 dbt 的结合增强了数据团队使用任何引擎和任何形式因素协作构建、测试、记录和部署数据转换管道的能力。CDP 中的打包产品以及与 SDX 的集成提供了 Cloudera 客户所依赖的关键安全和治理保证。
图 2. CDP Open Lakehouse 上的 dbt 端到端 SDLC
如何在 CDP 中开始使用 dbt
Cloudera 的创新加速器为您带来 dbt 与 CDP 的集成,这是一个跨职能团队,可识别新的行业趋势并创建新产品和合作伙伴关系,从而显着改善我们 Cloudera 客户的数据从业者的生活。
要了解更多信息,请点击以下链接选择如何开始。
- 带有 dbt 和所有 Cloudera 支持的适配器的最新 Python 包和 docker 映像的存储库
- 在 CDP 中将 dbt 作为打包应用程序运行的手册
- 通过 Cloudera 机器学习实现 CDP 公共云
- 通过 Cloudera Data Science Workbench 实现 CDP 私有云
- Cloudera 支持的开源适配器的入门指南
- dbt-Impala
- dbt-hive
- dbt-spark-livy
- dbt-spark-cde
要了解更多信息,请通过 Innovation-feedback@cloudera.com 联系我们。
原文作者:Raghotham Murthy
原文链接:https://blog.cloudera.com/clouderas-open-data-lakehouse-supercharged-with-dbt-core/