数据湖仓一体的好处

2022-12-02 21:12:51 浏览数 (2)

在最近的一篇博客中,Cloudera 首席技术官 Ram Venkatesh 描述了数据湖仓的演变,以及使用开放数据湖仓的好处,尤其是开放的 Cloudera 数据平台 (CDP)。如果你错过了,你可以在这里阅读。

现代数据湖仓通常部署在云中。云计算带来了几个明显的优势,这些优势是 Lakehouse 价值主张的核心。第一个是近乎无限的存储空间。利用基于云的对象存储将分析平台从任何存储限制中解放出来。您的数据可以无限增长。第二个优势是虚拟化计算能力。分析引擎可以根据工作负载的要求按需扩展(或缩减)。最后,云计算为这些服务增加了低成本和高弹性。

这些优势为现代数据湖屋架构模式提供了基础。云计算允许按需配置基础设施和服务,但是您可以通过两种方式部署数据湖仓:

  1. 首先,您可以通过称为平台即服务 (PaaS) 的方式在您的云帐户中构建和配置数据湖仓。
  2. 其次,您可以订阅数据湖仓服务,例如软件即服务 (SaaS)。

本文将深入探讨这两种类型的数据湖仓部署的特征,介绍 Cloudera 新的一体化湖仓产品 CDP One 的优势。

PaaS 数据湖仓

平台即服务 (PaaS) 数据湖仓是在您的云帐户中配置的数据湖仓的虚拟化部署。Cloudera 数据平台 (CDP) 公共云是 PaaS 数据湖仓的一个示例。让我们深入了解这些 PaaS 部署的特征:

硬件(计算和存储):通过 PaaS 部署,数据湖仓将在您的云帐户中进行配置。您的团队将决定构成数据湖仓部署的基础架构的大小和形状。您可以自行决定访问按需计算和存储。

安全性:即使为您配置了 PaaS 数据湖仓,您也可以自行定义和实施云部署的安全性。您负责保护外围、定义网络规则以及建立检测和预防威胁的端点保护。

此外,您还负责云驻留数据的安全性。此数据存在于您的公司网络外围之外,因此设置您自己的 SIEM 以捕获和记录对组件和数据的所有访问是明智的。

云平台安全性提供了广泛的工具和技术,使您的云部署与您的内部部署一样安全,甚至更安全。但是,集成这些组件以符合您的安全控制是您的责任。

运营: PaaS 部署的数据湖仓的运营活动需要由您的运营团队执行。通常,一名或多名云工程师部署数据湖仓,随后为部署提供运营支持。部署后,需要持续监控 Lakehouse 的运行状况,以了解可用性和连接问题。如果出现问题,则由该云运营团队来采取纠正措施。

除了健康监控之外,您的运营团队还将负责执行运营和维护活动。软件升级和安全补丁需要由运维团队进行测试、计划和交付。如果 CPU 或系统内存等系统资源受到限制,该运维团队负责纠正。简而言之,就像本地部署一样,需要一个小型运营人员团队来成功部署和管理这种类型的数据湖仓部署。

成本: PaaS 数据湖仓在您的云帐户中运行。您有责任支付每月的云账单。鉴于此,明智的做法是制定云支出预算、定义云控制以防止支出失控并定期监控云支出。除了预算监控之外,还需要对湖屋的成本绩效进行持续监控。这允许您运行符合您的服务水平协议并符合预算集的工作负载。

PaaS 数据湖仓非常适合想要自己动手 (DIY) 的公司。PaaS 部署使公司能够更好地控制环境的各个方面。您拥有云帐户,可以访问云提供商提供的所有配置和服务。

虽然与本地部署相比,PaaS 数据湖仓提供了敏捷性和更快的分析路径,但它们确实需要持续的运营人员来确保成功交付分析服务。

SaaS 数据湖仓

软件即服务 (SaaS) 数据湖仓部署是作为服务提供的交钥匙解决方案。例如,最近发布的 CDP One数据湖仓一体化是一种在云中运行的 SaaS 产品(亚马逊网络服务)。CDP One 提供自助服务体验,意味着低摩擦和低接触——您的企业和用户应该专注于以分析的形式产生业务价值,而不是专注于 IT、运营和支持。让我们深入研究每个类别并将其与 PaaS 数据湖仓部署进行比较。

硬件(计算和存储):与 PaaS 数据湖仓一样,CDP One 数据湖仓驻留在云中并使用虚拟化计算。SaaS 数据湖的大小和形状会自动为您确定。它可以根据您的使用情况和预算自动增长。云存储也是版本化的,如果您无意中删除了重要数据,SaaS CDP One 运营团队可以快速为您恢复。对于用户来说,这是一种无服务器体验。

安全:CDP One 是一种单租户云架构 SaaS,可实现对 Cloudera 数据平台的私有和安全访问。CDP One 参与行业认证和认证计划,为我们的运营、基础设施和安全控制提供最高水平的保证。Cloudera 与领先的 AICPA 认证的第三方审计师合作,以维护 SOC 2 Type 2 报告和 ISO27001 认证。保护您的数据是 CDP One 产品的一部分。对数据湖仓的访问是安全的,动态和静态数据都经过加密,并受到持续监控。威胁媒介有各种形式,CDP One 安全服务检测并响应异常活动。CDP One 安全框架会定期更新,以检测和阻止最新的安全威胁。

运营:运营、devOps 和 secOps 是 CDP One 产品的一部分。持续监控 CDP One 数据湖仓的可用性。任何基础设施问题都会被自动检测并快速解决。安全问题补丁会定期自动应用于计算节点和容器,停机时间最短。软件升级通常是一项复杂且耗时的活动,每季度会在双方商定的时间自动为您申请。使用 CDP One,您无需配备人员或担心 devOps 和 secOps 活动。这些操作是服务的一部分,也是降低总拥有成本的一项关键功能——您不必雇用或配备操作团队来管理数据湖仓。

成本: CDP One 是基于消费的。您需要为用于驱动分析的计算能力和存储付费。您的数据仓库仪表板可能在工作时间运行,而在其他时间保持未使用状态。CDP One 可以自动将分析引擎的可用性安排到您需要的时间。在幕后,该服务执行广泛的云基准测试,确保您始终获得最佳性价比。

数据湖仓一体的好处

运营可用于生产的数据湖仓可能具有挑战性。挑战包括部署和维护数据平台以及管理云计算成本。此外,您在数据湖仓中的数据必须保持安全,同时您的企业内的授权员工和商业智能工具也可以轻松访问这些数据。

如果您喜欢自己做,并且有人员和时间来配置和管理它,那么 PaaS 数据湖仓部署可能是您的最佳选择。但是,如果您更愿意专注于为您的业务提供支持的分析工作负载,那么可以考虑 Cloudera 最近发布的 CDP One,这是一个基于 Cloudera 的云数据平台(CDP 公共云)的自助数据湖仓,这是一个开放数据湖仓软件套件. CDP One 是一种一体化数据湖仓软件即服务 (SaaS) 产品,可对任何类型的数据进行快速简便的自助分析和探索性数据科学。CDP One 需要零操作,无需专门的操作或云专业知识即可对任何类型的数据进行快速轻松的自助分析。立即免费试用!

原文作者:John Piekos

原文链接:https://blog.cloudera.com/the-benefits-of-an-all-in-one-data-lakehouse/

0 人点赞