向中央IT提出的数据仓库服务请求可能需要数周或数月才能完成。大型组织中的中央IT团队面临着因市场复杂性和内部业务线(LoB)需求而引起的IT项目激增。同时,中央IT必须兼顾成本和风险。在数据驱动的组织中,为了履行其章程以使数据民主化并在安全、合规的环境中提供按需的高质量计算服务,IT必须替换传统方法并更新技术。对于这些旧系统,需要出现数据优先、自助服务的替代方案。
Cloudera客户已经描述了他们面临的数据挑战。大型跨国制药组织将药物推向市场的计划历时12年,耗资43亿美元。为了进行这种投资,他们需要确定:
- 应关注哪些药物?
- 哪些药物对患者人群的影响最大?
- 应针对哪些人口统计条件和既存条件?
- 针对每种疾病进行的临床试验将有多大可能性和有价值的可靠结果?
- 哪些地理区域(邮政编码)最适合与经过培训的人员进行试验?
该业务与数据相关,并提供给其LoB,LoB正在研究哪些药物可以安全地推向市场。除了将药物推向市场的高昂前期成本外,制药公司之间在选择和发布影响最大的药物方面的竞争也很激烈。如果无法快速、可靠和可扩展地使用数据和计算服务,则核心业务将失败。
严格的管理流程通常会演变成冗长的内部流程。对于数据和计算服务的IT资源的请求不能延迟三到六个月,这就是典型的采购周期、机器配置和软件安装所花费的时间。延误意味着输掉比赛或失去完美审判的窗口。LoB发出的典型声音听起来像这样:
“迅速给我们资源。不是几周,而是几小时或最多几天。”
“我需要在数十亿行中运行100个复杂的并发查询,在哪里可以找到一个环境来做到这一点?”
“我们有了这个新的数据集,实际上是传感器数据。我们希望使用一些历史性的客户使用数据快速对其进行建模……是的,每天应该大约有100TB。”
“影子IT”项目在LoB中出现,以克服僵化扼杀创新和进步的僵化。这些项目对中央IT不可见或不可操作。
随着中央IT部门试图降低风险和成本,随之而来的影子IT项目增加了风险并推高了成本。运行这些项目的LoB用户通常缺乏安全性和治理要求方面的专业知识。他们通常没有意识到BI的基础架构必须可扩展并与需要在项目上进行协作的外部合作伙伴共享。
自助数据仓库如何释放IT资源
Cloudera Data Warehouse(CDW)是一项云服务,是新发布的Cloudera Data Platform(CDP)的组成部分。主要功能是:
- 用于BI和数据仓库工作负载的高度可扩展的高性能开源引擎
- 现代化架构
- 将计算与存储分开
- 容器化
- 混合云和多云环境
- 提供按需付费的模型。
Cloudera Data Warehouse底层的CDP共享数据体验(SDX)服务可帮助中央IT提供安全性和治理。SDX还是在同一数据上服务多个工作负载的关键。CDP还支持Cloudera机器学习(CML)(请参阅下面的链接)和其他计算选项。
简化配置
Cloudera Data Warehouse可以减轻中央IT在启动和运行LoB项目中涉及的工作。如下所示,数据仓库的配置简单易行,使自助服务成为可能。
弹性架构
CDW中的虚拟仓库可简化容量规划,因为您可以根据需要扩展、缩小和自动挂起仓库。无需花费数月来分析项目即可进行准确的容量计划。从小处开始,并根据需要成长。将最大设置用作防护栏,以防止成本失控和转移到云时的常见错误。
消除竞争
在多租户环境中,许多用户需要访问相同的数据源。隔离的计算资源使遵守SLA,控制成本和敏捷性变得更加容易。实验和生产工作负载访问相同的数据,而用户彼此之间不会影响彼此的SLA。
高性能
Cloudera Data Warehouse具有两个高性能的大规模并行处理(MPP)查询引擎-Impala和Hive LLAP。这些引擎在为世界上最大的公司提供关键任务数据仓库方面拥有悠久的历史。
CDP架构
Cloudera Data Platform(CDP)体系结构克服了负担能力、刚性和灵活性方面的障碍。这些新架构中的大多数都基于以下能力:
- 存储和计算分离。隔离工作负载,同时允许共享的“数据湖”。数据可以轻松地为企业服务。
- 使用容器化。为每个按需工作负载提供配置的敏捷性和将资源扩展到适当大小的能力。
- 在云中部署。在云中部署选定的工作负载,提供“现收现付”模型,使您可以更好地控制成本。
- 将公共云与本地部署相结合。提供一种混合模型,使您可以优化成本和投资。您可以在云中启动项目,在云中采购和配置的开销最少。当项目看起来像是长期项目时,您可以选择利用内部数据中心的投资将它们恢复为“内部”。
这些架构具有所有优点,但也有缺点。为了满足合规性要求,保持跨环境可见性和数据可追溯性可能会变得更加困难。此外,要严格控制成本并知道数据位于何处以更好地服务于业务可能是一项挑战。
集中式的安全和治理
共享数据体验(SDX)、访问模型、沿袭审核跟踪和所有元数据的共享持久层是Cloudera数据湖实施的关键。该数据湖提供跨多个环境的独立计算,但共享存储。
工作负载智能
CDP还包括Workload Manager,这是一种云原生或本地工具,可用于洞察您的工作负载,优化工作负载以提高效率并确定“可用于云的”工作负载。
安全地迁移数据
CDP的Replication Manager还可以帮助快速确定适合云的工作负载,并帮助您以最佳方式安全地迁移数据并控制成本。
CDP和CDW如何解决IT问题
使用CDP中的CDW服务,像大型制药机构这样的客户可以自助服务满足其数据需求,而无需花费IT专业人员的宝贵时间。CDW提供灵活性,节省成本和敏捷性。
挑战 | CDW之前 | CDW之后 |
---|---|---|
灵活性 | Central IT为所有LoB客户提供了固定大小的群集模板。除了需要组织高层管理人员批准任何新模板或对现有模板的修改外,此模板中的任何更改都需要大量的时间和精力。 | 借助CDP,中央IT可以构建特定LoB及其用例所需的大小相同的模板。使LoB能够使用最适合其用例的工具和引擎。无需携带不需要的引擎或服务。例如,如果BI是唯一的用例,则中央IT部门可以提供这些引擎。如果LoB需要一个复杂的解决方案,需要Kafka HBase Hive Spark Impala等组件,则中央IT部门可以使用CDP中的Data Hub服务轻松构建它。 |
成本 | 由于中央IT提供的库存解决方案无法在多个LoB之间摊销,因此导致LoB的成本更高。当LoB寻求基于影子IT的基于云的解决方案时,中央IT感觉无能为力。 | 借助CDP,可以很容易地通过基础SDX服务分摊共享数据,架构,安全性和治理的成本。您可以消除在多个LoB孤岛之间复制数据和同步数据的成本。而且,即使这些孤岛可能具有截然不同的安全和治理框架,您也可以消除管理这些孤岛的成本。有关SDX的更多详细信息,请参见下面的链接。而且,您不再将CPU浪费在LoB用例不需要的事情上。仅从特定用例所需的引擎和服务开始。CDP中的模板使事情变得更加轻松和快捷。您可以使用模板来启动LoB解决方案,帮助您在数分钟而不是数周的时间内开始使用。 |
敏捷 | 为了满足最成功的LoB的快速变化的需求及其用例,中央IT尝试提供其库存解决方案。有时,库存解决方案确实满足了LoB的要求,但随后需求发生了变化,中央IT和LoB再次出现矛盾。亲爱的LoB迅速成为Central IT的敌人。 | 一个100节点的Cloudera Data Warehouse能够每秒支持80个查询,您可以在2.33分钟内进行配置。如果负载需要更多资源,则自动缩放会在20秒后开始。 |
总结
总之,CDP使中央IT能够满足灵活性、成本控制和敏捷性的需求。我们的客户告诉我们,使用他们的传统解决方案,一个10TB的系统实例可能需要花费数周的时间才能配置完毕。使用CDP,可以在几个小时内配置一个这样的实例。使用CDP启动并运行后,CDW的数据集市实例可以在几秒钟到几分钟内启动。此外,我们的客户还告诉我们,使用传统解决方案,将10TB实例扩展两倍(至20TB)也需要数周时间。使用CDW,您可以在不到20秒的时间内将同一10TB实例自动扩展到20TB。传统解决方案无法缩小规模。借助CDP的数据集市服务、CDW、自动挂起和恢复将自动发生、并且自动收缩功能已内置到产品中。
共享数据体验支持多种类型的工作负载,并避免了孤立点解决方案。CDW和CDP都是云原生的,具有在公共或私有云中运行以及在它们之间安全迁移的选项。即用即付、自动缩放/收缩和自动暂停功能使您能够控制成本。您可以预测自己的需求并“即时”优化,因此无论环境如何,您都可以进一步控制成本。
Cloudera赞助开源,以确保您不会被锁定为专有文件格式,或者您可能会失去对自己数据的可审核性的控制。开源在创新方面表现出色,并提供了在需要特定功能时做出自己贡献的选项。选择Cloudera的混合数据平台进行数据工程,数据仓库和机器学习,以成功发展您的业务并帮助您的Central IT操作成功。
相关链接
- Cloudera数据仓库(CDW)
- CDW视频简介
- Cloudera机器学习(CML)
- Cloudera共享数据体验(SDX)
原文作者:Bill Zhang
原文链接:https://blog.cloudera.com/enabling-self-service-business-insights-with-cloudera-data-warehouse/