在此博客中,我们将带您进行基于角色的数据冒险,并附带简短的演示,以向您展示A-Z数据工作人员的工作流程,该工作流程通过自助服务、无缝集成和云原生技术得到了加速和简化。您将学习CDP平台的所有内容,它们将共同加速您日常的数据工作人员任务。这个以演示为导向的博客旨在激发人们的好奇心和学习,并激发富有成果的互动对话-如果有任何特别的部分引起您的兴趣,我们欢迎您与我们联系。
假设条件
在我们的数据冒险中,我们假设以下内容:
- 该公司先前已在CDP Public Cloud中创建了业务部门租户
- 使用公司的AWS帐户,Azure或AWS上都有可用的环境–注意:在此博客中,所有示例都在AWS中。
- 已配置SDX层,并且用户具有适当的访问权限
- 公司数据存在于数据湖中
- 数据目录分析器已在Data Lake中的现有数据库上运行
- 存在Cloudera机器学习工作区
- 存在启用了Cloudera Data Visualization的Cloudera Data Warehouse虚拟仓库
- 存在Cloudera数据工程服务
数据科学家
我们的数据冒险始于一家全球银行的数据科学家Shaun。他最近参加了Cloudera Fast Forward网络研讨会,其中重点介绍了最新趋势和经过生产验证的ML算法。他下载了有关建模Telco Churn的Cloudera Fast Forward报告,阅读该报告后,引起了他的兴趣。Shaun计划从报告链接的示例模型克隆到他的本地环境。他对模型的可解释性特别激动:折射器,并渴望自己尝试该项目。
准备开始实验后,他登录到CDP ML工作区。ML工作区已完全通过Kubernetes进行了容器化,从而可以通过访问粒度数据和可扩展的ML框架(使他能够访问CPU和GPU)来轻松,自助地设置新项目。他可以从现有模板项目中引导其项目,甚至可以与GitHub存储库(如FastForward Labs的Churn Demo)同步。这正是他想要的:无需任何IT干预即可计算资源,自动项目设置以及与环境的安全性和连接性。只需单击几下,他就可以启动并运行他的项目。
通过“团队”功能,他可以将其他用户和成员添加到他的项目中,以实现完整的项目协作。
现在,他已加载了FFL流失示例,以开始学习各种功能。该项目分为一系列步骤,每个步骤代表典型ML项目的不同阶段:
- 数据设定
- 探索与发现
- 构建模型
- 模型训练
- 模型部署和服务
- 创建自定义应用程序
- 模型操作与监控
在他的工作区中,他从Cloudera使用者模板设置示例代码,并开始从中学习。这是他探索的内容:
客户流失演示完整版
FFL项目的好处在于,它可以帮助Shaun探索模型可解释性的概念,并将其应用于围绕客户流失的实际用例,然后他可以按照自己的进度进行剖析,然后将其应用于自己的项目。
接下来,Shaun希望建立一个类似的模型,但要针对他工作所在的银行并查看该银行自己的客户数据。他首先浏览了CDP中“数据目录”工具中的可用表。他致力于快速发现和了解可用数据集。
然后,他意识到存在需要用于该项目的某些表,但是他没有对其的读取权限。该数据被标记为敏感数据,例如“财务”,并且显示“零售银行业务”的所有者字段会立即通知Shaun哪个组织可以联系以请求访问权限。肖恩打开了一张票证,该票证与管理零售银行数据的团队中的数据管家Eva着陆,并询问是否可以在此实验中暂时允许他临时访问客户数据表。
数据管家
Eva快速查找“数据目录”中的表,在“财务”标签上进行搜索,以更快地导航到数据类别并调查与之相关的限制。
对于每个表,她首先查看沿袭,以了解需要哪些源数据,并快速查看分类和标签。
然后,她进入模式视图,以验证事件探查器统计信息,以了解数据的形状以及对表中可用的列进行内省。从探查器统计数据来看,数据看起来不错,并且没有任何方向的偏斜。但是,从安全性角度来看值得一提的是customerID列。
Eva进入数据访问策略视图,为两个表授予对Shaun的访问权限。
然后,她修改数据掩码策略以编辑“客户ID”列。
这总共大约需要2-3分钟,她可以在一个中央位置管理所有数据访问和跨环境的沿袭。她感谢越来越重要的一项功能,因为越来越多的部署在私有或公共的多个云环境中弹出,否则将使她的工作更加困难。
她迅速向Shaun发回了一条悠闲的消息,告知他们一切顺利,一旦完成更新和验证,他就可以出发了。这使Shaun几乎可以立即前进。
Shaun确认他可以访问数据,然后继续探索该数据集进行实验。
不久之后,他根据公司自己的数据成功构建了定制的客户流失模型。在这里,我们以表格的形式查看结果:
Shaun决定快速从CML中提取数据可视化,以构建一些初始可视化,目的是更好地将结果传达给组织中的其他人。
数据分析师
大约一周后,一个请求到达了乔恩的办公桌,乔恩是同一家银行的分析师。该请求需要使用最近的数据科学家组织的客户流失实验提供的新数据集来构建功能更丰富的仪表板。仪表板应该为更广泛的组织提供客户见解的目的,并且需要一些改进和充实。Jon得出结论,需要用此新数据集扩充旧的客户仪表板,然后提出使用CDP中易于使用的可视化工具来构建Customer Insight应用程序的想法:数据可视化。现有的仪表板将需要合并Shaun创建的新数据集,并将需要更多的充实和完善。但这对于数据可视化来说是小菜一碟,因为您可以轻松地添加新的视觉效果,甚至可以针对CDP中的不同后端。
Jon从CDP的数据仓库服务中现有的虚拟仓库开始,该服务可以访问共享数据库目录,其中存在Shaun的结果表。该虚拟仓库当前没有活动的查询请求。
虚拟仓库处于运行状态,但不为任何活动的查询请求提供服务。因此,它已动态缩小
虚拟仓库处于运行状态,但不为任何活动的查询请求提供服务。因此,它已动态缩小
他通过在Virtual Warehouse的下拉菜单中打开Data Visualization用户界面继续操作。
Jon找到现有仪表板并将其选中,以查看仪表板内容。
该仪表板打开后,它将开始将查询发送回虚拟仓库,并且虚拟仓库会自动恢复并动态扩展以开始以所需的容量处理查询。自动暂停和自动恢复功能是银行选择CDP的关键原因之一,因此它们仅在需要时立即消耗资源,以节省成本,同时满足SLA和临时扩展需求。
虚拟仓库处于运行状态,但不为任何活动的查询请求提供服务。因此,它已动态缩小
然后,他需要修改基础数据模型以添加新创建的Churn实验数据。
数据模型,添加新表并加入现有客户数据。还显示数据模型的字段(业务视图)之前和之后。
数据模型包含新的客户流失数据后,Jon将返回旧的客户仪表板,开始使用新数据进行扩充。短短的时间之后,他就启动并运行了更新的仪表板,可以开始与他人共享它了。
通过简单地单击MOVE按钮,Jon通过将更新后的仪表板移动到其“数据可视化”工作区中,与营销组快速共享了更新的仪表板。这使得仪表板可立即访问所有有权访问其组工作区的用户/组,因此他们可以在短短几分钟内开始使用新数据和数据洞察力。
随着业务需求的变化,Cloudera Data Visualization可以轻松进行扩充,并为整个组织中的数据用户使用通用的“语言”。在数据可用之后的几分钟内,企业可以立即访问,并可以访问所请求的任何新数据,从而可以更快地获得结果。
数据工程师
时间流逝,仪表板越来越受欢迎。数据科学家Shaun为临时实验创建的虚拟架构随着流量的增长并不是很有效。向生产团队提出请求,该团队的数据工程师Karthik很快发现他需要更改Data Mart的结构。这意味着他需要优化基础数据的架构,因为现在有数百名用户正在访问该仪表板。
Karthik快速查看了CDP中Workload Manager 工具中的仪表板生成的数据仓库查询。
KPI为0.5秒,该工具通过突出显示不符合SLA的查询来快速帮助Karthik进行正确的查询以进行调查。经过快速自省之后,他决定为未通过SLA的查询实现连接,以提高连接效率。
他创建了一个单行的Spark SQL作业,该作业将联接的结果读取到一个非范式化表中,并确保安排它每小时刷新一次。
CDE:作业创建向导上传pyspark作业
CDE:计划每小时运行一次作业
在短短的几分钟内,他就弄清楚了如何进行优化并启动它,使其可以通过CDP中的CDE定期运行。
结论
Cloudera数据平台为跨数据和多个工作负载的统一安全模型提供服务,因此IT组织可以更快、更轻松地为他们的所有业务部门(无论是数据科学家、数据工程师还是业务分析师)提供服务。Clouder通过其多用途混合和多云优化的数据平台帮助组织加速工作,该平台可服务于跨组织的工作负载,并且数据洞察需要更快的时间。
该博客带您经历了现代数据组织已经采用或正在采用的基于角色的旅程。这些组织选择与Cloudera合作,以支持,指导和加速它们:
- 轻松管理快速增长的多工作负载环境
- 通过提供智能工具和服务来满足对SLA和成本效益日益增长的需求
- 在增强的控制下导航混合和多云环境
- 保护其数据和业务,同时允许更多自助服务和访问
如果您对开始将数据策略转换和加速到更自助服务,更灵活的现代数据云架构的旅程充满兴趣,那么您的数据之旅就从这里开始。
原文作者:Eva Nahari& Balazs Gaspar & Jon Ingalls & Karthik Krishnamoorthy & Shaun Ahmadian
原文链接:https://blog.cloudera.com/an-a-z-data-adventure-on-clouderas-data-platform/