介绍
Cloudera数据科学工作台CDSW是一个安全的企业数据科学平台,它使的数据科学家能够通过为其提供自己的分析管道来加快从勘探到生产的工作流程。CDSW使数据科学家能够利用现有的技能和工具(例如Python、R和Scala)在Hadoop集群中运行计算。
在较高级别,Cloudera Data Science Workbench在CDH集群的一个或多个网关节点上运行。网关节点利用Docker和Kubernetes为隔离的环境分配资源,您可以在其中运行自己的数据科学项目。
先决条件
- 使用CDSW安装Cloudera Distribution Hadoop(CDH)
大纲
- 概念
- CDSW之旅的导览
- 添加环境变量
- 任务调度
- CDSW实验室
- 分享结果
- 进一步阅读
概念
本教程将指导您了解使用CDSW的基础知识,并了解其基本功能。您将首先了解用户界面的布局,然后在CDSW上创建第一个数据科学项目,最后将学习如何共享结果。
CDSW导览
这是CDSW主仪表板,在这里您可以找到
- 正在运行多少个会话、作业或模型
- 分配给您的资源有哪些,例如虚拟CPU、存储设备和GPU
CDSW的一个重要功能是上下文,通过切换上下文,您将能够从团队项目更改为您自己的个人项目。创建新上下文非常容易,让我们为本教程和我们可能使用的未来CDSW教程创建一个新上下文。
单击用户名旁边的标志,然后选择创建团队
接下来为您的团队Tutorials命名,然后选择创建团队
确保您在Tutorials团队的帐户中
添加环境变量
CDSW中的环境变量可以使您更好地控制会话的行为。例如,您可以在工作台控制台的输出上设置最大字符数,甚至可以更改每个会话的项目时区和超时。
您可以在以下范围内设置环境变量:
- 全局范围:CDSW的站点管理员可以设置全局变量,该变量将应用于特定部署上的每个项目
- 项目范围:如果您创建了一个项目并且您是该项目的管理员,则可以为整个项目设置环境变量,这些设置将优先于全局变量
首先选择要为其设置环境变量的项目:
然后在适当的部分输入变量
- 作业范围:如果存在现有作业,也可以为计划构建的模型设置环境变量。作业环境变量优先于项目变量
- 实验:实验级别的变量与项目隔离,并将继承项目级别和/或全局级别设置的环境变量的值。
- 模型:模型变量与项目隔离,并在构建时进行设置,这些设置将超越所有其他环境变量。如果未设置变量,则将继承项目级别和全局级别。
任务调度
CDSW允许您自动执行启动引擎,运行训练脚本以及通过自动电子邮件警报跟踪训练结果的过程。
接下来为您的新的任务命名,然后选择要运行的脚本
作业可以手动运行,也可以通过将其作为重复生成版本运行来实现自动化
或作为其他工作的依存关系
CDSW实验室
以下练习将向您展示如何创建第一个CDSW项目并运行python引擎以生成见解。首先要下载本教程中使用的python脚本和数据
现在,我们准备在CDSW实例上创建一个新项目。单击屏幕右上角的标志,然后选择“新建项目”,您将找到一个类似于下图所示的屏幕。
帐户名称部分应自动填充我们之前创建的教程团队,为您的项目命名Hello CDSW
接下来,选择本地窗口,然后选择我们先前下载的文件,该文件应命名为tour-of-cdsw.zip
文件上传完成后,您将找到项目的管理界面,如果您已在该项目中创建了模型或正在运行与该项目相关的任何作业,则可以在其中管理它们。
要开始工作,请单击右上角的“打开工作台”按钮。下一步是选择引擎内核,默认情况下CDSW支持使用Scala、Python和R的引擎
在CDSW的上下文中,引擎负责运行数据科学的工作负载并充当支持CDH集群的中介。CDSW的基本引擎映像是Docker映像,其中包含启动CDSW会话和运行工作负载所需的所有构造块,它们内置在CDSW中并随CDSW一起提供。当您运行会话以启动项目时,引擎会作为容器旋转,并由Kubernetes管理,该容器基于您选择的基本引擎映像,并包含以下组件:
CDSW允许您将代码作为会话或作业运行。会话是一种以交互方式解释您的代码的方式,而作业允许您以批处理的方式执行代码,并且可以安排其以递归方式运行
为了使我们能够使用本教程所需的python脚本,请选择具有此资源分配配置的Python 3引擎
- 1个vCPU
- 2 GiB内存
- 0 GPU(如果没有GPU也没关系,但是您可以拥有它们,我们也很高兴)
我们可以使用Jupyter Notebook作为我们的编辑器,也可以使用Workbench,随时选择您喜欢的编辑器。
要完成设置,请选择“启动会话”选项。
欢迎使用工作台,用户界面应如下图所示:
在工作台的顶部,您会发现:
1.终端访问
终端访问窗口可让您从Web控制台访问正在运行的引擎。它允许您移动文件,运行git命令以及了解环境中的资源
2.清除
从运行代码中清除输出
3.中断和停止
中断部分允许您停止当前正在执行的命令,而停止按钮允许您停止会话
4.查看
查看选项可让您打开可用的其他资源,例如Spark历史记录和YARN历史记录
要开始使用我们的python脚本,我们必须首先安装一些库,这在CDSW中非常简单:
- 展开主目录tour-of-cdsw
- 选择自述文件
- 突出显示pip install命令,然后单击鼠标右键。最后,选择“按行运行”
请注意,当您的库正在安装时,工作台右侧的命令行将呈红色亮起,表示当前正在繁忙
一旦执行完命令并准备好进行下一次输入,它将呈绿色亮起
分享结果
库完成安装后,请按照以下说明进行操作
- 选择1_python.py脚本
- 从菜单中选择运行选项
- 单击全部运行
运行Google Stock Analytics的 python脚本将生成在工作台右侧可见的输出以及以下可视化效果:
在图表的左侧,您会找到一个链接符号,您可以单击它以与世界共享您的个人链接
或者您可以选择与特定的利益相关者分享您的笔记本结果。在工作台的右上方,有一个共享笔记本结果的选项,选择它。
您可以选择将结果共享给具有该链接的任何匿名用户,任何登录的用户,或者更具体地与特定的人或团队共享
您也可以选择通过隐藏实验中的代码和输出文本来保护自己的知识产权。
这是带有链接的匿名人士将看到的内容:
总结
恭喜,您现在已经了解CDSW的基本功能,它如何工作以及如何运行代码和共享结果,因为您可以看到CDSW是一个功能非常强大的工具,可以更有效地管理和使用资源,并帮助您共享思想和快速,方便地生成结果。
进一步阅读
- CDSW文档
- 配置Cloudera数据科学工作台引擎
- CDSW要求
原文链接:https://www.cloudera.com/tutorials/tour-of-cloudera-data-science-workbench.html