自2017年Cloudera Data Science Workbench(CDSW)推出以来,我们一直致力于加速企业数据科学从研究到生产。我们正在帮助IQVIA和Deutsche Telekom等数百家客户建立自己的AI工厂,使大型数据科学团队能够安全,自助地访问业务数据,计算资源以及开源工具和库,这样他们能够更快的创新和影响业务。
通过不错的用户体验提高数据科学团队的工作效率仍然是我们赋予客户工业化机器学习和AI使命的关键,我们很高兴宣布今天发布的CDSW1.6支持第三方编辑器包括Jupyter Notebook, RStudio, PyCharm等。CDSW让团队在端到端数据科学工作流上进行协同合作,从数据探索和数据工程到生产中的模型开发和部署。这可能涉及数据工程师,数据科学家和ML工程师之间的协作,通常这些人对编辑器和IDE的喜好是不一样的。现在不同的团队可以利用CDSW提供的自助服务数据科学的优势,同时在最熟悉或最喜欢的IDE中工作。
基于浏览器的IDE
在IDE偏好方面,有时每个人都有自己喜爱的工具,而每个人最爱的又不一样,其实每个人都没有错。事实上,Cloudera很多客户都是Jupyter Notebooks和RStudio的粉丝。从CDSW1.6开始,你可以直接在CDSW中运行这些基于Web的编辑器,就像其它库一样,编辑器也是一个库,管理员可以直接将编辑器安装到Engine中,或者在项目级别由CDSW普通用户自己安装。Jupyter Notebook支持预装在CDSW中,而RStudio的安装通过我们提供的方法也非常简单。
要在CDSW中使用Jupyter Notebook,用户只需访问他们在CDSW中的项目:
启动一个新的交互式Session,选择Jupyter Notebook编辑器:
这样就可以在CDSW基于浏览器的环境中,使用Jupyter Notebook继续访问和编辑CDSW Project文件:
您机器上本地的IDE
团队中的其它程序员,比如ML和DevOps工程师,往往是在自己电脑本地的IDE中工作如PyCharm。这些应用程序在用户计算机上本地运行,并通过SSH远程连接到CDSW以完成代码并执行。每个用户都要单独配置,而且在CDSW的项目级别无法进行关联。以下链接提供了基于PyCharm v2019.1专业版的示例说明:
代码语言:javascript复制https://www.cloudera.com/documentation/data-science-workbench/1-6-x/topics/cdsw_editors_pycharm.html
以上两种方法共同解决了Cloudera客户对编辑器IDE偏好的问题,这些功能在CDSW1.6开发过程中也进行了测试。你同时也可以安装和配置其他基于浏览器和本地的IDE,使用类似的方法。具体参考CDSW1.6的官网文档获取更多关于这块的信息,以及其他安全和管理的新特性:
代码语言:javascript复制https://www.cloudera.com/documentation/data-science-workbench/1-6-x.html
CDSW1.6支持安装到以下版本的CDH/HDP:
RPM安装:CDH5.7或更高,CDH6.1.x或更高,Cloudera Manager5.11或更高,Cloudera Manager6.1.x或更高,HDP2.6.5或更高,HDP3.1.0或更高。
CSD安装:CDH5.7或更高,CDH6.1.x或更高,Cloudera Manager5.13或更高,Cloudera Manager6.1.x或更高。
查看进行中的一些新特性,并了解有关Cloudera Data Science Workbench如何将企业数据科学从研究加速到生产的更多信息,请访问CDSW resource center:
代码语言:javascript复制https://www.cloudera.com/campaign/cdsw-resource-center.html?utm_source=blog&utm_medium=organic&utm_term=ml&utm_campaign=CDSW_FY20Q2_Kit Hub&cid=7012H000001l2AX
对于已有的Cloudera客户,可以到以下链接下载CDSW1.6试用:
代码语言:javascript复制https://www.cloudera.com/downloads/workbench/1-6-0.html