我们做数据建模工作,需要一个建模工作环境。
我基于公司申请的Ubuntu20.10系统的服务器搭建过可供多人使用Jupyter Hub建模平台,支持Python工作、R工作和Linux工作三种方式,同时,也可以做账户管理、权限管理、共享管理等。我也基于自己的本地机器,在Win系统上面搭建建模工作环境,支持Python工作和R工作。顺便说一下,我在金融科技行业做数据科学工作,Python语言和R语言,我都会使用。我从不做语言的好坏选择,只看语言是否有利于我解决问题。
在这里,我分享下如何快速而高效地在本地机构建建模环境?
01
1 软件下载和安装
1.1 安装Anaconda软件
软件下载链接:
https://www.anaconda.com/products/individual
下载到本地后,逐步安装即可。
1.2 安装R软件
软件下载链接:
https://cran.r-project.org/bin/windows/base/old/ 选择一个版本安装就可以了,你可以安装R4.0.0
下载到本地后,逐步安装即可。
1.3 安装PyCharm软件
软件下载链接: https://www.jetbrains.com/zh-cn/pycharm/download/#section=windows 你可以下载一个提供30天试用期的专业版软件。
02
2 Jupyter Lab作为建模环境
2.1 添加R核
首先,启动Anaconda Prompt,进入R的安装路径下的bin文件夹,输入R
,进入到R控制台
其次,执行如下安装命令
install.packages(c('repr', 'IRdisplay', 'evaluate', 'crayon', 'pbdZMQ', 'devtools',
'uuid', 'digest'))
devtools::install_github('IRkernel/IRkernel')
最后,配置R核
代码语言:javascript复制IRkernel::installspec(user = FALSE)
2.2 使用PyCharm创建数据项目
第一步:打开PyCharm软件 第二步:进入File-New Project可以创建数据项目,命名建议以任务为导向,例如Prod_App_Credit_Score_Model,如下图所示:
Python解释器的配置,你可以在上图中第2个红色方框里面完成,找到你已经安装的Anaconda软件下的python.exe解释器。
2.3 启动Jupyter Lab
在数据项目Prod_App_Credit_Score_Model,启动Jupyter Lab
启动方式,如下图所示。
执行命令
代码语言:javascript复制jupyter-lab
成功启动后,如下图所示。
这个时候,就可以使用Python工作方式或者R工作方式,针对数据项目开展数据建模工作了。
03
3 一些测试用例
3.1 Python工作环境测试用例
在Jupyter Lab下,打开Python的notebook,做如下测试用例。
1 查看已经安装的Python库
执行如下命令
代码语言:javascript复制!pip list
部分结果如下图所示:
2 评分模型的Python库
写入如下代码
代码语言:javascript复制import toad as td
import scorecardpy as sc
print(td.__version__)
print(sc.__version__)
结果如下图所示:
3.2 R工作环境测试用例
在Jupyter Lab下,打开R的notebook,做如下测试用例。
1 查看已经安装的R包
写入如下代码
代码语言:javascript复制library(tidyverse)
installed.packages() %>%
as.data.frame() %>%
dplyr::select(Package, Version)
部分结果如下图所示:
3 评分模型的R包
写入如下代码
代码语言:javascript复制if(!require(scorecard)){
install.packages("scorecard")
require(scorecard)
}
# 查看R包的帮助信息
help(package="scorecard")
结果如下图所示:
俗话说,“工欲善其事,必先利其器”。
搭建一个高效建模工作环境,有利于我们开展数据建模工作。