Task存储着我们机器学习的数据集,因此我们有必要在分析前对其进行可视化分析,从而获取对数据的直观认识。
代码语言:javascript复制library(mlr3)
library(mlr3viz)
task = tsk("pima") # 使用内置的印第安人Pima数据集来创建task
task$head() #查看一下数据集
这个数据集搜集的是印第安人的健康信息,包括糖尿病(diabetes)和血压的信息(pressure)。对于糖尿病这一列,pos代表阳性(positive),neg代表阴性(negative)。
代码语言:javascript复制task$nrow # 查看样本个数
#[1] 768
task$target_names # 查看目标变量
#[1] "diabetes"
task$feature_names # 查看特征变量
#[1] "age" "glucose" "insulin" "mass" "pedigree" "pregnant"
#[7] "pressure" "triceps"
task$select(head(task$feature_names, 3)) # 选取前三列特征变量(features)
autoplot(task) # 绘图,这里只会针对目标变量来绘图
代码语言:javascript复制autoplot(task, type = "pairs") # 绘制配对的关联图
在上图中,红色代表的是糖尿病组,蓝色代表的是非糖尿病组。从图中,我们不难发现,糖尿病组(pos)的年龄(age),血糖含量(glucose)和胰岛素含量(insulin)普遍高于非糖尿病组(neg)。同时血糖和胰岛素含量之间有很强的相关关系(Cor=0.581)。
代码语言:javascript复制autoplot(task, type = "duo") # 绘制duo图
上面这幅图很好地展现出糖尿病和非糖尿病人群中三个特征变量的差异,直观简洁!
米老鼠用了三期内容和大家详细讲解了Task对象的创建,操作和可视化,希望能给大家带来帮助!