决策树告诉你出门带不带伞

2019-07-15 17:30:20 浏览数 (1)

Data Analyst

帮你做决定

问你一个问题,“跳广场舞的大妈的儿子,今天出门要带伞不?”

很无厘头对不对?

你可以这样回答,“带不带伞需要看具体的情况,如果今天烈日高照而且大妈儿子今天计划走路去上班恰好这个人非常抠门,那么他需要带上雨伞;否则,不需要带雨伞”。

生活中,会遇到很多看似繁复、难以抉择的问题,例如高考要不要选择理科、是去社会闯一闯还是留在体制内、投资时选择股票还是基金?决策树就是将所有影响决定的因素幻化成一个一个的if else,从而帮你做出决定。

Data Analyst

好解释、速度快

决策树是一种智能的分类方法,同时,它也是一种回归的方法,其Y值既可以是分类型变量,也可以是连续型变量。与神经网络和logistic模型相比,决策树的优点是结果的可读性非常强、运行速度非常快

  • 可读性方面: 相比于神经网络与logistic模型,决策树的结果更易解读。由于结构性问题的限制,神经网络模型几乎不可读,虽然logistic的结果可读,但是解读较为繁复,例如logistic模型在解读客户违约风险时,解读为客户借款每增加100元则其违约风险响应增加5%,比较拗口
  • 速度方面: 决策树与神经网络速度差不多,均快于losigtic模型;
  • 预测能力方面: 决策树的预测能力远没有神经网络强大,因此,决策树主要解决的是单个结构与整体结构的问题。

Data Analyst

建树需要面对的问题

构建决策树需要时刻考量三个问题:

  • 特征选择

如何辨别变量间的重要性,即树根的发芽之处是在哪里,每条观测都唯一的对应一条路径,路径特征的选择逻辑是什么,为什么树是这样的生长趋势,其他形状的决策树是否更为合适

  • 分杈选择

变量拆分的原则是什么?

  • 树的整合

Data Analyst

特征选择的衡量指标

通常,进行决策树特征选择时,常常参考熵/基尼系数分类误差率这三个指标,他们均用于评价叶节点中目标分类纯度的好坏,取值越高即表示这个叶节点的纯度越低。即:

用以表示信息的不确定程度,熵越大,随机变量的不确定性越大

  • 基尼系数

度量随机变量不确定性的大小基尼系数越大表示数据的不确定性越高,基尼系数越小表示数据的不确定性越低,基尼系数为0表示数据集中所有样本类别均相同

  • 分类误差率

Data Analyst

树的形态需要把控

构建决策树时需要注意,树的枝叶既不能过于干瘪,也不能过于繁盛。如果枝叶较小,则该叶中样本数量过小,此时并不足以说明该群体的特征;如果枝叶特别繁盛,树的主干较为突出,则会使得群体中共同的行为隐藏在一起,无法区分。

因此,树的形态需要适当把控

0 人点赞