本次我们来学习决策树算法的理论基础。决策树,顾名思义,用于决策的树,至于为什么称为树,可能因其模型表现形式类似树的形状吧。决策树基于观测到的数据的概率,直观的建立起决策规则,是一种简单、非线性、符合认知的无参数分类(回归)的方法。具体来说,简单到可手算,具备刻画非线性关系的能力,符合人类决策习惯而且还没有需要提前设置的超参数,这个描述厉害炸了有没有?那么下面就随着有范君一起领略一下这树的神奇。
合乎判别逻辑的树
举个例子
核心技术之叶子节点的确定
核心技术之筛选属性
实践一下
01
根节点信息熵
02
筛选划分属性
树方法的进化
C4.5
CART树
独特的过拟合的处理方法
小结
决策树算法将我们做判断的逻辑模型化,以严谨的逻辑,科学的指标构建完整的决策路径,是一种强大的无参数非线性模型。基于决策树模型理论和抽样技术,一系列的集成方法(后续更新)如随机森林、GBDT的提出,使树模型在并行运算,在线建模等方面取得良好的成绩。那么,通过本篇的介绍,你是否对建立决策树模型信心倍增了呢?再不济也应该从示例数据中得到一个结论吧:单身没房工资低,贷款都贷不到!开个小玩笑,有心得和疑问可留言有范君,然后我也不一定回复的。本篇主要参考文献还有周志华的西瓜书《机器学习》,有兴趣的同乡伙伴可参考。