文章目录
- 决策树 decision tree
-
- 原理
-
- 极大似然
- 决策树修剪
-
- 剪枝类型
- 实例
- 总结
决策树 decision tree
- 属于监督学习算法,可以用于分类和回归问题
- 适合离散数据的分析:连续转化为离散数据
- 发展历程:ID3(离散变量的分类问题)->C4.5(离散变量和连续变量的分类问题)->CART(可以处理离散变量和连续变量的分类回归问题)
- ID3和C4.5可以多分叉,Cart只能是二叉树;决策树在分裂时,判段标准不同.ID3以信息增益为标准;c4.5亿信息增益率为标准;cart亿基尼不纯度增益为标准.
- ID3优化算法不同:ID3没有剪枝策略,叶子节点同属于一个类别或者所有特征都使用过后停止生长;C4.5使用剪枝策略分裂后增益小于给定的阈值或者叶子上样本数量小于某一个阈值或者节点数量达到限定值或者深度达到限定值,决策树停止生长.cart使用后剪枝策略.
原理
- 熵:对某个离散变量不确定性大小的一种度量.