决策树 算法原理
决策树的原理
- 决策树: 从训练数据中学习得出一个树状结构的模型
- 决策树属于判别模型
- 决策树是一种树状结构,通过做出一系列决策 (选择) 来对数据进行划分,这类似于针对一系列问题进行选择。
- 决策树的决策过程就是从根节点开始,测试待分类项中对应的特征属性,并按照其值选择输出分支,直到叶子节点,将叶子节点的存放的类别作为决策结果。
- 决策树算法是一种归纳分类算法它通过对训练集的学习,挖掘出有用的规则,用于对新数据进行预测。
- 决策树算法属于监督学习方法
- 决策树归纳的基本算法是贪心算法自顶向下来构建决策树。
- 贪心算法:在每一步选择中都采取在当前状态下最好/优的选择
- 在决策树的生成过程中,分割方法即属性选择的度量是关键。
决策树的特点
优点
- 推理过程容易理解,计算简单,可解释性强
- 比较适合处理有缺失属性的样本。
- 可自动忽略目标变量没有贡献的属性变量,也为判断属性变量的重要性减少变量的数目提供参考。 缺点
- 容易造成过拟合,需要采用剪枝操作.
- 忽略了数据之间的相关性。
- 对于各类别样本数量不一致的数据,信息增益会偏向于那些更多数值的特征
决策树的三种基本类型
- 建立决策树的关键,即在当前状态下选择哪个属性作为分类依据。根据不同的目标函数,建立决策树主要有一下三种算法: ID3(lterativeDichotomiser)、C4.5CART(Classification And Regression Tree).
下次博客简述ID3算法、C4.5算法、CART算法