决策树基本思想

2023-10-12 09:33:30 浏览数 (3)

决策树是基本的机器学习分类算法,它的输入是一组带标签的数据,输出是一颗决策树,树的非叶结点代表判断逻辑,叶子结点代表分类子集。

决策树算法原理是通过训练数据形成if-then的判断结构。从树的根节点到叶节点的每一条路径构成一个判断规则。我们需要选择合适的特征作为判断节点,可以快速的分类,减少决策树的深度。最理想的情况是,通过特征的选择把不同类别的数据集贴上对应类标签,树的叶子节点代表一个集合,集合中数据类别差异越小,其数据纯度越高。

  • 输入:训练集
D={(x_1,y_1), (x_2, y_2),...,(x_3,y_3)}

,属性集

A={a_1,a_2,...,a_n}

过程:抽象为函数TreeGenerate(D,A) 注:最优划分属性即为能把最多结点分为一类的属性

代码语言:javascript复制
1. 生成根结点node
2. if D中样本全部属于某一类C,then
3.    标记根节点为C类叶子结点;return
4. endif
5. if A = 空集 or D样本在A上取值相同  then
6. 	标记根结点为D中样本数最多的结点;return
7. endif
8. 从A中选取最优划分属性a*
9. for a*的每一个值a*v do
10.	    为node生成一个分支Dv,表示D中在a上取值为a*v的所有的样本的子集
11. 	if Dv为空 then
12.			将分支结点标记为叶子结点,其类别标记为D中样本最多的类;return
13.		else 
14.			以TreeGenerate(Dv,  A{a*})为分支结点递归
15.	 

输出:以node为根节点一个一颗决策树

决策树的生成是一个递归过程,有三种情形会导致递归返回:

  1. 当前结点的样本完全属于同一类别(无需划分)
  2. 当前划分时的属性集为空集,或者所有样本在所有属性上取值都相同(无法划分)
  3. 当前结点集合为空(不能划分)
参考文献

机器学习 - 周志华 分类算法 – 决策树ID3算法

1 人点赞