决策树的个人理解

所谓决策数，多个特征，对于每个特征进行评估，对于结果为True和False分别进行处理，处理完之后，在当前的处理结果的基础上，在评估其他特征，直至评估完成。

如现有abc三个特征，其中a特征有三种分类：a1,a2,a3，b和c也对应有三种分类。那么假如数据在a的分类已完成，那么需要分别对a1、a2、a3的分类结果进行下一步的处理。处理过程如下，纯属个人描述，自己慢慢品：

首先计算在处理完a1的情况下，以b作为切割属性，对应的信息增量（Gain）为0.2，而以c作为切割属性，对应的信息增量（Gain(D,a), 其中D为原有数据，即就是在处理当前特征的根节点数据，a为按哪列划分）为0.5，那么在a1做完处理之后，下一个判断属性应该是c。

公式理解：a有v中分类，Dv是分类v所包含数据量，D为总数据量。

计算处理完a2的情况下，以b作为切割属性，对应的信息增量（Gain）为0.8，而以c作为切割属性，对应的信息增量（Gain(D,a), 其中D为原有数据，即就是在处理当前特征的根节点数据，a为按哪列划分）为0.1，那么在a1做完处理之后，下一个判断属性应该是b。

信息熵

信息增益率Cain_ratio(D, a)

因此Iv(a)就是Ent(D)，就是a相关的信息熵。

用法：

同样，在选择特征时优先使用信息增益率大的特征。从式子可以看出来的是分割的种类如果太多的话，Iv(a)也即是更小。而信息增益率会更加倾向于取值数目比较多的内容。所以先找信息增益中几个比较大的增益特征，判断他们的增益率，找最大的增益率。

基尼值

，指的是连续两次抽取相同分类的概率

p1的平方是指抽取两次都出现1的概率。

所以基尼值就是连续两次都抽取到不同分类的概率。如果基尼值大，则纯度低。

信息熵大，则纯度低。

基尼指数

基尼指小，代表纯度越高

0 人点赞