决策树 ID3 算法

ID3 算法最早是由罗斯昆 (J.Ross Quinlan) 于1975年提出的一种决策树构建算法，算法的核心是“信息熵”，期望信息越小，信息熵越大，样本纯度越低。。
ID3 算法是以信息论为基础，以信息增益为衡量标准，从而实现对数据的归纳分类
ID3 算法计算每个属性的信息增益，并选取具有最高增益的属性作为给定的测试属性。

ID3 算法步骤：

H(D)=-sum_{k=1}^{K} frac{left|C_{k}right|}{|D|} log _{2} frac{left|C_{k}right|}{|D|}

K是类别，D是数据集，

C_{k}

是类别K下的数据集

H(D | A)=sum_{i=1}^{n} frac{left|D_{i}right|}{|D|} Hleft(D_{i}right)

A是特征，i是特征取值

g(D, A)=H(D)-H(D|A)

特征选择的目的在于选取对训练数据能够分类的特征,关键是其准则

样本集合

对特征

的信息增益（ID3）

g(D, A)=H(D)-H(D|A)

其中，

H(D)

是数据集

的熵，

H(D_i)

是数据集

D_i

的熵，

H(D|A)

是数据集

对特征

的条件熵。

D_i

是

中特征

取第

个值的样本子集，

C_k

是

中属于第

类的样本子集。

是特征

取值的个数，

是类的个数。

ID3 没有剪枝策略，容易过拟合信息增益准则对可取值数目较多的特征有所偏好，类似“编号”的特征其信息增益接近于 1 只能用于处理离散分布的特征没有考虑缺失值

0 人点赞