合理的基尼系数_基尼系数为1表示

2022-11-04 10:19:17 浏览数 (15)

一、基尼指数的概念

基尼指数（Gini不纯度）表示在样本集合中一个随机选中的样本被分错的概率。注意：Gini指数越小表示集合中被选中的样本被参错的概率越小，也就是说集合的纯度越高，反之，集合越不纯。当集合中所有样本为一个类时，基尼指数为0.

基尼指数的计算公式为：

我们分别来计算一下决策树中各个节点基尼系数：

以下excel表格记录了Gini系数的计算过程。

我们可以看到，GoodBloodCircle的基尼系数是最小的，也就是最不容易犯错误，因此我们应该把这个节点作为决策树的根节点。在机器学习中，CART分类树算法使用基尼系数来代替信息增益比，基尼系数代表了模型的不纯度，基尼系数越小，不纯度越低，特征越好。这和信息增益（比）相反。

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/182267.html原文链接：https://javaforall.cn

0 人点赞