决策树

2018-07-03 17:37:23 浏览数 (1)

决策树(Decision Tree)

机器学习里面的算法与编程语言里面的算法不大一样,主要是指数学上面的算法,而不是数据结构相关的算法。

不过机器学习里的与种算法叫做决策树,本质上就是编程语言中数据结构里面的树结构。

决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。

分类树(决策树)是一种十分常用的分类方法。他是一种监管学习,所谓监管学习就是给定一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定的,那么通过学习得到一个分类器,这个分类器能够对新出现的对象给出正确的分类。这样的机器学习就被称之为监督学习。

C4.5

C4.5 算法继承了 ID3 算法的优点,并在以下几方面对 ID3 算法进行了改进:

  1. 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足
  2. 在树构造过程中进行剪枝
  3. 能够完成对连续属性的离散化处理
  4. 能够对不完整数据进行处理

C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。

0 人点赞