【原创手写笔记】面试准备,关于决策树算法你需要知道的那些

2020-02-26 13:58:31 浏览数 (1)

阅读大概需要12分钟

跟随小博主,每天进步一丢丢

作者:潘瑞东

研究方向:机器学习和自然语言处理

导读

决策树(Decision Tree)是一种非常经典的机器学习算法,常见的决策树算法包括ID3、C4.5、CART树等。

相比其他机器学习算法,决策树算法对特征选择的可解释性强,由于决策树的分枝是采用阈值划分的贪心策略,决策树能很好的处理类别等离散特征,且对于连续特征的分布没有特殊的假设,大部分情况下不需要像其他机器学习或者深度学习算法(SVM、线性回归、KNN、神经网络等)对特征进行归一化或者对特征的分布做修正。

更重要的是,决策树是很多集成学习算法(如随机森林、Adaboost、GBDDT、xgboost、lightGBM)的基础学习器,这些由多个决策树组成的集成学习算法性能强大,至今仍然主宰着大部分数据竞赛,在工业届也有很高的实用性。可以这么说,掌握决策树算法是学习集成学习算法的第一步。

如果你第一次接触机器学习,可能对于决策树或许会有这些困惑:

  • 决策树分枝的依据是什么?
  • 决策树如何处理连续特征和离散特征?
  • ID3、C4.5、CART树有什么关联和区别?
  • 决策树如何做回归和分类任务?

这份笔记会对ID3、C4.5、CART树进行介绍,希望对你有所帮助,如有疏漏,回复提出,感谢纠正~

笔记

0 人点赞