阅读大概需要12分钟
跟随小博主,每天进步一丢丢
作者:潘瑞东
研究方向:机器学习和自然语言处理
导读
决策树(Decision Tree)是一种非常经典的机器学习算法,常见的决策树算法包括ID3、C4.5、CART树等。
相比其他机器学习算法,决策树算法对特征选择的可解释性强,由于决策树的分枝是采用阈值划分的贪心策略,决策树能很好的处理类别等离散特征,且对于连续特征的分布没有特殊的假设,大部分情况下不需要像其他机器学习或者深度学习算法(SVM、线性回归、KNN、神经网络等)对特征进行归一化或者对特征的分布做修正。
更重要的是,决策树是很多集成学习算法(如随机森林、Adaboost、GBDDT、xgboost、lightGBM)的基础学习器,这些由多个决策树组成的集成学习算法性能强大,至今仍然主宰着大部分数据竞赛,在工业届也有很高的实用性。可以这么说,掌握决策树算法是学习集成学习算法的第一步。
如果你第一次接触机器学习,可能对于决策树或许会有这些困惑:
- 决策树分枝的依据是什么?
- 决策树如何处理连续特征和离散特征?
- ID3、C4.5、CART树有什么关联和区别?
- 决策树如何做回归和分类任务?
这份笔记会对ID3、C4.5、CART树进行介绍,希望对你有所帮助,如有疏漏,回复提出,感谢纠正~
笔记