常用分类算法总结
根据奥卡姆剃刀原则解决问题: 用能够满足需求的最简单的算法,如果绝对的必要,不要增加复杂性。
分类问题通常被认为属于监督式学习,supervised learning , 分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。
根据类别的数量可以进一步将分类问题划分为二元分类和多元分类。
更好的数据往往比更好的算法更重要,提取好的特征也需要很大的功夫。如果数据集非常大,分类算法的选择可能对最后的分类性能影响并不大。因此根据运行速度或者易用性来选择。尝试多种分类器,根据交叉验证的结果来挑选性能最好的。
或者可以通过Netflix Prize 和Middle Earth 使用某种集合的方法组合多个分类器。
机器学习常用的分类算法主要有一下几种:
1.线性分类器:线性判别分析(LDA),逻辑回归(logistic regression):优先,朴素贝叶斯分类器(naive bayes classifier),感知器(perceptron)
2.支持向量机(support vector machine):最小二乘支持向量机(least squares support vector machines )
3.二次分类器(quadratic classifier)
4.核估计(kernel estimation):最近邻居法(k-nearest neighbor)
5.Boosting(增强)算法:梯度增强(Gradient Boosting),自适应增强(Adaboost)
6.决策树(decision trees):随机森林(random forests)
7。神经网络(neural networks)
8.学习式向量量化(learning vector quantization)
9.bagging 装袋
10.ANN 人工神经网络
一般分类效果:boosting>bagging>single classifier
先用如逻辑回归一样简单的办法设定一个基准,然后再到决策树(特别是随机森林),再到GBDT(xgboost),再然后的深度学习