对于分类,怎么可以少了贝叶斯学派的理论。万事万物概率看,且看且成长的人生哲理屡试不爽。试想当有人问你某件事是否会发生的时候,你闪动睿智的炯炯目光,轻扇白羽扇,回答到:有百分之八十的概率发生。这格调是不是比直接回答会发生提升了一大截(强行加戏)。所以,本篇我们一起来学习一下贝叶斯分类器的基础,朴素贝叶斯分类器。
故事引入
贝叶斯分类器
朴素贝叶斯分类器
处理问题的步骤
处理技巧-平滑化
举个例子
模型进化-类别敏感问题
小结
分类模型综合比较
截至现在,我们已经介绍了四种常见的分类模型,包括朴素贝叶斯,逻辑回归,SVM和决策树,下面我们综合比较一下这些算法在实际应用中优缺点及选择顺序。首先对于两种相对容易实现的算法朴素贝叶斯和逻辑回归:朴素贝叶斯是生成模型,依赖属性独立性的假设和合适的先验假设;逻辑回归是线性判别模型,最小二乘法目标驱动。它们共同的优点是直接给出预测结果概率,但是毕竟是线性模型,所以实际中效果往往不是最优的。有文献研究结果表明在小样本上朴素贝叶斯表现更好,随着数据增多,特征维度增大,逻辑回归效果更好。如果两种模型都无法达到精度的要求,我们需要尝试更复杂的模型。
前文介绍SVM算法时,曾经给出逻辑回归和SVM一些异同点,SVM方法主要优势是非线性(适合高维数据)、稳健(对异常值不敏感)、自带正则项很少过拟合,但是数据量较大时计算资源消耗较大。对于另外一种非线性的算法决策树,无超参数生成决策树,快捷方便,虽然单棵决策树一般效果不如SVM,还容易过拟合,但是基于树的集成方法大大克服了这些困难,但同时计算复杂度也相应提升,好在一些集成方法较为适合并行或者在线学习。
综上所述,对于小样本数据集,一般先用朴素贝叶斯提供一个基准,如果效果已经达到满足程度即可,不满足建议直接使用SVM,因为它性能超棒,计算资源也允许;随着样本量增加,可使用逻辑回归作为基准,效果不满意时,顺序尝试决策树,SVM和基于树的集成方法;对于大样本,需要执行并行任务或者在线更新模型时,建议以逻辑回归作为基准,然后这时基于树的集成模型(例如随机森林)可发挥更好的效果。