前面几讲我们基于数据分析师需要掌握的基本技能,从SQL出发,学习了统计学的基本知识,在系统层面基本讲完了数据分析师需要具备的能力。下面几讲,我们会围绕数据挖掘工程师需具备的知识体系展开,今天会着重介绍机器学习中模型评估与选择的基础知识。
01
数据集的划分
留一法、交叉验证、自助法
1.留一法(hold-out)
将训练集划分为互斥的两个集合,其中一个作为训练集,另一个作为测试集。(划分比例通常情况下是8:2 或7:3)
留出法(hold-out),即从数据集中分层采样(stratified sampling)出约30%的数据作为测试集。分层采样的目的是要保持数据分布的一致性,避免划分过程引入额外的偏差。
2.交叉验证(cross validation)
将训练集划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练数据集,剩余的那个子集作为测试集,这样可以获得k组训练测试集,从而进行k次训练和测试,最终返回的是这k个测试结果的均值。
3.自助法(bootstrapping)
“自助法”(bootstrapping)以自助采样(可重复采样、有放回采样)为基础。
假如一个数据集D有m个样本,看看训练集和测试集怎么选择:
训练集D':每次从数据集D中随机选择一个样本,将这个样本复制一个放到D'中,然后再把原样本放回去(可放回)。重复操作m次。这样D'中就有m个样本了。这种采样方法有可能一个样本会被选择好多次,也有可能有的样本一次也不会被选择到。
测试集D-D':测试集就是那些剩下的,没被选择的样本。
那么训练集D'和测试集D-D'中共有多少数据呢?
可以看出数据集中样本在m次始终不被采样到的概率是
,取极限得:
所以数据集D中有36.8%的样本未出现在训练集中。
优缺点:
数据集小、难以划分训练测试集
自助法能从初始数据集中产生多个不同的训练集,可以用于集成学习
自助法产生的训练集改变了初始数据集的分布,会引入估计偏差
02
模型评价指标
查准率、查全率、ROC
1.查准率、查全率与F1
A.查准率(precision):被认定为正例的里面,判断正确的比例。
B.查全率(recall):真实正例里,被判断出为正例的比例。
C.F1衡量查准率与查全率
真正例(true positive)、假正例(false positive)、真反例(true negative)、假反例(false negative),分别用TP、FP、TN、FN表示相应样例数,样例总数=TP FP TN FN;
分类结果混淆矩阵:真实情况预测结果正例反例正例TP(真正例)FN(假反例)反例FP(假正例)TN(真反例)
查准率和查全率是一对矛盾的度量.一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低,可以通过P-R曲线来取两者的平衡值
若一个学习器P-R曲线被另一个学习器的曲线完全"包住",则可断言后者的性能优于前者,例如图中学习器A 的性能优于学习器C; 如果两个学习器的P-R 曲线发生了交叉7,例如图中的A 与B ,则难以一般性地断言两者孰优孰劣,只能在具体的查准率或查全率条件下进行比较然而,在很多情形下,人们往往仍希望把学习器A 与B 比出个高低. 这时一个比较合理的判据是比较P-R 曲线节面积的大小。
"平衡点"是"查准率=查全率"时的取值。
但更常用的使用F1来衡量查准率与查全率;
F1基于查准率与查全率的调和平均:
sum为样例总数,具体应用中可能对P和R有不同的倚重。
比如商品推荐中,为了尽可能少打扰用户,更希望推荐内容确是用户感兴趣的,这时候查准率更重要。而在逃犯检索系统中,更希望尽可能少漏掉逃犯,此时查全率更重要。
F1度量的一般形式Fβ(加权调和平均)就可以表达这种偏好。
即 ß = 1时退化为标准的F1,当β>1意味着P占比重更大,反之则是R。
2.准确率和错误率
这一般是分类器采用的指标。而且不但二分类可以用,也可以扩充到多分类的情况。
准确率=准确分类个数/总体=TP TN/TP TN FN FP
错误率=错误分类个数/总体=FN FP/TP TN FN FP
3.ROC与AUC
ROC曲线:接收者操作特征曲线(receiver operating characteristic curve),是反映敏感性和特异性连续变量的综合指标,roc曲线上每个点反映着对同一信号刺激的感受性。
对于分类器或者说分类算法,评价指标主要有precision,recall,F1 score等,以及这里要讨论的ROC和AUC。下图是一个ROC曲线的示例:
- 横坐标(特异性):1-Specificity,假正率(False positive rate, FPR),真实负例里,被判断出为正例的比例。;
- 纵坐标(敏感性):Sensitivity,真正率(True positive rate, TPR),真实正例里,被判断出为正例的比例。
在一个二分类模型中,假设采用逻辑回归分类器,其给出针对每个实例为正类的概率,那么通过设定一个阈值如0.6,概率大于等于0.6的为正类,小于0.6的为负类。对应的就可以算出一组(FPR,TPR),在平面中得到对应坐标点。随着阈值的逐渐减小,越来越多的实例被划分为正类,但是这些正类中同样也掺杂着真正的负实例,即TPR和FPR会同时增大。阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1)。
如下面这幅图,(a)图中实线为ROC曲线,线上每个点对应一个阈值。
(a) 理想情况下,TPR应该接近1,FPR应该接近0。ROC曲线上的每一个点对应于一个threshold,对于一个分类器,每个threshold下会有一个TPR和FPR。比如Threshold最大时,TP=FP=0,对应于原点;Threshold最小时,TN=FN=0,对应于右上角的点(1,1)。
(b) P和N得分不作为特征间距离d的一个函数,随着阈值theta增加,TP和FP都增加。
- 横轴FPR:1-TNR,1-Specificity,FPR越大,预测正类中实际负类越多。
- 纵轴TPR:Sensitivity(正类覆盖率),TPR越大,预测正类中实际正类越多。
- 理想目标:TPR=1,FPR=0,即图中(0,1)点,故ROC曲线越靠拢(0,1)点,越偏离45度对角线越好,Sensitivity、Specificity越大效果越好。
随着阈值threshold调整,ROC坐标系里的点如何移动可以参考:
如何画ROC曲线
对于一个特定的分类器和测试数据集,显然只能得到一个分类结果,即一组FPR和TPR结果,而要得到一个曲线,我们实际上需要一系列FPR和TPR的值,这又是如何得到的呢?我们先来看一下Wikipedia上对ROC曲线的定义:
In signal detection theory, a receiver operating characteristic (ROC), or simply ROC curve, is a graphical plot which illustrates the performance of a binary classifier system as its discrimination threshold is varied.
问题在于“as its discrimination threashold is varied”。如何理解这里的“discrimination threashold”呢?我们忽略了分类器的一个重要功能“概率输出”,即表示分类器认为某个样本具有多大的概率属于正样本(或负样本)。通过更深入地了解各个分类器的内部机理,我们总能想办法得到一种概率输出。通常来说,是将一个实数范围通过某个变换映射到(0,1)区间。
假如我们已经得到了所有样本的概率输出(属于正样本的概率),现在的问题是如何改变“discrimination threashold”?我们根据每个测试样本属于正样本的概率值从大到小排序。下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率。
接下来,我们从高到低,依次将“Score”值作为阈值threshold,当测试样本属于正样本的概率大于或等于这个threshold时,我们认为它为正样本,否则为负样本。举例来说,对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。每次选取一个不同的threshold,我们就可以得到一组FPR和TPR,即ROC曲线上的一点。这样一来,我们一共得到了20组FPR和TPR的值,将它们画在ROC曲线的结果如下图:
当我们将threshold设置为1和0时,分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来,就得到了ROC曲线。当threshold取值越多,ROC曲线越平滑。
其实,我们并不一定要得到每个测试样本是正样本的概率值,只要得到这个分类器对该测试样本的“评分值”即可(评分值并不一定在(0,1)区间)。评分越高,表示分类器越肯定地认为这个测试样本是正样本,而且同时使用各个评分值作为threshold。我认为将评分值转化为概率更易于理解一些。
AUC
AUC值的计算
AUC (Area Under Curve) 被定义为ROC曲线下的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围一般在0.5和1之间。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。
AUC的计算有两种方式,梯形法和ROC AUCH法,都是以逼近法求近似值,具体见wikipedia。
AUC意味着什么
那么AUC值的含义是什么呢?根据(Fawcett, 2006),AUC的值的含义是:
The AUC value is equivalent to the probability that a randomly chosen positive example is ranked higher than a randomly chosen negative example.
这句话有些绕,我尝试解释一下:首先AUC值是一个概率值,当你随机挑选一个正样本以及一个负样本,当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值。当然,AUC值越大,当前的分类算法越有可能将正样本排在负样本前面,即能够更好的分类。
从AUC判断分类器(预测模型)优劣的标准:
- AUC = 1,是完美分类器,采用这个预测模型时,存在至少一个阈值能得出完美预测。绝大多数预测的场合,不存在完美分类器。
- 0.5 < AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。
- AUC = 0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。
- AUC < 0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。
三种AUC值示例:
简单说:AUC值越大的分类器,正确率越高。
为什么使用ROC曲线
既然已经这么多评价标准,为什么还要使用ROC和AUC呢?因为ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象,即负样本比正样本多很多(或者相反),而且测试数据中的正负样本的分布也可能随着时间变化。下图是ROC曲线和Precision-Recall曲线的对比:
在上图中,(a)和(c)为ROC曲线,(b)和(d)为Precision-Recall曲线。(a)和(b)展示的是分类其在原始测试集(正负样本分布平衡)的结果,(c)和(d)是将测试集中负样本的数量增加到原来的10倍后,分类器的结果。可以明显的看出,ROC曲线基本保持原貌,而Precision-Recall曲线则变化较大。
参考链接
01
[探索者v]的《【机器学习】分类性能度量指标 : ROC曲线、AUC值、正确率、召回率、敏感度、特异度》blog.csdn.net/tanzuozhe
02
周志华《机器学习》