ROC曲线
二值分类器是机器学习中最常见的分类器。评价的指标也有很多,precision,recall,F1 score等等。ROC曲线也是之一。 ROC,Receiver Operating Characteristic Curve,受试者工作特征曲线。 ROC曲线的横坐标为假阳性率(False Positive Rate,FPR),纵坐标为真阳性率(True Positive Rate,TPR)。
P是真实的正样本数量,N是真实的负样本数量,TP是P个真样本中被分类器预测为正样本的个数,FP是N个负样本中被分类器预测为正样本的个数。
AUC
AUC是ROC曲线下的面积大小,该值可以衡量反应基于ROC曲线衡量出的模型性能。
余弦距离
余弦相似度的范围为[-1,1]。相同的两个向量相似度为1。1减去余弦相似度即是余弦距离,因此余弦距离的取值是[0,2],相同的两个余弦距离为0。 对于两个向量A和B,其余弦相似度定义
即两个向量夹角的余弦,关注两个向量之间的角度关系。取值范围[-1,1]。 比如一对文本相似度的长度差距很大,但是表达的内容差不多,那么在空间中的欧式距离就会很大,但是余弦相似度却可能很小。 比如在Word2Vec中,其向量的长度经过归一化,那么欧式距离和余弦距离关系单调。
模型评估方法
Holdout检验
交叉检验
留一验证
自助法
不管是Holdout还是交叉验证,如果数据集本身较小,对数据集再次划分使规模减少,影响模型的训练。 自助法不同,对于总数为n的样本集合,进行n次有放回的随机抽样,得到大小为n的训练集,n次采样中,即是被重复采样,没被采集都没有关系。最后把抽到的作为训练集,没抽到的作为验证集。