机器学习day4

2020-06-04 15:57:32 浏览数 (3)

ROC曲线

二值分类器是机器学习中最常见的分类器。评价的指标也有很多,precision,recall,F1 score等等。ROC曲线也是之一。 ROC,Receiver Operating Characteristic Curve,受试者工作特征曲线。 ROC曲线的横坐标为假阳性率(False Positive Rate,FPR),纵坐标为真阳性率(True Positive Rate,TPR)。

P是真实的正样本数量,N是真实的负样本数量,TP是P个真样本中被分类器预测为正样本的个数,FP是N个负样本中被分类器预测为正样本的个数。

AUC

AUC是ROC曲线下的面积大小,该值可以衡量反应基于ROC曲线衡量出的模型性能。

余弦距离

余弦相似度的范围为[-1,1]。相同的两个向量相似度为1。1减去余弦相似度即是余弦距离,因此余弦距离的取值是[0,2],相同的两个余弦距离为0。 对于两个向量A和B,其余弦相似度定义

即两个向量夹角的余弦,关注两个向量之间的角度关系。取值范围[-1,1]。 比如一对文本相似度的长度差距很大,但是表达的内容差不多,那么在空间中的欧式距离就会很大,但是余弦相似度却可能很小。 比如在Word2Vec中,其向量的长度经过归一化,那么欧式距离和余弦距离关系单调。

模型评估方法

Holdout检验

交叉检验

留一验证

自助法

不管是Holdout还是交叉验证,如果数据集本身较小,对数据集再次划分使规模减少,影响模型的训练。 自助法不同,对于总数为n的样本集合,进行n次有放回的随机抽样,得到大小为n的训练集,n次采样中,即是被重复采样,没被采集都没有关系。最后把抽到的作为训练集,没抽到的作为验证集。

自助法中,如果n无穷大,那么最终会有多少数据没被采集?

0 人点赞