每天给你送来NLP技术干货!
来源:https://zhuanlan.zhihu.com/p/274568639
作者:懒杰一点也不懒
编辑:AI算法小喵
1. Precision和Recall
名称 | 释义 |
---|---|
TP(True Positive) | 真阳性:预测为正,实际也为正 |
FP(False Positive) | 假阳性:预测为正,实际却为负 |
TN(True Negative) | 真阴性:预测为负,实际也为负 |
FN(False Negative) | 假阴性:预测为负,实际却为正 |
TP、FP、TN、FN等统计指标可用于计算Precision(精确率)和 Recall(召回率)及Accuracy(准确率)。
1.1 Precision(精确率)
Precison(精确率)即在被判定为正的样本中,实际上为正的样本所占的比例:
换句话说,Precision指标用于衡量的是:在预测出来为正的样本中,有多少是被正确预测的。
1.2 Recall(召回率)
Recall(召回率)即原本为正的样本中被被判定为正的样本所占的比例。
与Precision计算不同,计算Precision时分母表示预测为正的样本数,而计算Recall时分母为原来样本中所有的正样本数。
换句话说,Recall指标用于衡量的是:在实际为正的样本中,有多少被正确预测出来。
1.3 Accuracy(准确率)
Accurary(准确率)即在所有样本中分类结果正确的样本所占的比例:
2. Micro-F1 vs Macro-F1
2.1 F1 Score计算公式
F1值可根据Precision和Recall计算,Micro-F1(微观F1)和Macro-F1(宏观F1)都是F1值合并后的结果,主要用于多分类任务的评价。
F1-Score(F1分数或F1-Measure)是分类任务的一个衡量指标,用于权衡Precision和Recall。换句话说,F1-Score是精确率和召回率的调和平均数:
2.2 Micro-F1
假设第类预测正确的总个数为,预测错误的总个数为,实际为该类却未被预测到的总个数为。先计算出所有类别的总的Precision和Recall:
然后利用F1计算公式计算出值即为Micro-F1值:
需要注意的是因为Micro-F1考虑了各类别的数量,所以更适用于数据分布不平衡的情况。但是在这种情况下,数量较多的类别对Micro-F1的影响会较大。
2.3 Macro-F1
根据2.2节对、、的定义,第类的Precision和Recall为:
先对各类别的Precision和Recall求平均:
然后同样利用F1计算公式计算出来的值即为Macro-F1值:
需要注意的是因为Macro-F1是对各类别的Precision和Recall求平均,所以并没有考虑到各类别的样本数量。因此,在这种情况下Precision和Recall较高的类别对F1的影响会较大。
最近文章
EMNLP 2022 和 COLING 2022,投哪个会议比较好?
一种全新易用的基于Word-Word关系的NER统一模型
阿里 北大 | 在梯度上做简单mask竟有如此的神奇效果
ACL'22 | 快手 中科院提出一种数据增强方法:Text Smoothing
代码语言:javascript复制下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套! 后台回复【五件套】
下载二:南大模式识别PPT 后台回复【南大模式识别】
投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。
方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。
记得备注呦
代码语言:javascript复制整理不易,还望给个在看!