评价指标之Micro-F1与Macro-F1

2022-06-27 14:20:14 浏览数 (1)

每天给你送来NLP技术干货!


来源:https://zhuanlan.zhihu.com/p/274568639

作者:懒杰一点也不懒

编辑:AI算法小喵

1. Precision和Recall

名称

释义

TP(True Positive)

真阳性:预测为正,实际也为正

FP(False Positive)

假阳性:预测为正,实际却为负

TN(True Negative)

真阴性:预测为负,实际也为负

FN(False Negative)

假阴性:预测为负,实际却为正

TPFPTNFN等统计指标可用于计算Precision(精确率)和 Recall(召回率)及Accuracy(准确率)。

1.1 Precision(精确率)

Precison(精确率)即在被判定为正的样本中,实际上为正的样本所占的比例:

换句话说,Precision指标用于衡量的是:在预测出来为正的样本中,有多少是被正确预测的。

1.2 Recall(召回率)

Recall(召回率)即原本为正的样本中被被判定为正的样本所占的比例。

与Precision计算不同,计算Precision时分母表示预测为正的样本数,而计算Recall时分母为原来样本中所有的正样本数

换句话说,Recall指标用于衡量的是:在实际为正的样本中,有多少被正确预测出来。

1.3 Accuracy(准确率)

Accurary(准确率)即在所有样本中分类结果正确的样本所占的比例:

2. Micro-F1 vs Macro-F1

2.1 F1 Score计算公式

F1值可根据PrecisionRecall计算,Micro-F1(微观F1)和Macro-F1(宏观F1)都是F1值合并后的结果,主要用于多分类任务的评价。

F1-ScoreF1分数或F1-Measure)是分类任务的一个衡量指标,用于权衡PrecisionRecall。换句话说,F1-Score是精确率和召回率的调和平均数

2.2 Micro-F1

假设第类预测正确的总个数为,预测错误的总个数为,实际为该类却未被预测到的总个数为。先计算出所有类别的总的Precision和Recall

然后利用F1计算公式计算出值即为Micro-F1值:

需要注意的是因为Micro-F1考虑了各类别的数量,所以更适用于数据分布不平衡的情况。但是在这种情况下,数量较多的类别对Micro-F1的影响会较大

2.3 Macro-F1

根据2.2节对、、的定义,第类的Precision和Recall为:

先对各类别的Precision和Recall求平均

然后同样利用F1计算公式计算出来的值即为Macro-F1值:

需要注意的是因为Macro-F1是对各类别的Precision和Recall求平均,所以并没有考虑到各类别的样本数量。因此,在这种情况下Precision和Recall较高的类别对F1的影响会较大


最近文章

EMNLP 2022 和 COLING 2022,投哪个会议比较好?

一种全新易用的基于Word-Word关系的NER统一模型

阿里 北大 | 在梯度上做简单mask竟有如此的神奇效果

ACL'22 | 快手 中科院提出一种数据增强方法:Text Smoothing


代码语言:javascript复制
下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!  后台回复【五件套】
下载二:南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

代码语言:javascript复制
整理不易,还望给个在看!

0 人点赞