评价指标之Micro-F1与Macro-F1

每天给你送来NLP技术干货！

来源：https://zhuanlan.zhihu.com/p/274568639

作者：懒杰一点也不懒

编辑：AI算法小喵

1. Precision和Recall

TP、FP、TN、FN等统计指标可用于计算Precision（精确率）和 Recall（召回率）及Accuracy（准确率）。

Precison（精确率）即在被判定为正的样本中，实际上为正的样本所占的比例：

换句话说，Precision指标用于衡量的是：在预测出来为正的样本中，有多少是被正确预测的。

Recall（召回率）即原本为正的样本中被被判定为正的样本所占的比例。

与Precision计算不同，计算Precision时分母表示预测为正的样本数，而计算Recall时分母为原来样本中所有的正样本数。

换句话说，Recall指标用于衡量的是：在实际为正的样本中，有多少被正确预测出来。

Accurary（准确率）即在所有样本中分类结果正确的样本所占的比例：

F1值可根据Precision和Recall计算，Micro-F1（微观F1）和Macro-F1（宏观F1）都是F1值合并后的结果，主要用于多分类任务的评价。

F1-Score（F1分数或F1-Measure）是分类任务的一个衡量指标，用于权衡Precision和Recall。换句话说，F1-Score是精确率和召回率的调和平均数：

假设第类预测正确的总个数为，预测错误的总个数为，实际为该类却未被预测到的总个数为。先计算出所有类别的总的Precision和Recall：

然后利用F1计算公式计算出值即为Micro-F1值：

需要注意的是因为Micro-F1考虑了各类别的数量，所以更适用于数据分布不平衡的情况。但是在这种情况下，数量较多的类别对Micro-F1的影响会较大。

根据2.2节对、、的定义，第类的Precision和Recall为：

先对各类别的Precision和Recall求平均：

然后同样利用F1计算公式计算出来的值即为Macro-F1值：

需要注意的是因为Macro-F1是对各类别的Precision和Recall求平均，所以并没有考虑到各类别的样本数量。因此，在这种情况下Precision和Recall较高的类别对F1的影响会较大。

最近文章

EMNLP 2022 和 COLING 2022，投哪个会议比较好？

一种全新易用的基于Word-Word关系的NER统一模型

阿里北大 | 在梯度上做简单mask竟有如此的神奇效果

ACL'22 | 快手中科院提出一种数据增强方法：Text Smoothing

代码语言：javascript复制

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！  后台回复【五件套】
下载二：南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注呦

代码语言：javascript复制

整理不易，还望给个在看！

0 人点赞