半监督辅助目标检测：自训练+数据增强提升精度（附源码下载）

计算机视觉研究院专栏

作者：Edison_G

近年来，半监督学习（SSL）受到越来越多的关注。在当没有大规模注释数据时，SSL提供了使用unlabel data来改善模型性能的方法。

公众号ID｜ComputerVisionGzq学习群｜扫码在主页获取加入方式

论文：

https://arxiv.org/pdf/2005.04757.pdf

简要

半监督学习 (SSL) 有可能提高使用未标记数据的机器学习模型的预测性能。尽管最近取得了显着进展，但SSL的演示范围主要是图像分类任务。

在今天分享中，有研究者提出了STAC，这是一种用于视觉目标检测的简单而有效的SSL框架以及数据增强策略。STAC从未标记的图像中部署本地化目标的高度可信的伪标签，并通过数据增强提升一致性来更新模型。

背景

引用《论文解读】【半监督学习】【Google教你水论文】A Simple Semi-Supervised Learning Framework for Object Detection》

https://www.lbyxlz.com/【论文解读】【半监督学习】【google教你水论文】a-simple-semi

主要介绍了一种半监督学习策略(包括模型数据增强方法)，开创性的在目标检测领域使用半监督学习，提出了STAC(自训练和一致正则化驱动的增强策略，简单来说就是用伪标签做自训练，训练中加入了一致正则化为原理的数据增强，很多小伙伴可能不理解什么是一致正则化？通俗点就是说图像和图像干扰应该在网络的输出结果是相同的，即抗噪声干扰的能力，也可以理解为鲁棒性，那么这个一致正则化很厉害吗？)半监督学习（Semi-supervised Learning）

半监督学习在训练阶段结合了大量未标记的数据和少量标签数据。与使用所有标签数据的模型相比，使用训练集的训练模型在训练时可以更为准确，而且训练成本更低。

为什么使用未标记数据有时可以帮助模型更准确，关于这一点的体会就是：即使你不知道答案，但你也可以通过学习来知晓，有关可能的值是多少以及特定值出现的频率。

新框架

STAC流程：

用已有的标签图像训练一个教师模型(teacher model)用来生成伪标签(有点知识蒸馏那味了，这个模型是Faster-RCNN)。
用训练好的模型推理剩余的未标注的图像，生成伪标签。
对未标注的数据进行增强，同步伪标签（图像旋转的时候也要将标签的坐标同步呀，不然不都错位了吗）。
使用半监督Loss来训练检测器

训练教师模型

研究者在Faster RCNN上进行我们的实验，因为它已成为最具代表性的检测框架之一。Faster RCNN具有分类器（CLS）和区域提议网络（RPN）在共享骨干网之上。每个Head有两个模块，分别是区域分类器和边界框回归器。为简化起见，研究者提出监督和无监督的RPN的损失。监督损失的写法如下：

生成伪标签执行教师模型检测器生成伪标签。伪标记的生成不仅涉及主干网络，RPN和CLS网络的前向，而且还涉及诸如非极大抑制（NMS）之类的后处理。这不同于传统的分类方法，置信度分数是根据原始预测概率计算得出的。研究者使用NMS之后每个返回的边界框的分数，该分数汇总anchor框的预测概率。NMS能消除重复检测框，但是不会过滤掉位置错误的框。数据增强策略

consistency-based SSL方法（例如UDA [58]或FixMatch [49]）的关键因素是强大的数据增强。而有监督和半监督的扩充策略在图像分类领域已被广泛研究，没有太多论文对物体检测进行研究。我们使用最近提出的RandAugment以及Cutout [10]，如下：

基于一致性的SSL方法（例如UDA和FixMatch）成功的关键因素是强大的数据增强方法。虽然监督和半监督图像分类的增强策略已被广泛研究，但尚未为目标检测做出太多努力。研究者使用最近提出的增强搜索空间（例如，框级变换）和Cutout扩展了用于目标检测的RandAugment。研究者探索了转换操作的不同变体并确定了一组有效的组合。每个操作都有一个大小，决定了强度的增强程度。

实验及可视化

尽管SSL取得显著进展，但SSL方法主要应用于图像分类，今天分享的框架提出了一个简单而有效的SSL检测框架——STAC。STAC从一个未标记的图像得到highly confident的伪标签，并通过strong data augmentations确保一致性来更新模型。

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

扫码关注

计算机视觉研究院

公众号ID｜ComputerVisionGzq

学习群｜扫码在主页获取加入方式

源代码｜关注回复“STAC”获取

往期推荐

SSL证书 https 监督学习图像识别图像处理

0 人点赞

上一篇：分享雷军22年前编写的代码