ICCV 2019 | 半监督损失函数，利用无标签数据优化人脸识别模型

论文发表于ICCV 2019

作者 | 爱奇艺技术产品团队

编辑 | 唐里

论文标题：Unknown Identity Rejection Loss: Utilizing Unlabeled Data for Face Recognition

论文链接：https://arxiv.org/abs/1910.10896v1

目前，人脸识别技术已经应用到爱奇艺多个产品中，如“AI雷达”和“只看TA”。 “AI雷达”分析当前视频画面中出现的人物，“只看TA”分析整个视频中人物出现的所有场景片段。这两个产品底层都依赖人脸识别技术。

训练一个高性能的人脸识别模型，采用监督学习的方式，需要大量的带标签的人脸数据，通常数据量越大，训练的模型性能越好；人物越多，识别性能越好。目前公开库中较大的人脸数据集MS-Celeb-1M包括约10万个人物的1000万张图片；iQIYI-VID包括约1万个人物的64万个视频片段，其中iQIYI-VID-FACE包含约1万个人物600万张人脸图像。

然而，获取某个人的多张图片是比较困难的，需要人工标注。这在一定程度上阻碍了模型性能的提升。同时，人脸识别是个open-set问题，有标签数据中的几万个人物只是地球上几十亿人的极小一部分，训练出来的模型泛化能力可能不足。

为了解决上述问题，我们提出用无标签数据优化人脸识别模型。区别于其他半监督学习方法，我们的方法对无标签数据没有过多限制，只需基本保证这人不出现在有标签数据中。无标签数据的加入，可以轻易扩大训练人物数量，提升模型泛化能力。

UIR Loss

为了利用无标签数据，我们设计了半监督损失函数，Unknown Identity Rejection（UIR）Loss。人脸识别是open-set问题，将开放环境中的人物类别分为两类：有标签类（S）和无标签类（U），S ∩ U= ∅。训练过程中，对于有标签类，每个样本特征需要逼近分类层对应类别的类心向量；对于无标签类，它不属于分类层的任何一个类，模型需要“拒绝”它们，即特征与每个分类层类心距离都足够远。如下图（a），W1 和 W2 表示两个分类层类心向量，圆点表示样本特征。图（b）中，加入无标签类Wu后，为了Wu距离W1、W2足够远，会使得有标签类别在特征空间上更稀疏，类间距离更大。