ICML2020 | Self-PU learning：把三个自监督技巧扔进PU learning

今天给大家介绍的是德州农工大学Xuxi Chen等人在ICML2020上发表的一篇名为“Self-PU: Self Boosted and Calibrated Positive-Unlabeled Training”的文章。许多现实世界的应用领域必须解决Positive-Unlabeled (PU) learning问题，即从大量的无标记数据和少数有标记的正示例中训练一个二分类器。虽然目前最先进的方法采用了重要性重加权来设计各种风险估计器，但它们忽略了模型本身的学习能力，而这本来可以提供可靠的监督。这促使作者提出了一种新型的Self-PU learning框架，该框架将PU learning与self-training无缝结合。self- PU learning包含了三个self导向的模块:自适应地发现和增强确信的正/负例子的self-paced训练算法; self-calibrated实例感知损失;以及一个引入教师-学生学习作为PU学习有效正则化的self-distillation方案。作者在通用PU learning基准(MNIST和CIFAR-10)上展示了Self-PU的最先进性能，与最新的竞争对手相比具有优势。此外，还研究了PU学习在现实世界中的应用，即对阿尔茨海默病的脑图像进行分类。与现有方法相比，Self-PU在著名的阿尔茨海默病神经成像(ADNI)数据库上获得了显著改进的结果。

一、研究背景

对于二元分类器的标准监督学习，需要同时收集正类和负类进行训练。然而，在许多现实应用中，这并不总是现实的，因为在一些场景中，很难收集或注释某类数据。例如，在慢性病诊断中，虽然可以安全地认为一名确诊的病人是“阳性”的，但数量更大的“未确诊”个人，实际上与“阳性”(病人)和“阴性”(健康)的例子混杂在一起，因为人们可能正在经历这种疾病的潜伏期，或者可能只是没看过医生。粗略地给“未诊断”样本贴上负面标签将导致有偏见的分类器，这不可避免地低估了慢性疾病的风险。鉴于这些实际需求，正-无标记(PU)学习近年来得到了越来越多的研究，即从部分正样本中学习二分类器，再加上混合的未指定正样本和负样本的未标记样本池。由于这种弱监督，PU学习比标准监督或半监督分类问题更具挑战性。

过去的研究虽然取得了一些成功，但这些研究从未考虑过通过辅助或替代任务进行自我监督，这可能会提供另一种可靠的监督方式。这促使人们去探索模型本身的学习能力。在这里，作者提出了Self-PU学习框架利用了基于“self-boosts”思想的三个技巧：首先，作者设计了一种自适应训练策略，逐步选择未标记的例子并更新高可信度例子的信任集;其次作者用元学习的方式对不可信的例子进行详细的函数校准;最后，作者构建了一个教师与学生之间的协同自我监督模式，并将其一致性作为一种新的规则化来实施，以应对教学中监督薄弱的问题。

作者提出的Self-PU框架利用了模型本身的学习能力(图1)。首先设计了一个自步调的学习流程，从无标记数据中逐步选择并标记可信的例子用于监督学习。在此基础上，通过元学习对缺乏自信的例子校准损失函数。此外，在具有不同学习速度的对等网络之间引入了一致性损失，使其相互协作进行教学。

图1. Self-PU学习框架

二、方法

2.1 PU-learning

设

和

为输入和输出随机变量。在PU学习中，训练数据集

由一个正集

和一个无标记集

组成，其中

。

包含从

采样的

个正例

，

包含从

采样的

个未标记样本

。正负类的先验概率分别表示为

和

，其中假定

在全文中为已知。设

为二分类器，

为二分类器的参数，

为损失函数。分类器g的风险

可以近似为：

这被称为无偏的PU学习风险估计。由于该估计存在负数，在实际应用中的计算的损失可能为负数从而导致模型的过拟合，因此人们常用非负PU无偏估计(

)来代替：

2.2 自步(Self-Paced) PU学习

尽管无偏PU风险估计取得了成功，但它们仍然依赖于估计的类先验和未标记数据上的权重减小。如所示，在梯度下降过程中，深度神经网络不会倾向于同时记忆所有的训练数据，而倾向于首先记忆频繁或简单的模式，然后记忆不规则的模式。如果我们能首先找到简单的例子，并给它们贴上可信的标签，然后为训练过程增加这个标签池，那么除了PU风险估计的弱监督之外，我们可以随着训练而逐步增加可信度进行全监督。

给定模型g，输入例子

和对应的标号

，我们可以计算输出g(x)，然后计算当

时

为正的概率，其中

是映射

的单调函数(如sigmoid函数)。p(x)越大表示x属于

预测的正类的可信度越高，反之亦然。通过每次把

降序排序，可以从当前的未标记数据池

中选择

个最可信的正样本和

个最可信的负样本。它们将从

中删除，并添加到可信子集

中，并视为标记的训练示例。

令

，

为分别为交叉熵损失和

估计的

损失则：

加上给定的正子集

，自步PU学习的综合损失表示为：

以前的工作要么只选择了可信度高的正例，要么仅选择了负例，而自步学习选择两者。由于使用交叉熵作为监督损失，一个优点是，正/负样本的可信集在每个采样步骤的大小上是平衡的，避免了因只递增采样一个类别而导致的极端类别不平衡的潜在陷阱。此外，之前的样本选择往往遵循预先确定的学习计划。相比之下，作者还通过动态采样、暂时性信任集、软标签等技巧为模型释放了更多的灵活性，使其自动地、自适应地调整自己的学习速度。

2.3 自校正(self-Calibrated)的损失再评估

仅在

上利用nnPU风险可能不是最优的，因为本集中的一些例子仍然可以提供有意义的监督。为了从这个嘈杂的集合中挖掘更多的监督，作者首次在PU学习领域引入了学习-重加权范式。令

为使用软标签技巧的交叉熵损失函数，自适应的将集合

中一批次的样本实例

的

和

相结合，即：

令n为小批次的尺寸，为了通过训练学习到一组最优参数

，作者通过执行杂化损失函数l对

的单步梯度下降来小幅度的更新模型g的每个小批次实例的参数

（即微扰），然后对小批次验证实例的

的交叉熵损失进行梯度下降，校正输出为非负。即：

其中

表示执行的步数，m表示验证集上包含明确的正负样本小批次的尺寸，

表示来自验证集的带有真实标签的样本。

是使用了更新的参数

的损失函数。

同时，由于软标签可能是不准确的，在

数据集上对交叉熵损失进行过分的加权对分类器并不是总有利的。因此引入了平衡因子

来限制交叉熵损失的总权值：

相关杂化损失为：

2.4 通过蒸馏方法使自监督一致化

为了探索更多的监督来源，作者使用了两种形式的自我监督一致性:在模型的不同学习节奏之间，以及沿着模型自己的移动平均轨迹。这两个目标是通过一个创新的蒸馏方案来实现的，这个方案有一对协作的学生模型和各自的教师模型。

2.4.1 通过一对学生策略实现不同学习步伐的一致性

两种不同步速训练的自步模型(即自步学习中的抽样比)之间的一致性使训练模型更能适应训练时的随机性所引起的扰动。为了形成这种自监督，作者同时训练了两个具有相同架构、相同

和

的网络。但是，它们被设置了不同的置信阈值，并且每次从

到

选择不同的数量，使得它们的学习速度不同步，从而产生两个不同的信任集

和

。由于两个学生对类别概率的估计可能不同，作者通过两个模型预测的均方误差(MSE)损失，迫使两个学生之间的一致性作为信息蒸馏的来源。

令这两个不同步调的网络分别为

和

，那么

在

和

上的MSE误差分别定义为：

之后，这对网络将成为两个学生模型进行蒸馏。作为自监督一致性损失的第一部分:

其中：

2.4.2 添加教师蒸馏增加移动平均权重的一致性

受到先前工作者的启发，除了两个学生之间的一致性，作者还启发了移动平均权重轨迹的一致。假设

和

由

和

参数化。作者为每个学生引入一个新的教师模型，

和

，并由

和

参数化，其结构与

和

相同。

的权值通过以下移动平均数更新：

表示

时刻

的实例，其他情况也类似。然后令

从

中提取MSE损失，即：

这构成了自监督一致性损失的第二部分。

综上所述，自监督学习对PU学习的好处主要体现在两个方面:1)扩大标记示例(

)为PU学习引入了更强的监督，并带来了较高的准确性;2)不同学生和教师模型之间的一致性损失引入了学习稳定性(低方差)。最后作者提出的Self-PU的综合损失函数为：

在所有的实验中，如图1所示，首先采用自步学习和自校准的损耗重加权，从第10个epoch到第50 epoch，然后进行自蒸馏，从第50 epoch到第200 epoch。这允许模型在被提炼之前学习足够有意义的信息。训练结束后，再比较两种教师模型的验证准确性，并选择表现较好的教师模型应用于测试集。

三、实验

3.1 数据集

为了评估Self-PU学习框架，作者在两个常用的PU学习测试平台上进行了实验:MNIST和CIFAR-10;额外加上ADNI(老年痴呆症诊断医学图像)数据集。数据集规模及分布如下表所示：

表1.基准数据集和模型的规范

3.2 实验结果

作者将提出的Self-PU的性能与几个流行的基线:无偏PU学习(uPU)比较。作者的Self-PU不仅实现了较高的精度(表2，表3)，更重要的是实现了更稳定的PU学习过程(图2)。正如研究者们指出的，在复杂模型中uPU存在过拟合的问题。在使用nnPU风险估计进行PU学习时，作者也发现了类似的现象，验证精度在训练后期仍然不稳定，甚至下降。而Self-PU的训练过程明显比uPU和nnPU更稳定。

表2. MNIST和CIFAR-10数据集分类比较

表3. ADNI数据集上不同方法的分类精度

图2. 三种方法在CIFAR-10数据集上训练的验证准确性

四、总结

作者首次提出了Self-PU框架，将自训练策略与PU学习相结合。它利用自定的可信样本集和通过自蒸馏和自校准的一致性监督。实验报告了Self-PU在两个传统(潜在的过度简化)基准和作者引入的新的数据集上取得了最先进的性能。

参考文献

Xuxi Chen, Wuyang Chen, Tianlong Chen, Ye Yuan, Chen Gong, Kewei Chen, Zhangyang Wang,Self-PU:Self Boosted and Calibrated Positive-Unlabeled Training. CoRR abs/2006. 11280 (2020)

监督学习机器学习

0 人点赞