今天给大家介绍的是德州农工大学Xuxi Chen等人在ICML2020上发表的一篇名为“Self-PU: Self Boosted and Calibrated Positive-Unlabeled Training”的文章。许多现实世界的应用领域必须解决Positive-Unlabeled (PU) learning问题,即从大量的无标记数据和少数有标记的正示例中训练一个二分类器。虽然目前最先进的方法采用了重要性重加权来设计各种风险估计器,但它们忽略了模型本身的学习能力,而这本来可以提供可靠的监督。这促使作者提出了一种新型的Self-PU learning框架,该框架将PU learning与self-training无缝结合。self- PU learning包含了三个self导向的模块:自适应地发现和增强确信的正/负例子的self-paced训练算法; self-calibrated实例感知损失;以及一个引入教师-学生学习作为PU学习有效正则化的self-distillation方案。作者在通用PU learning基准(MNIST和CIFAR-10)上展示了Self-PU的最先进性能,与最新的竞争对手相比具有优势。此外,还研究了PU学习在现实世界中的应用,即对阿尔茨海默病的脑图像进行分类。与现有方法相比,Self-PU在著名的阿尔茨海默病神经成像(ADNI)数据库上获得了显著改进的结果。
一、研究背景
对于二元分类器的标准监督学习,需要同时收集正类和负类进行训练。然而,在许多现实应用中,这并不总是现实的,因为在一些场景中,很难收集或注释某类数据。例如,在慢性病诊断中,虽然可以安全地认为一名确诊的病人是“阳性”的,但数量更大的“未确诊”个人,实际上与“阳性”(病人)和“阴性”(健康)的例子混杂在一起,因为人们可能正在经历这种疾病的潜伏期,或者可能只是没看过医生。粗略地给“未诊断”样本贴上负面标签将导致有偏见的分类器,这不可避免地低估了慢性疾病的风险。鉴于这些实际需求,正-无标记(PU)学习近年来得到了越来越多的研究,即从部分正样本中学习二分类器,再加上混合的未指定正样本和负样本的未标记样本池。由于这种弱监督,PU学习比标准监督或半监督分类问题更具挑战性。
过去的研究虽然取得了一些成功,但这些研究从未考虑过通过辅助或替代任务进行自我监督,这可能会提供另一种可靠的监督方式。这促使人们去探索模型本身的学习能力。在这里,作者提出了Self-PU学习框架利用了基于“self-boosts”思想的三个技巧:首先,作者设计了一种自适应训练策略,逐步选择未标记的例子并更新高可信度例子的信任集;其次作者用元学习的方式对不可信的例子进行详细的函数校准;最后,作者构建了一个教师与学生之间的协同自我监督模式,并将其一致性作为一种新的规则化来实施,以应对教学中监督薄弱的问题。
作者提出的Self-PU框架利用了模型本身的学习能力(图1)。首先设计了一个自步调的学习流程,从无标记数据中逐步选择并标记可信的例子用于监督学习。在此基础上,通过元学习对缺乏自信的例子校准损失函数。此外,在具有不同学习速度的对等网络之间引入了一致性损失,使其相互协作进行教学。
图1. Self-PU学习框架
二、方法
2.1 PU-learning
设
和
为输入和输出随机变量。在PU学习中,训练数据集
由一个正集
和一个无标记集
组成,其中
。
包含从
采样的
个正例
,
包含从
采样的
个未标记样本
。正负类的先验概率分别表示为
和
,其中假定
在全文中为已知。设
为二分类器,
为二分类器的参数,
为损失函数。分类器g的风险
可以近似为:
这被称为无偏的PU学习风险估计。由于该估计存在负数,在实际应用中的计算的损失可能为负数从而导致模型的过拟合,因此人们常用非负PU无偏估计(
)来代替:
2.2 自步(Self-Paced) PU学习
尽管无偏PU风险估计取得了成功,但它们仍然依赖于估计的类先验和未标记数据上的权重减小。如所示,在梯度下降过程中,深度神经网络不会倾向于同时记忆所有的训练数据,而倾向于首先记忆频繁或简单的模式,然后记忆不规则的模式。如果我们能首先找到简单的例子,并给它们贴上可信的标签,然后为训练过程增加这个标签池,那么除了PU风险估计的弱监督之外,我们可以随着训练而逐步增加可信度进行全监督。
给定模型g,输入例子
和对应的标号
,我们可以计算输出g(x),然后计算当
时
为正的概率,其中
是映射
的单调函数(如sigmoid函数)。p(x)越大表示x属于
预测的正类的可信度越高,反之亦然。通过每次把
降序排序,可以从当前的未标记数据池
中选择
个最可信的正样本和
个最可信的负样本。它们将从
中删除,并添加到可信子集
中,并视为标记的训练示例。
令
,
为分别为交叉熵损失和
估计的
损失则:
加上给定的正子集
,自步PU学习的综合损失表示为:
以前的工作要么只选择了可信度高的正例,要么仅选择了负例,而自步学习选择两者。由于使用交叉熵作为监督损失,一个优点是,正/负样本的可信集在每个采样步骤的大小上是平衡的,避免了因只递增采样一个类别而导致的极端类别不平衡的潜在陷阱。此外,之前的样本选择往往遵循预先确定的学习计划。相比之下,作者还通过动态采样、暂时性信任集、软标签等技巧为模型释放了更多的灵活性,使其自动地、自适应地调整自己的学习速度。
2.3 自校正(self-Calibrated)的损失再评估
仅在
上利用nnPU风险可能不是最优的,因为本集中的一些例子仍然可以提供有意义的监督。为了从这个嘈杂的集合中挖掘更多的监督,作者首次在PU学习领域引入了学习-重加权范式。令
为使用软标签技巧的交叉熵损失函数,自适应的将集合
中一批次的样本实例
的
和
相结合,即:
令n为小批次的尺寸,为了通过训练学习到一组最优参数
,作者通过执行杂化损失函数l对
的单步梯度下降来小幅度的更新模型g的每个小批次实例的参数
(即微扰),然后对小批次验证实例的
的交叉熵损失进行梯度下降,校正输出为非负。即:
其中
表示执行的步数,m表示验证集上包含明确的正负样本小批次的尺寸,
表示来自验证集的带有真实标签的样本。
是使用了更新的参数
的损失函数。
同时,由于软标签可能是不准确的,在
数据集上对交叉熵损失进行过分的加权对分类器并不是总有利的。因此引入了平衡因子
来限制交叉熵损失的总权值:
相关杂化损失为:
2.4 通过蒸馏方法使自监督一致化
为了探索更多的监督来源,作者使用了两种形式的自我监督一致性:在模型的不同学习节奏之间,以及沿着模型自己的移动平均轨迹。这两个目标是通过一个创新的蒸馏方案来实现的,这个方案有一对协作的学生模型和各自的教师模型。
2.4.1 通过一对学生策略实现不同学习步伐的一致性
两种不同步速训练的自步模型(即自步学习中的抽样比)之间的一致性使训练模型更能适应训练时的随机性所引起的扰动。为了形成这种自监督,作者同时训练了两个具有相同架构、相同
和
的网络。但是,它们被设置了不同的置信阈值,并且每次从
到
选择不同的数量,使得它们的学习速度不同步,从而产生两个不同的信任集
和
。由于两个学生对类别概率的估计可能不同,作者通过两个模型预测的均方误差(MSE)损失,迫使两个学生之间的一致性作为信息蒸馏的来源。
令这两个不同步调的网络分别为
和
,那么
,
在
和
上的MSE误差分别定义为:
之后,这对网络将成为两个学生模型进行蒸馏。作为自监督一致性损失的第一部分:
其中:
2.4.2 添加教师蒸馏增加移动平均权重的一致性
受到先前工作者的启发,除了两个学生之间的一致性,作者还启发了移动平均权重轨迹的一致。假设
和
由
和
参数化。作者为每个学生引入一个新的教师模型,
和
,并由
和
参数化,其结构与
和
相同。
的权值通过以下移动平均数更新:
表示
时刻
的实例,其他情况也类似。然后令
从
中提取MSE损失,即:
这构成了自监督一致性损失的第二部分。
综上所述,自监督学习对PU学习的好处主要体现在两个方面:1)扩大标记示例(
)为PU学习引入了更强的监督,并带来了较高的准确性;2)不同学生和教师模型之间的一致性损失引入了学习稳定性(低方差)。最后作者提出的Self-PU的综合损失函数为:
在所有的实验中,如图1所示,首先采用自步学习和自校准的损耗重加权,从第10个epoch到第50 epoch,然后进行自蒸馏,从第50 epoch到第200 epoch。这允许模型在被提炼之前学习足够有意义的信息。训练结束后,再比较两种教师模型的验证准确性,并选择表现较好的教师模型应用于测试集。
三、实验
3.1 数据集
为了评估Self-PU学习框架,作者在两个常用的PU学习测试平台上进行了实验:MNIST和CIFAR-10;额外加上ADNI(老年痴呆症诊断医学图像)数据集。数据集规模及分布如下表所示:
表1.基准数据集和模型的规范
3.2 实验结果
作者将提出的Self-PU的性能与几个流行的基线:无偏PU学习(uPU)比较。作者的Self-PU不仅实现了较高的精度(表2,表3),更重要的是实现了更稳定的PU学习过程(图2)。正如研究者们指出的,在复杂模型中uPU存在过拟合的问题。在使用nnPU风险估计进行PU学习时,作者也发现了类似的现象,验证精度在训练后期仍然不稳定,甚至下降。而Self-PU的训练过程明显比uPU和nnPU更稳定。
表2. MNIST和CIFAR-10数据集分类比较
表3. ADNI数据集上不同方法的分类精度
图2. 三种方法在CIFAR-10数据集上训练的验证准确性
四、总结
作者首次提出了Self-PU框架,将自训练策略与PU学习相结合。它利用自定的可信样本集和通过自蒸馏和自校准的一致性监督。实验报告了Self-PU在两个传统(潜在的过度简化)基准和作者引入的新的数据集上取得了最先进的性能。
参考文献
Xuxi Chen, Wuyang Chen, Tianlong Chen, Ye Yuan, Chen Gong, Kewei Chen, Zhangyang Wang,Self-PU:Self Boosted and Calibrated Positive-Unlabeled Training. CoRR abs/2006. 11280 (2020)