不平衡之钥: 重采样法何其多

2022-08-02 14:15:42 浏览数 (3)

在《不平衡问题: 深度神经网络训练之殇》一文中,笔者已对缓解不平衡问题的方法进行梳理。限于篇幅原因,介绍比较笼统。事实上,针对重采样方法有很多研究,包括类别平衡重采样和Scheme-oriented sampling。

NO.1概述

重采样法是解决不平衡问题的主要方法之一,很多人的理解可能停留在对头部类别进行欠采样,对尾部类别进行过采样。具体来说,重采样分为随机过采样 (ROS, random over-sampling)和随机欠采样 (RUS, random under-sampling),广泛应用于类别不平衡问题中。ROS 随机重复尾部类的样本,而 RUS 随机丢弃头部类的样本,以使类别平衡。然而,当类别极度不平衡时,ROS 倾向于过度拟合尾部类,而 RUS 倾向于降低头部类的性能。

事实上,针对重采样方法有很多研究,包括类别平衡重采样和Scheme-oriented sampling。

NO.2类别平衡重采样

2.1 Decoupling representation and classifier

现有的不平衡问题解决方案通常采用类别平衡策略,例如通过损失重加权、数据重采样或从头部类到尾部类的迁移学习,但它们中的大多数都遵循联合学习特征表示和分类器的方案。在这项工作中[2],作者首先对不平衡识别中的各种采样策略进行了实证研究,采样策略包括实例平衡采样、类别平衡采样、平方根采样和渐进平衡采样,实例平衡采样是每个样本被采样的概率相等,类别平衡采样是每个类别被采样的概率相等;平方根采样是实例平衡采样的一种变体,其中每个类别的采样概率与相应类别中样本大小的平方根有关;渐进平衡采样在实例平衡采样和类别平衡采样之间进行渐进插值。然后,作者将学习过程解耦为表示学习和分类两阶段,并系统地探索在不平衡问题中,不同的平衡策略如何影响这两个阶段。研究结果令人惊讶:(1)数据不平衡可能不是学习高质量表示的问题;(2) 使用最简单的实例平衡(自然)采样学习到的特种表示,也可以通过仅调整分类器来实现强大的不平衡识别能力。

2.2 SimCal

论文[3]系统地研究了最先进的两阶段实例分割模型 Mask R-CNN 在最近的长尾 LVIS 数据集上的性能下降,并揭示了一个主要原因是没有将对象提议 (object proposals)准确分类。基于这样的观察,作者首先考虑各种提高不平衡分类性能的技术,这些技术确实增强了实例分割结果;然后提出了一个简单的校准框架 (Simple Calibration, SimCal),一种新的双层类平衡采样策略。具体来说,双层采样策略结合了图像级重采样和实例级重采样,以缓解实例分割中的类别不平衡。

2.3 DCL

动态课程学习(Dynamic curriculum learning, DCL)[4]开发了一种新的课程策略来动态采样数据以进行类别再平衡。具体来说,随着训练的进行,从一个类中采样的实例越多,该类的采样概率就越低。按照这个思路,DCL首先进行随机抽样来学习通用表示,然后根据课程策略采样更多的尾类实例来处理类别不平衡。

2.4 Balanced meta-softmax

Balanced meta-softmax [5] 开发了一种基于元学习的采样方法来估计不平衡学习中不同类别的最佳采样率。具体来说,所提出的元学习方法是一种双层优化策略,通过在平衡的元验证集(meta validation set)上优化模型分类性能来学习最佳样本分布参数。

2.5 FASA

特征增强和采样适应(Feature augmentation and sampling adaptation, FASA)[6]提出使用平衡元验证集(作为度量)上的模型分类损失来调整不同类别的特征采样率,从而可以对代表性不足的尾类进行更多采样.

2.6 LOCE

具有分类平衡(LOCE)的不平衡目标检测器(LOCE)[7]提出使用平均分类预测分数(即运行预测概率)来监控不同类别的模型训练,并指导记忆增强特征采样以增强尾类性能。

2.7 VideoLT

VideoLT [8] 试图解决不平衡视频识别问题,引入了一种新的 FrameStack 方法,该方法进行帧级采样以重新平衡类分布。具体来说,FrameStack 在训练时会根据运行模型的性能动态调整不同类的采样率,使其可以从尾部类(通常运行性能较低)中采样更多的视频帧,从头类中采样更少的帧。

NO.3

Scheme-oriented sampling

Scheme-oriented sampling试图为长尾学习提供一些特定的学习方案,如度量学习和集成学习。

3.1 LMLE

Large margin local embedding (LMLE)[9]使用了一种新的五元组采样方案 (quintuplet sampling scheme),以学习保持inter-cluster和inter-class margin的高质量特征。不同于采用两个对比pair的三元组损失 (triplet loss),LMLE提出了一个五元组采样器来采样四个对比pair,包括一个正样本对和三个负样本对,并鼓励采样的五元组遵循特定的距离顺序。正样本对由锚点和距离锚点最远的簇内样本组成,前两个负样本对来自同一类别内距离最近和最远的两个簇间样本,第三个负样本对来自距离最近的类间样本。这样,学习到的表示不仅类内间距较小,而且类间间距较大。此外,五元组损失中的每个数据批次包含来自不同类别的相同数量的样本,用于类别重平衡。

(综述中LMLE描述有问题,根据原文进行修正;这里我有点好奇,为什么不称为三个正样本对,一个负样本对)

3.2 PRS

Partitioning reservoir sampling (PRS) [10]提出了一种基于重放的采样方法来处理持续的长尾学习。一个关键挑战是回放记忆无法考虑类别不平衡的问题,因为没有关于未来输入的信息可用。为了解决这个问题,PRS 开发了一种在线内存维护算法,可以动态维护来自不同类别的样本的运行统计信息。PRS 可以根据运行统计动态调整不同类的内存大小和采样输入/输出操作的方案。

3.3 BBN

双边分支网络(BBN)[11] 开发了两个网络分支(即传统学习分支和重新平衡分支),以基于新的双边采样策略处理类不平衡。具体来说,BBN 对常规分支应用均匀抽样来模拟原始的长尾训练分布;同时,BBN 对再平衡分支应用了一个反向采样器,以采样更多的尾类样本,以提高尾类性能。最终的预测是两个网络分支的加权和。之后,长尾多标签视觉识别(LTML)[12]扩展了双边分支网络以解决长尾多标签分类问题。几何结构转移(GIST)[13] 还探索了这种双边采样策略,用于从头到尾的知识转移。

3.4 BAGS

balanced group softmax (BAGS) [14] 提出根据每个类中的样本数量将类划分为几个平衡组,其中每个组具有相似数量的训练数据的类。在此之后,BAGS 使用不同的样本组来训练不同的分类头,以便它们对具有相似数量的训练数据的类执行 softmax 操作,从而避免由于不平衡而导致严重偏差的分类器。

3.5 LST

learning to segment the tail (LST) [15]还将训练样本分成几个平衡的子集,并基于类增量学习处理每个子集。为了解决类增量学习过程中的灾难性遗忘,LST 开发了一种类平衡的数据回复/采样策略,该策略为知识蒸馏保持相对平衡的样本集。

3.6 ACE

ally complementary experts (ACE) [16] 不是将样本划分为几个平衡的组,而是将样本划分为几个技能多样化的子集,其中一个子集包含所有类,一个包含中间类和尾部类,另一个只包含尾部类。基于这些子集,ACE 培训不同的专家,使其具备特定和互补的集成学习技能。

NO.4

参考资料

[1] 不平衡问题: 深度神经网络训练之殇

[2] B. Kang, S. Xie, M. Rohrbach, Z. Yan, A. Gordo, J. Feng, and Y. Kalantidis, “Decoupling representation and classifier for long-tailed recognition,” in International Conference on Learning Representations, 2020.

[3] T. Wang, Y. Li, B. Kang, J. Li, J. Liew, S. Tang, S. Hoi, and J. Feng, “The devil is in classification: A simple framework for long-tail instance segmentation,” in European Conference on Computer Vision, 2020.

[4] Y. Wang, W. Gan, J. Yang, W. Wu, and J. Yan, “Dynamic curriculum learning for imbalanced data classification,” in International Conference on Computer Vision, 2019, pp. 5017–5026.

[5] R. Jiawei, C. Yu, X. Ma, H. Zhao, S. Yi et al., “Balanced meta-softmax for long-tailed visual recognition,” in Advances in Neural Information Processing Systems, 2020.

[6] Y. Zang, C. Huang, and C. C. Loy, “Fasa: Feature augmentation and sampling adaptation for long-tailed instance segmentation,” in International Conference on Computer Vision, 2021.

[7] C. Feng, Y. Zhong, and W. Huang, “Exploring classification equilibrium in long-tailed object detection,” in International Conference on Computer Vision, 2021.

[8] X. Zhang, Z. Wu, Z. Weng, H. Fu, J. Chen, Y.-G. Jiang, and L. Davis, “Videolt: Large-scale long-tailed video recognition,” in International Conference on Computer Vision, 2021.

[9] C. Huang, Y. Li, C. C. Loy, and X. Tang, “Learning deep representation for imbalanced classification,” in Computer Vision and Pattern Recognition, 2016.

[10] C. D. Kim, J. Jeong, and G. Kim, “Imbalanced continual learning with partitioning reservoir sampling,” in European Conference on Computer Vision, 2020, pp. 411–428.

[11] B. Zhou, Q. Cui, X.-S. Wei, and Z.-M. Chen, “Bbn: Bilateral-branch network with cumulative learning for long-tailed visual recognition,” in Computer Vision and Pattern Recognition, 2020, pp. 9719–9728.

[12] H. Guo and S. Wang, “Long-tailed multi-label visual recognition by collaborative training on uniform and re-balanced samplings,” in Computer Vision and Pattern Recognition, 2021, pp. 15 089–15 098.

[13] B. Liu, H. Li, H. Kang, G. Hua, and N. Vasconcelos, “Gistnet: a geometric structure transfer network for long-tailed recognition,” in International Conference on Computer Vision, 2021.

[14] Y. Li, T. Wang, B. Kang, S. Tang, C. Wang, J. Li, and J. Feng, “Overcoming classifier imbalance for long-tail object detection with balanced group softmax,” in Computer Vision and Pattern Recognition, 2020, pp. 10 991–11 000.

[15] X. Hu, Y. Jiang, K. Tang, J. Chen, C. Miao, and H. Zhang, “Learning to segment the tail,” in Computer Vision and Pattern Recognition, 2020.

[16] J. Cai, Y. Wang, and J.-N. Hwang, “Ace: Ally complementary experts for solving long-tailed recognition in one-shot,” in International Conference on Computer Vision, 2021.

[17] Zhang Y, Kang B, Hooi B, et al. Deep long-tailed learning: A survey[J]. arXiv preprint arXiv:2110.04596, 2021.

0 人点赞