“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精选论文阅读笔记,开辟“源头活水”专栏,帮助你广泛而深入的阅读科研文献,敬请关注。
来源:知乎—Xudong Wang
地址:https://zhuanlan.zhihu.com/p/338223008
“Unsupervised Feature Learning by Cross-Level Instance-Group Discrimination.”
作者:Xudong Wang (加州大学伯克利分校&ICSI), Ziwei Liu (南洋理工大学), Stella X. Yu (加州大学伯克利分校&ICSI) Paper:http://people.eecs.berkeley.edu/~xdwang/papers/CLD.pdf
本文主要希望介绍一下自己release在arXiv上的一篇无监督表征学习的文章~
论文内容总结:本文(CLD)主要是通过探究单个实例和群组间关系(instance-group discrimination)来辅助现有的无监督对比学习contrastive learning,并可以与多种主流框架结合(NPID[1], MoCo[2], MoCo v2[3], InfoMin[4]以及 BYOL[5])获得普遍的准确率提升(2%~4%)。此外,本文还提出了归一化映射层normalized MLP projection head (NormMLP)来取代原先的MLP head,并在多个方法上获得了普遍的准确率提升。
在预训练100 epochs 的情况下,CLD 仅需8块GPU训练即可在ImageNet上超过需要128(512)块 GPU (TPU) 训练的方法SimCLR [ICML 2020][6], BYOL [NeurIPS 2020][5], SwAV [NeurIPS 2020][7]约3.5%,同时超过kaiming的最新方法SimSiam[8]约2%。
To our best knowledge, 本文是第一篇,在小batch size(bs=256),短训练时长(#epochs=100),仅使用ResNet50为backbone (widen ratio=1)的条件下,获得70%以上ImageNet分类准确率的无监督学习论文。
接下来,本文将详细介绍 Cross-Level Discrimination (CLD)。
01
Instance Discrimination 有哪些问题
在正式介绍所提出的方法之前,需要先探究以instance discrimination为核心的方法(如 NPID[1], MoCo[2]and SimCLR[6])存在的一些潜在问题。
Instance-discrimination 通过instance-level 的对比学习来得到有意义的表征,该表征可以用于反映实例之间的明显相似性。正如有监督分类学习可以获得具备不同类别之间的明显相似性的表征。相似地,通过将class数量扩展为instance数量,我们最终可以用无监督方法得到表示instance之间明显相似性的表征。因而,instance discrimination本身成立的假设是建立在:每一个样例均与其他样例存在显著不同,可以将每一样例当作单独类别看待的基础上。
但是在由video frames 或者 multi-view images 所构成的dataset中,video相邻frames之间以及multi-view dataset 中 相同instance 的不同 viewing angle 之间均存在非常高的相似度。这也就导致如果训练数据之间存在较大的相似度,contrastive learning过程中所使用的负样例nagative pairs很可能由高相似度的instances构成,进而导致contrastive learning的训练过程不可靠,出现大量的错误排斥false repulsion。为了解决上述问题,本文提出了Cross-level Instance Group Discrimination。其核心思想为:首先对instances进行聚类,从而使相似instances被聚类为相同的group,之后进行contrastive learning,从而缓解了对高相似度instance进行错误排斥的情况。
Instance Discrimination (左) vs. Instance-group Discrimination (右). 红色: 吸引Attraction; 蓝色: 排斥Repulsion.
02
CLD 框架
CLD 框架图
CLD主要包含三个主要模块:
1. Instance Branch
2. Instance-group Branch
3. Normalized Projection Head
Instance Branch的选择取决于CLD与哪种方法结合,可以选择以contrastive learning为基础的 NPID/MoCo/MoCo v2/InfoMin。此外我们发现,CLD也可以与不含负样例的方法BYOL结合,并在ImageNet (ImageNet100)上获得2.6% (4.7%)的top-1准确率提升。
Instance-group Branch与instance branch共享同一个特征提取网络 ,但采用独立的projection head。由于projection head 本身的参数量较少,所以网络的整体参数量只有极小幅度增长。projection head 部分本文提出了归一化映射层normalized projection head来取代原先的projection head(fc/MLP),后面会进行具体介绍。
由 进行特征提取,之后由归一化映射层将高维信息
转换为低维信息
。
随后分别对
和
进行局部聚类(即仅针对mini-batch samples进行聚类),并计算 个cluster centroids
,之后将每个instance feature
分配给距离最近的cluster centroid。聚类算法可以采用k-means或者spectral clustering,在这里不进行详细叙述,具体内容可以查看论文的对应章节。
我们对实例特征
和group centroid 应用跨级对比学习cross-level contrastive learning,即
。如果
可以通过聚类算法将
分割为多个cluster,当 被替换为
(相同instance,不同augmentation)时,它仍应靠近 所对应的cluster centroid
,并且远离其它cluster centroids
。因而,CLD鼓励两组经过不同图像增强后的mini-batch samples获得相同的聚类结果,从而促使网络提取出对图像增强具有鲁棒性的信息。
CLD Loss 为:
其中 在
时为1否则为0, 为
与
的特征相似度。因而,总loss为:
其中
为cld loss的权重,0-1之间。
Normalized Projection Head:为了将最终的特征映射到单位球unit hypersphere上,NPID/MoCo/SimCLR/InfoMin/BYOL 一般通过对输出的特征进行归一化处理。相较于其他方法,本文提出了一种归一化映射层Normalized Projection Head,对特征以及映射层的网络权重均进行归一化处理,即:
其中
为归一化后的特征的第t维, 为卷积层权重的第t维。因而,输出特征的每一维度的信息均为卷积权重和输入特征的正交相似度。这一简单却有效的方法,在不增加任何额外参数的情况下可以对多种方法产生普遍的准确率提升。
03
实验结果
1. Kitchen-HC (含高相似度样例):
与NPID/MoCo结合可以获得5%-9%的kNN准确率提升,同时收敛速度更快。
含有高相似度样例的数据集Kitchen-HC
与NPID相比,CLD NPID可以更好地聚类,同时收敛速度更快(以颜色标注不同类)
2. 长尾数据 CIFAR-LT & ImageNet-LT
CIFAR-LT上获得6~11% 的准确率提升。
ImageNet-LT上获得3~5% 的准确率提升。
3. 小规模数据集 STL-10 & CIFAR10 & ImageNet100
CLD 可以与BYOL 结合获得4.7%的top-1 accuracy提升。
STL-10上获得3~4%的准确率提升。
CIFAR-100上获得5~6%的准确率提升。
ImageNet100上获得4~5%的准确率提升。
4. ImageNet
CLD 可以与多个方法结合(NPID/MoCo/MoCo v2/InfoMin/BYOL/...)获得top-1 accuracy提升。
NormMLP/NormLinear 可以在多个框架无痛获得0.6~0.9%的提升。
CLD InfoMin可以在100/200 epochs预训练情况下取得state-of-the-art performance
在进行线性测试linear evaluation阶段,SwAV/BYOL/SimSiam 均使用了4096 batch size,cosine decay scheduler,LARS optimizer,这一测试方法可以在测试阶段获得额外的1%的准确率提升。而CLD遵循MoCo/NPID/InfoMin的测试方法,即256 batch size,SGD optimizer。
5. 半监督 (1%/10% ImageNet)
6. 迁移学习 (目标检测)
7. 无监督超参学习
目前的无监督学习普遍在有监督情况下进行超参hyperparameters选择,这和无监督学习本身的应用场景是冲突的。本文也尝试探索如何进行无监督超参选择,希望对探究如何在无监督学习领域使用无监督方法进行训练,模型选择,测试有一定的启发。
下图中,蓝线为有监督linear evaluation的top-1准确率,绿线为无监督retrieval准确率,橙线为两个不同数据增强后的data的NMI(归一化互信息)。retrieval主要衡量网络提取实例级别互信息(instance-level mutual information)的能力,而
主要通过对不同数据增强后的两组data进行聚类,并对聚类结果相似度进行计算来衡量全局互信息global mutual information。
进行实验的超参为CLD的两个主要超参:
和temperature。相较于retrieval 和 NMI, 文中所提出的无监督测试方法
可以获得和有监督方法几乎一致的超参性能排序。这也说明,单独地衡量
local mutual information以及
global mutual information均无法获得准确的排序结果,需要综合考量local information以及global information来进行无监督超参选择。这一结果也和CLD的出发点相符合,即不应该单独考虑instance discrimination/instance similarity,而应当将聚类等包含全局信息的方法引入无监督学习过程。
参考
1. abWu, Zhirong, Yuanjun Xiong, Stella X. Yu, and Dahua Lin. "Unsupervised feature learning via non-parametric instance discrimination." CVPR 2018.
2. abHe, Kaiming, Haoqi Fan, Yuxin Wu, Saining Xie, and Ross Girshick. "Momentum contrast for unsupervised visual representation learning." CVPR 2020.
3. Chen, Xinlei, Haoqi Fan, Ross Girshick, and Kaiming He. "Improved baselines with momentum contrastive learning." arXiv preprint (2020).
4. Tian, Yonglong, Chen Sun, Ben Poole, Dilip Krishnan, Cordelia Schmid, and Phillip Isola. "What makes for good views for contrastive learning." arXiv preprint arXiv:2005.10243 (2020).
5. abGrill, Jean-Bastien, Florian Strub, Florent Altché, Corentin Tallec, Pierre Richemond, Elena Buchatskaya, Carl Doersch et al. "Bootstrap your own latent-a new approach to self-supervised learning." NeurIPs (2020).
6. abChen, Ting, Simon Kornblith, Mohammad Norouzi, and Geoffrey Hinton. "A simple framework for contrastive learning of visual representations." arXiv preprint arXiv:2002.05709 (2020).
7. Caron, Mathilde, Ishan Misra, Julien Mairal, Priya Goyal, Piotr Bojanowski, and Armand Joulin. "Unsupervised learning of visual features by contrasting cluster assignments." NeurIPs (2020).
8. Chen, Xinlei, and Kaiming He. "Exploring Simple Siamese Representation Learning." arXiv preprint arXiv:2011.10566 (2020).
代码语言:javascript复制本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
“源头活水”历史文章
CTRL,定向生成模型
Deep InfoMax损失函数小记
游走图模型-聊聊Node2Vec(论文分析、代码实践)
CVPR 2021 | 让机器想象未见的世界:反事实的零次和开集识别
解耦表示,理解用户的多样偏好和意图
REPAINT:深度强化学习中的知识迁移
Transformer 的稳健性更好吗?
读SfM-Net: Learning of Structure and Motion from Video
Conditional DETR: 通过显式寻找物体的 extremity 区域加快 DETR 的收敛
谷歌和CMU论文:使用元学习生成伪标签
Deep GNN评测,模型退化是做不深的主要原因!
CVPR2021:Spatial在左,Temporal在右,如何缓解视频动作理解中的隐式偏见之殇?
CVPR2021自监督学习论文: 理解对比损失的性质以及温度系数的作用