回顾一篇引用1000+的自监督学习方法

2022-04-06 19:18:38 浏览数 (1)

这篇来自DeepMind的论文<Bootstrap your own latent: A new approach to self-supervised Learning>已经获得了上千引用.这篇论文提出的方法BYOL在不使用负例对(negative pairs)的情况下就能打平或者优于现存最好的一些迁移学习方法和半监督方法.该文同时指出以往的对比学习方法对负例对非常敏感,且强依赖于batch size,memory bank等方法,最终效果还强依赖于样本增强方法的选择.那BYOL到底与这些方法有哪些不同呢?先看效果,该文提出的方法已经优于各种对比学习方法了,并且在参数量足够大的时候效果已经接近监督学习方法了.

简介

  • BYOL是由在线和目标网络两种网络构成,它们相互作用相互学习.
  • 从图像的数据增强视角出发,在线网络用同一张图片在训练过程中预估目标网络的向量表示.
  • 目标网络也是不断在更新,使用在线网络参数的滑动平均值.
  • BYOL不需要任何负样本,不使用对比学习损失进行学习.

BYOL

BYOL目标是学习图片的向量表示,就是上图中的yθ.该表示可以用于下游任务.

在线网络:由一系列的参数θ表示,并且由3个过程构成,encoder fθ, projector gθ和 predictor qθ.

目标网络:和在线网络结构一致,但是有着不同的参数ξ,目标网络提供回归目标供在线网络学习,并且它的参数ξ是θ的EMA(exponential moving average).假设目标网络的衰退率是τ,那么目标网络的更新就如下公式所示:

那么BYOL究竟是怎么训练的?给定图集D,然后从该集合中均匀采样图片x,BYOL就会生成两个强化的视图v=t(x)和v'=t'(x).然后在线网络从第一个视图v得到向量表示yθ=fθ(v)和一个投影zθ=gθ(y),目标网络会从第二个视图v'得到向量表示y’ξ=fξ(v’)和投影z’ξ=gξ(y’).对于在线网络的投影再过一个前馈神经网络qθ得到qθ(zθ),所有的输出都会l2标准化.

这里要注意的是predictor只会在在线网络上作用,最后我们用最小均方误差学习qθ(zθ)和z’ξ的误差,并且梯度下降仅仅优化θ,而不是ξ:

为什么作者不直接让ξ = θ, 作者论文中的解释是使用ξ可以在网络中传递更多变化性,使得BYOL不会收敛到一个崩塌解(collapse solution).

实验

参考文献

1、Bootstrap your own latent: A new approach to self-supervised Learning

https://arxiv.org/abs/2006.07733

0 人点赞