对标 GLUE、ImageNet,谷歌推出视觉任务适应性基准 VTAB

2019-11-12 12:46:51 浏览数 (1)

众所周知,图像分类领域有 ImageNet 数据集,自然语言处理领域有 GLUE 基准,这些基准在对应领域的进展中发挥了重要作用。终于,谷歌推出了视觉任务适应性领域的基准 VTAB(Visual Task Adaptation Benchmark),该基准有助于用户更好地理解哪些哪些视觉表征可以泛化到更多其他的新任务上,从而减少所有视觉任务上的数据需求。

深度学习已经给计算机视觉领域带来了诸多改变。其中,达到 SOTA 水平的深度网络能够直接从原始像素中学习有用的表征,从而在众多视觉任务上取得了前所未有的性能。但是,「从零开始」学习这些表征通常需要大量的训练样本。使用预训练表征可以减轻这一训练负担,并且 TensorFlow Hub(TF Hub)和 PyTorch Hub 等服务能够提供这类预训练表征。但是,这种非常普遍的服务本身也可能成为一种障碍。举例而言,对于从图像中提取特征的任务来说,目前已有 100 多种模型可供选择。这就很难让用户决定采用哪种方法,从而为下游任务提供最佳的表征信息。这是因为不同的子领域使用的评估方案也不同,因而常常无法反映新任务上的最终性能。

所以,表征研究的核心目标是在大量通用数据的基础上,一次性地学习表征,而不需要在处理新任务时再重新开始训练。这样就可以减少所有的视觉任务上的数据需求。但是,如果要实现这一目标,研究社区必须创建一个统一的基准,以对现有的和以后的方法进行评估。

为了解决这方面的问题,昨天,谷歌 AI 推出了「视觉任务适应性基准」(Visual Task Adaptation Benchmark,VTAB)。这是一个多样性的、真实的和具有挑战性的表征基准。这一基准基于以下原则:在所需领域内数据有限的情况下,更好的表征应当能够在未见任务上实现更佳的性能。受启发于推动其他机器学习领域进展的一些基准,如用于自然图像分类的 ImageNet、自然语言处理的 GLUE 和强化学习的 Atari,VTAB 遵循相似的准则:(i)对解决方案施加最小约束,以鼓励创造性;(ii)注重实际;(iii)借助挑战性任务进行评估。

  • 论文地址:https://arxiv.org/abs/1910.04867
  • 项目地址:https://github.com/google-research/task_adaptation
  • VTAB 基准公开排行榜:https://google-research.github.io/task_adaptation/

谷歌的视觉任务适应性基准(VTAB)

VTAB 评估方案设计用于衡量通用且实用的视觉表征研究。这一基准同时也包含学习算法必须解决的一系列视觉评估任务。这些算法可利用预训练的视觉表征来辅助学习,同时必须满足以下两个要求:

  1. 不得将下游评估任务中使用的任何数据(标签或输入图像)用于预训练;
  2. 不得包含硬编码、针对特定任务或相关的逻辑。换言之,评估任务必须被视作模型未见的数据集。

这些约束条件能够确保那些成功应用于 VTAB 的解决方案也将能泛化到将来的任务上。

设计原理

VTAB 基准首先将一种算法(A)应用到大量独立的视觉处理任务。该算法可以在上游数据上进行预训练,以生成一个包含视觉表征的模型。这一算法同时必须定义一些适应性策略。这使其可以使用每个下游任务中的小样本训练集,并最终返回一个针对特定任务做出预测的模型。该算法的最终得分是其在不同任务上的平均测试分数(average test score)。

VTAB 基准原理图。

VTAB 基准包含跨不同领域的 19 项评估任务,并分为三大类——自然图像任务、特定图像任务和结构化图像任务。其中,自然图像任务包含使用标准照相机捕获的自然世界的图像,表征为通用对象、高细粒度的类别或者是抽象概念;特定图像任务包含使用专门设备捕获的图像,如医学图像或遥感图像;结构化图像任务通常源自以理解图像间具体变化为目标的人工环境,如预测 3D 场景中到某个目标的距离(如 DeepMind Lab)、计算目标数量(如 CLEVR)或者检测方位(如用于理解表征的 dSprites)。

虽然多样性程度很高,但 VTAB 基准中的所有任务都有一个共同特征:在少量的样本训练之后,人们可以相对容易地解决这些任务。此外,为了评估有限数据下算法对新任务的泛化能力,每个任务上仅使用 1000 个样本进行性能评估。

VTAB 基准检验结果

谷歌进行了大量研究,测试了许多流行的视觉表征学习算法在 VTAB 基准下的性能表现。研究包含了生成模型(GAN 和 VAE)、自监督模型、半监督模型和监督模型。所有算法都在 ImageNet 数据集上进行了预训练。谷歌还在不使用预训练表征的情况下对比了每一种方法,即「从零开始」训练。下图展示了自然图像任务、特定图像任务和结构化图像任务上不同表征学习算法的性能结果:

不同表征学习算法在三大类任务上的性能表现。

如上图所示,谷歌发现,生成模型的性能弱于其他表征学习算法,甚至不如「从零开始」训练。自监督模型的性能表现更佳,尤其显著优于「从零开始」训练。但是,使用 ImageNet 数据集标签的监督学习是更好的方法。有趣的一点是,尽管监督学习在自然图像任务上的性能显著优于其他方法,但自监督学习在特定图像任务和结构化图像任务上的性能接近,这两类任务所在的领域却与 ImageNet 更不相同。

其中性能表现最佳的表征学习算法是自监督半监督学习(Self-Supervised Semi-Supervised Learning,S4L),它包含监督和自监督预训练损失。下图对 S4L 与标准监督 ImageNet 预训练进行了比较。S4L 尤其在结构化图像任务上提升了性能。但是,除了自然图像任务之外,表征学习在「从零开始」训练上的收益要小得多,这表明获得通用视觉表征还需要更多取得进展。

自监督半监督学习(S4L)与「从零开始」训练的性能对比。每个条目对应一项任务。正值条目表示 S4L 优于「从零开始」训练的任务;负值表示「从零开始」训练性能更佳的任务。

总结

谷歌已经开源了 VTAB 项目,包含 19 个评估数据集和准确的数据分割,因而可以确保结果的可复现性。此外,VTAB 的进度在公开的排行榜(public leaderboard)进行追踪,进行评估的模型也已上传到了 TensorFlow Hub,以供用户使用和复现。谷歌还提供了一个外壳脚本(shell script),以在所有任务上进行适应性调整和评估。标准的评估方案使得 VTAB 基准可以在业界实现轻松访问。此外,VTAB 基准可以在 TPU 和 GUP 上执行,所以它非常高效。用户可以在数小时内、在单个英伟达 Tesla P100 加速器上获得对比结果。

总而言之,谷歌的视觉任务适应性基准(VTAB)可以帮助用户更好地理解哪些视觉表征可以泛化到更广泛的视觉任务上,并且为未来研究提供了方向。谷歌希望这些资源可以在推动通用且实际的视觉表征进展方面发挥作用,并因而为有限标注数据的长尾视觉问题提供深度学习方法。

参考链接:http://ai.googleblog.com/2019/11/the-visual-task-adaptation-benchmark.html

0 人点赞