HOG特征也可以作为图像重建的目标！FAIR&JHU提出新的one-stage自监督预训练模型MaskFeat！

▊ 写在前面

在本文中，作者提出了用于视频模型自监督预训练的掩蔽特征预测（Masked Feature Prediction，MaskFeat）。本文的方法首先随机掩蔽输入序列的一部分，然后预测掩蔽区域的特征。

作者研究了五种不同类型的特征，并发现梯度方向直方图（HOG），这是一种手工设计的特征描述符，在性能和效率方面都非常有效。在早期的视觉识别工作中，使用HOG进行局部对比度归一化是非常必要的。

本文的方法可以学习丰富的视觉知识并驱动基于Transformer的大型模型。在不使用额外模型权重或监督的情况下，在未标记视频上预训练的MaskFeat在Kinetics-400上使用MViT-L获得了86.7%的性能，在Kinetics-600上达到了88.3%，在Kinetics-700上达到了80.4%，在AVA上达到了38.8%的mAP，在SSv2上达到了75.0%。

MaskFeat进一步推广到图像输入，可以将其表示为单帧视频，并在ImageNet上获得具有竞争力的结果。

▊ 1. 论文和代码地址

Masked Feature Prediction for Self-Supervised Visual Pre-Training

论文地址：https://arxiv.org/abs/2112.09133

代码地址：未开源

▊ 2. Motivation

自监督预训练在自然语言处理方面取得了惊人的成功，为具有十亿规模数据的大型Transformer提供了支持。其基本思想是一个非常简单的掩蔽和预测（mask-and-predict）任务，即首先掩蔽文本中的一些token，然后预测给定可见文本的不可见内容。

人类有一种非凡的能力来预测世界是如何出现和移动的。如上图的第一列所示，即使看不到隐藏的内容，我们也能够通过使用相关的可见部分的视觉知识来理解对象结构并绘制想象信息的大致轮廓。

在这项工作中，作者表明了预测某些mask特征（例如第2列中的梯度直方图）可以成为自监督视觉预训练的强大目标，特别是在包含丰富视觉信息的视频域中。

视觉和语言之间的一个本质区别是，视觉没有预先存在的词汇来将预测任务塑造成一个明确的分类问题。原始时空视觉信号是连续且密集的，这对mask视觉预测提出了重大挑战。

一个直接的解决方案是通过构建一个视觉词汇表来模拟语言词汇表，该词汇表将帧patch离散化为token，如BEiT中所述。然而，这需要额外的tokenizer，这在计算密集型视频理解场景中可能受到限制。

作者提出了掩蔽特征预测（MaskFeat），这是一个直接回归mask内容特征的预训练目标。具体而言，本文的方法使用视觉Transformer主干接收mask时空输入，并预测mask内容的特定特征表示。通过这种方式，预训练的模型获得了对密集视觉信号中复杂的时空结构的充分理解。

作者研究了广泛的特征类型，从像素值和手工制作的特征描述符到离散的视觉token，深度网络的激活以及网络预测中的伪标签。实验结果表明:

1）梯度方向直方图 (上图中的中心列)就性能和效率而言，是MaskFeat的一个特别有效的目标。

2）mask视觉预测不需要对视觉信号进行离散化，连续特征回归可以很好地工作。

3）来自人类标注的语义知识并不总是有助于MaskFeat。

本文的方法在概念上和实现上都很简单，MaskFeat使用单个网络预测每个样本的单个视图。与以前的mask视觉预测方法相比，带有HOG的MaskFeat不涉及任何外部模型，例如dVAE。结果表明，MaskFeat能够对具有较好泛化能力的大规模视频模型进行预训练。

▊ 3. 方法

3.1. Masked Feature Prediction

本文的方法执行mask视觉预测任务，该任务首先随机mask视频中的几个时空立方体，然后根据剩余的视频预测被mask的时空立方体。通过对mask样本建模，该模型在识别物体的部分和运动上实现了视频理解。

该任务的一个关键组成部分是预测目标。Masked language modeling将语料库标记为目标词汇。相比之下，原始视觉信号是连续的、高维的，并且没有可用的自然词汇。在MaskFeat中，作者提出预测mask区域的特征，通过从原始完整样本中提取的特征提供监督。

在典型的视频视觉Transformer中，视频首先被划分为时空立方体，然后将多维数据集投影（即卷积）到token序列。为了执行mask，序列中的一些token通过被替换为[MASK] token来随机mask。

为了进行预测，[MASK] token替换后的token序列（添加了位置嵌入）由Transformer处理。mask立方体的输出token通过线性层投影到预测。输出通道的数量根据特定目标特征进行调整（例如，如果预测16×16 patch中像素的RGB颜色，则为3×16×16）。损失函数仅对mask立方体进行操作，如上图所示。

MaskFeat可以很容易地在图像域中实例化，它可以被解释为一个单帧视频。大多数操作都是共享的，只是没有时间维度，每个token只表示空间patch，而不是时空立方体。

3.2. Target Features

作者考虑了不同类型的目标特征。目标分为两类：

1）可直接获得的一阶段（one-stage）目标，包括像素颜色和HOG。

2）由预训练的深层网络或教师模型提取的两阶段（two-stage）目标。

由于预测两阶段目标是从预训练的深度网络教师那里有效地学习，因此它类似于模型蒸馏的一种形式；因此，教师模型的预训练和推理的额外计算成本是不可避免的。

Pixel colors

最直接的目标可以说是预测视频像素的颜色。具体而言，作者使用RGB值，该值通过数据集的平均值和标准差进行归一化。作者最小化了模型预测和Ground Truth之间RGB值之间的L2距离。

虽然简单，但作为目标的像素有一个潜在的缺点，即过度匹配局部统计数据（例如照明和对比度变化）和高频细节，这可能对视觉内容的解释不重要。

HOG

梯度方向直方图（HOG）是描述局部子区域内梯度方向或边缘方向分布的特征描述符。HOG描述符通过简单的梯度滤波（即减去相邻像素）来实现，以计算每个像素处梯度的大小和方向。

然后，将每个小局部子区域或单元内的梯度累积到多个单元的方向直方图向量中，由梯度大小投票。直方图归一化为单位长度。这些特征也用于著名的SIFT描述符，用于检测关键点，或以密集方式用于分类。

HOG的特点是捕捉局部形状和外观，同时只要平移在空间单元内并且旋转小于方向框大小，就不受几何变化的影响。此外，当图像梯度和局部对比度归一化亮度发生变化和前景背景对比度变化时，它提供了对亮度变化的不变性。

最后，HOG计算成本低，开销可以忽略不计。它可以实现为两通道卷积，以在x轴和y轴上生成梯度（或通过减去相邻的水平和垂直像素），然后进行histogramming和标准化。

本文的方法简单地预测mask patch的直方图。首先在整个图像上获得一个HOG特征图，然后将特征图分割为多个patch，而不是仅在mask patch上计算HOG。这样可以减少了每个mask patch边界上的填充。

然后对mask patch的直方图进行处理，并将其连接成一维向量作为目标特征。本文的损失最小化了预测和原始HOG特征之间的L2距离。

Discrete variational autoencoder (dVAE)

为了解决视觉信号的连续高维特性，DALL-E提出用dVAE码本压缩图像。特别是，每个patch被编码到一个token中，该token可以使用预先训练的dVAE模型假设为8192个可能值。现在的任务是通过优化交叉熵损失来预测mask token的分类分布。然而，预训练dVAE和tokenize图像会导致额外的计算成本。