华为诺亚实验室提出的TNT优于谷歌的 ViT 和 Facebook 的 DeiT

图 1：谷歌 ViT 网络架构。

在这篇论文中，来自华为诺亚实验室的研究者提出一种用于基于结构嵌套的 Transformer 结构，被称为 Transformer-iN-Transformer (TNT) 架构。同样地，TNT 将图像切块，构成 Patch 序列。不过，TNT 不把 Patch 拉直为向量，而是将 Patch 看作像素（组）的序列。

论文链接：https://arxiv.org/pdf/2103.00112.pdf

方法

图像预处理

其中是 patch 的尺寸。

Pixel embedding 生成：对于每个 patch，进一步通过 pytorch unfold 操作将其转化成 m 个像素向量，然后用一个全连接层将 m 个像素向量映射为 m 个 pixel embedding：

图 2：位置编码。

图 3：Transformer in Transformer 架构。

通过堆叠 L 个 TNT block，构成了 TNT 网络结构，如下表 1 所示，其中 depth 是 block 个数，#heads 是 Multi-head attention 的头个数。

表 1：TNT 网络结构参数。

实验

ImageNet 实验

特征图可视化

迁移学习实验

为了证明 TNT 具有很强的泛化能力，研究者在 ImageNet 上训练的 TNT-S、TNT-B 模型迁移到其他数据集。更具体地说，他们在 4 个图像分类数据集上评估 TNT 模型，包括 CIFAR-10、CIFAR-100、Oxford IIIT Pets 和 Oxford 102 Flowers。所有模型微调的图像分辨率为 384x384。

下表 3 对比了 TNT 与 ViT、DeiT 和其他网络的迁移学习结果。研究者发现，TNT 在大多数数据集上都优于 DeiT，这表明在获得更好的特征时，对像素级关系进行建模具有优越性。

表 3：TNT 在下游任务的表现。

总结

该研究提出了一种用于视觉任务的 transformer in transformer（TNT）网络结构。TNT 将图像均匀分割为图像块序列，并将每个图像块视为像素序列。本文还提出了一种 TNT block，其中外 transformer block 用于处理 patch embedding，内 transformer block 用于建模像素嵌入之间的关系。在线性层投影后，将像素嵌入信息加入到图像块嵌入向量中。通过堆叠 TNT block，构建全新 TNT 架构。与传统的视觉 transformer（ViT）相比，TNT 能更好地保存和建模局部信息，用于视觉识别。在 ImageNet 和下游任务上的大量实验都证明了所提出的 TNT 架构的优越性。

css 迁移学习

0 人点赞