精度提升方法:自适应Tokens的高效视觉Transformer框架(已开源)

2022-07-18 14:23:58 浏览数 (1)

关注并星标

从此不迷路

计算机视觉研究院

公众号ID|ComputerVisionGzq

学习群|扫码在主页获取加入方式

论文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Yin_A-ViT_Adaptive_Tokens_for_Efficient_Vision_Transformer_CVPR_2022_paper.pdf

代码地址:https://github.com/NVlabs/A-ViT

计算机视觉研究院专栏

作者:Edison_G

YOLOv7相同体量下比YOLOv5精度更高,速度快120%(FPS),比YOLOX快180%(FPS),比Dual-Swin-T快1200%(FPS),比ConvNext快550%(FPS),比SWIN-L快500%(FPS)。

01

概述

今天介绍的,是研究者新提出了A-ViT,一种针对不同复杂度的图像自适应调整vision transformers (ViT) 的推理成本的方法。A-ViT通过在推理进行时自动减少在网络中处理的视觉转换器中的tokens数量来实现这一点。

研究者为这项任务重新制定了自适应计算时间(ACT[Adaptive computation time for recurrent neural networks]),扩展了停止以丢弃冗余空间标记。vision transformers吸引人的架构特性使我们的自适应tokens减少机制能够在不修改网络架构或推理硬件的情况下加速推理

A-ViT不需要额外的参数或子网络来停止,因为将自适应停止的学习建立在原始网络参数的基础上。与之前的ACT方法相比,进一步引入了分布式先验正则化,可以稳定训练。在图像分类任务(ImageNet1K)中,展示了提出的A-ViT在过滤信息空间特征和减少整体计算方面的高效性。所提出的方法将DeiT-Tiny的吞吐量提高了62%,将DeiT-Small的吞吐量提高了38%,准确率仅下降了0.3%,大大优于现有技术。

02

背景

Transformers已经成为一类流行的神经网络架构,它使用高度表达的注意力机制来计算网络输出。它们起源于自然语言处理(NLP)社区,已被证明可有效解决NLP中的广泛问题,例如机器翻译、表示学习和问答。

最近,vision transformers在视觉社区中越来越受欢迎,它们已成功应用于广泛的视觉应用,例如图像分类、目标检测、图像生成和语义分割。最流行的范式仍然是vision transformers通过将图像拆分为一系列有序的补丁来形成tokens并在tokens之间执行inter-/intra-calculations以解决基础任务。使用vision transformers处理图像在计算上仍然很昂贵,这主要是由于tokens之间的交互次数的平方数。因此,在大量计算和内存资源的情况下,在数据处理集群或边缘设备上部署vision transformers具有挑战性

03

新框架分析

首先看下图:

上图是一种为vision transformers启用自适应tokens计算的方法。使用自适应停止模块来增加vision transformers块,该模块计算每个tokens的停止概率。该模块重用现有块的参数,并从每个块的最后一个密集层借用单个神经元来计算停止概率,不施加额外的参数或计算。一旦达到停止条件,tokens就会被丢弃。通过自适应停止tokens,我们仅对被认为对任务有用的活动tokens执行密集计算。结果,vision transformers中的连续块逐渐接收到更少的tokens,从而导致更快的推理。学习到的tokens停止因图像而异,但与图像语义非常吻合(参见上面的示例)。这会在现成的计算平台上立即实现开箱即用的推理加速。

A-ViT的一个例子:在可视化中,为了简单起见,省略了(i)其他补丁标记,(ii)类和补丁标记之间的注意力以及(iii)残差连接。 

每个标记的第一个元素保留用于停止分数计算,不增加计算开销。我们用下标c表示类标记,因为它有特殊处理。由k索引的每个token都有一个单独的Nk累加器,并停在不同的深度。与标准ACT不同,平均场公式仅适用于分类标记,而其他标记通过注意力对类别标记做出贡献。这允许在不聚合图像/补丁token的情况下进行自适应tokens计算。

04

实验分析及可视化

Original image (left) and the dynamic token depth (right) of A-ViT-T on the ImageNet-1K validation set. Distribution of token computation highly aligns with visual features. Tokens associated with informative regions are adaptively processed deeper, robust to repeating objects with complex backgrounds. Best viewed in color.

(a) ImageNet-1K验证集上A-ViT-T的每个图像补丁位置的平均tokens深度。(b)通过变压器块的停止分数分布。每个点与一个随机采样的图像相关联,表示该层的平均tokens分数。

由平均tokens深度确定的ImageNet-1K验证集中的难易样本的视觉比较。请注意,上面的所有图像都被正确分类——唯一的区别是难样本需要更多的深度来处理它们的语义信息。与右侧图像相比,左侧图像中的标记退出大约5层。

© THE END 

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于人脸检测、人脸识别,多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架,我们这次改革不同点就是,我们要着重”研究“。之后我们会针对相应领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

VX:2311123606

往期推荐 

0 人点赞