CVPR 2020丨Variational DropPath：提高3D CNN时空融合分析效率的秘诀

本文转载自：微软研究院AI头条

编者按：时空融合（Spatiotemporal fusion）是三维卷积神经网络（3D CNNs）的关键要素，它决定了网络前馈过程中每一层如何提取、融合空间信号和时间信号。目前已有的时空融合分析方法囿于过大的网络训练开销，仅能对有限数量的融合策略进行网络级别分析。微软亚洲研究院将时空融合策略嵌入到预先定义的概率空间，从而能够对任意多种融合策略进行网络级评估，而不必分别训练它们，极大地提高了针对时空融合策略的分析效率。

尽管二维卷积神经网络（2D CNNs）在图像识别方面取得了很大的成功，但是在过去的数年中，用于时空信号任务的三维卷积神经网络仍然受到性能和效率的困扰。近些年来，领域内学者对分析三维卷积神经网络中不同要素的性质进行了很多尝试，为设计更强大高效的时空网络框架奠定基础。其中，时空融合是一关键要素。它决定了网络前馈过程中每一层如何提取、融合空间信号和时间信号。目前已有的时空融合分析方法通常是经验性地搭建不同融合策略，然后通过基于网络训练而获得的性能得到观察并进行规律总结。由于网络训练的开销过大，这类方法仅能够对有限数量的融合策略进行网络级别分析。

在本文中，我们将时空融合策略嵌入到预先定义的概率空间，使我们能够对任意多种融合策略进行网络级评估，而不必分别训练它们，极大地提高了针对时空融合策略的分析效率。

在基于深度学习的众多视频应用中，例如动作识别、视频标签和人员重新识别，时空特征融合是不可或缺的组成部分。以动作识别为例，深度网络中的时空融合大致可分为两大类：1，两路（Two-stream）形式的融合/集成，例如自然图像帧中的空间语义信息与光流场中的运动信息独立提取后相互结合；2，单一三维卷积神经网络（3D CNNs）中时空信息的交互与融合。本文主要关注于后者上。

概率角度分析时空融合

从概念上讲，三维卷积神经网络能够很好地学习视频内容的时空特征，然而，根据最近的研究显示，其性能仍然对不同的时空融合策略十分敏感。现有的针对时空融合的分析工作通常经验性地设计不同的融合策略，并根据相应的性能表现来进行分析总结。由于每种策略都需要进行单独的训练和评估，以及现有解决方案很难针对大量融合策略进行分析评估，同时也无法支持细粒度的层级分析。

为了提高分析效率，本文提出从概率的角度分析三维卷积神经网络中的时空融合。具体而言，我们将时空融合分析建模为一个优化问题，旨在将每个单独的融合策略均视为随机事件并嵌入到一个满足以下两个性质的概率空间：1，可以从概率空间低成本地得到每个时空融合策略（事件）的性能，因此我们可以基于该性能来评估不同融合策略，而不必分别训练每个策略；2，能够通过该概率空间推断出时空融合的局部性偏好，从而可以对融合策略进行逐层的细粒度分析。算法框架如下图所示：

图1：基于概率空间嵌入的时空融合分析算法框架

图1中不同颜色的方块表示由不同形式的卷积核实例化的基本时空融合单元，比如，蓝色表示空间融合单元（由作用于空间域上的二维卷积核实例化）；绿色表示时空融合单元（由三维卷积核实例化）；黄色表示空间与时空的混合融合单元（由二维与三维混合卷积核实例化）。

进一步地，我们通过观察发现，由融合策略和其对应的网络参数权重的联合后验分布所定义的概率空间能够很好地满足上述两个性质。为了高效地将时空融合策略嵌入到该概率空间，我们借鉴 Variational Dropout，提出了 Variational DropPath, 通过对模板网络（template network）进行端到端的训练，来完成嵌入过程。其中，模板网络是混合了不同的时空融合策略的超网络，并可通过 DropPath 操作得到采用不同混合策略的子网络，如图2所示：

图2：Variational DropPath 的训练过程

通过推导我们发现，对该模版网络按照如下目标函数进行端到端的优化：

近似等价于最小化：KL(Q(ω,M)||P(ω,M|X,Y)) 。其中 M 和 ω 表示时空融合策略以及对应的网络参数权重；p 表示 DropPath 的概率；N 为总样本数；ϵ 为依 p 采样得到的二值掩码（Binary mask），l、i、u 为模版网络中当前层数、使用的特征图的所属层数以及基本时空融合单元的索引；Q 为分解（factorize）在不同基本时空融合单元上的变分分布（variational distribution）。

上述近似等价关系表明，通过对模板网络的训练，我们可以将不同时空融合策略嵌入到由后验分布定义的概率空间。当训练完成后，从概率空间采样不同的时空融合策略以及其对应的网络参数等价于按照收敛后的 DropPath 概率从模板网络采样不同的子网络。由于策略是和其对应的参数权重成对进行采样的，故可以直接在验证集上对该策略进行测试得到性能作为评价指标。同时，我们还可计算网络中每一层不同融合单元的边缘概率分布，作为细粒度的时空融合偏好评价指标：

图3：计算网络中每一层不同融合单元的边缘概率分布

图3中红点代表采样得到性能（分类准确度）最高的一组样本的具体时空融合策略，柱状图表示每一层使用不同时空融合单元的边缘分布，它能够反映出每一层哪些融合单元更倾向于被使用。综合这两组信息我们可以在针对不同性质的数据集设计不同的融合策略。

实验结果

为了验证本文方法的有效性和普适性，我们在四种不同类型的动作识别数据集上做验证实验，它们分别是 Something-something V1、Kinetics400、Something-something V2 和 UCF101。实验设计主要验包含两个部分：1，是否能够从概率空间得到比现有方法性能更好的时空融合策略；2，根据上述两组信息总结得到的规律，是否能适用于不同的主干网络（backbone network）。

对于第一点，我们将采样得到的性能最好的样本与其它基于三维卷积神经网络的 state-of-the-art 方法进行对比，发现无论从模型复杂度还是分类准确行上，都取得了最佳成绩，如表1：

表1：性能检验

对于第二点，我们在不同数据集上根据对采样情况以及边缘分布的观察，总结得到融合偏好的规律，并将其应用到不同的主干网络中去，发现能够给绝大多数主干网络带来可观的性能提升，说明我们的分析方法可以帮助得到泛化性能非常好的观察与规律。具体如表2：

表2：普适性检验

其中 Opt 代表根据从概率空间所得到的信息来设计在不同主干网络上设计的时空融合策略，其它策略，如 ST 表示在主干网络上全部使用时空融合单元的融合策略，均为对照组。数字表示分类 Top1 准确度（%）。可以发现，我们的方法提供的时空融合信息能够很有效地帮助不同的主干网络进行时空融合策略设计，展示出了较强的泛化性能。

作为总结，本文我们将分析三维卷积神经网络中时空融合的问题转换为优化问题，旨在将所有可能的融合策略嵌入到由融合策略和其对应的网络参数权重的联合后验分布所定义的概率空间中。这样的概率空间使我们能够从概率的角度去研究时空融合，无需单独的网络训练就可以评估和分析各种融合策略，且可以提供细粒度的局部偏好。我们进一步提出 Variational DropPath，使得端到端地训练模板网络即可有效地解决上述优化问题。通过在四个动作识别数据库上的对比实验，证明了这一方法的有效性和普适性。

更多细节请参考原文和附录：

https://arxiv.org/pdf/2004.04981.pdf

实验代码请参考 GitHub 目录：

https://github.com/scenarios/Probabilistic3DCNN

卷积神经网络神经网络机器学习深度学习人工智能

0 人点赞