ETDM：基于显式时间差分建模的视频超分辨率（CVPR 2022）

作者单位：快手、大连理工、港理工、北大、鹏城实验室

论文：https://arxiv.org/pdf/2204.07114.pdf

笔者言： 之前的循环VSR方法大多将相邻帧参考帧以及前一时刻的SR输出作为输入，本文将未来的SR输出也参与进参考帧的重建，通过伪相邻SR的方式精进细节，这让笔者眼前一亮。

▊ 看点

大多数VSR都采用光流或可变形卷积进行运动补偿。然而，这种时间建模技术增加了模型的复杂性，并且在遮挡或复杂运动的情况下可能会失败。本文旨在探索显式时间差分建模在LR和HR空间中的作用，通过计算帧之间的时间差异，并根据差异程度将这些像素划分为两个子集，而不是直接将连续帧作为输入。

这两个子集分别由不同感受野的两个分支处理，以便更好地提取补充信息。此外，为了提高重建效果，不仅提取了空间残差特征，还计算了高频域中连续帧之间的差异。它允许模型利用未来和过去的中间SR结果来优化当前SR输出。不同时间步的差异被存储，以便将来自更远时间的信息传播到当前帧进行细化。

▊ 方法

Overview

显式时间差分建模（ETDM）以单向循环的方式进行。对于每一个时间步，ETDM获取参考帧、相邻帧和之前估计的SR结果作为输入，框架如下图所示：

在LR空间中，提出的区域分解模块计算参考帧和相邻帧之间的差异。此外，它根据差异程度将相邻帧分解为低方差（LV）和高方差（HV）区域。然后，它们分别由两个具有不同感受野的CNN分支处理，以便更好地提取补充信息。

该模型预测HR空间中相邻时间步的SR输出之间的时间差异，这使得当前步骤的超分辨率能够受益于过去和未来时间步的初始SR结果。此外，通过缓存两个指定时间步之间的所有时间差，可以自然地将前向和后向传播从一个时间步扩展到任意时间顺序。

显式时间差分建模

时间差分VSR的目标是利用相邻帧的互补信息为参考帧重建更丰富的细节。下图显示了两个连续帧之间像素级的差分图。这张图motivate作者根据时间差分将相邻帧的区域划分为低方差（LV）和高方差（HV）。LV区域的整体外观变化较少。因此，帧之间的主要区别在于精细的细节。至于HV区域，帧之间的整体外观差异很大，可能会从不同角度提供粗略的补充信息。

对二值化的时间差分图应用3×3大小的中值滤波器，并通过一组形态学操作对结果进行进一步处理，以获得LV区域的差分掩模，HV区域的差分掩膜被计算为，相邻帧的LV与HV区域被计算为：

由于自然图像的平滑度，LV区域更可能对应于帧间小运动的区域，而HV区域可能对应于大运动的区域。因此，它们应该由具有不同感受野的不同模型处理。LR空间中的时间建模这里以t时刻的LV区域分支为例。LV区域分支的输入为掩膜帧和前一步长的隐藏状态，叠加起来由一个卷积层和几个残差块进一步处理。

通过这种方式，循环单元能够从随时间变化和运动较小的区域中收集补充信息。HV区域的分支以类似的方式设计，但所有卷积层都配备了参数为2的扩张率，以处理具有更大感受野的大运动。LV和HV分支的输出分别表示为和。

HR空间中的时间建模HR空间中的时间差分在相邻时间步之间建立了一座桥梁，这样信息就能够传播到当前时间步进行细化。每个分支的输出和被合并并送至三个残差头，即空间残差头（Spatial-Residual Head）、过去残差头（Spatial-Residual Head）和未来残差头（Future-Residual Head）。