ETDM:基于显式时间差分建模的视频超分辨率(CVPR 2022)

2022-04-20 08:31:11 浏览数 (2)

作者单位:快手、大连理工、港理工、北大、鹏城实验室

论文:https://arxiv.org/pdf/2204.07114.pdf

笔者言: 之前的循环VSR方法大多将相邻帧参考帧以及前一时刻的SR输出作为输入,本文将未来的SR输出也参与进参考帧的重建,通过伪相邻SR的方式精进细节,这让笔者眼前一亮。

看点

大多数VSR都采用光流或可变形卷积进行运动补偿。然而,这种时间建模技术增加了模型的复杂性,并且在遮挡或复杂运动的情况下可能会失败。本文旨在探索显式时间差分建模在LR和HR空间中的作用,通过计算帧之间的时间差异,并根据差异程度将这些像素划分为两个子集,而不是直接将连续帧作为输入。

这两个子集分别由不同感受野的两个分支处理,以便更好地提取补充信息。此外,为了提高重建效果,不仅提取了空间残差特征,还计算了高频域中连续帧之间的差异。它允许模型利用未来和过去的中间SR结果来优化当前SR输出。不同时间步的差异被存储,以便将来自更远时间的信息传播到当前帧进行细化。

方法

Overview

显式时间差分建模(ETDM)以单向循环的方式进行。对于每一个时间步,ETDM获取参考帧、相邻帧和之前估计的SR结果作为输入,框架如下图所示:

在LR空间中,提出的区域分解模块计算参考帧和相邻帧之间的差异。此外,它根据差异程度将相邻帧分解为低方差(LV)和高方差(HV)区域。然后,它们分别由两个具有不同感受野的CNN分支处理,以便更好地提取补充信息。

该模型预测HR空间中相邻时间步的SR输出之间的时间差异,这使得当前步骤的超分辨率能够受益于过去和未来时间步的初始SR结果。此外,通过缓存两个指定时间步之间的所有时间差,可以自然地将前向和后向传播从一个时间步扩展到任意时间顺序。

显式时间差分建模

时间差分VSR的目标是利用相邻帧的互补信息为参考帧重建更丰富的细节。下图显示了两个连续帧之间像素级的差分图。这张图motivate作者根据时间差分将相邻帧的区域划分为低方差(LV)和高方差(HV)。LV区域的整体外观变化较少。因此,帧之间的主要区别在于精细的细节。至于HV区域,帧之间的整体外观差异很大,可能会从不同角度提供粗略的补充信息。

对二值化的时间差分图应用3×3大小的中值滤波器,并通过一组形态学操作对结果进行进一步处理,以获得LV区域的差分掩模,HV区域的差分掩膜被计算为,相邻帧的LV与HV区域被计算为:

由于自然图像的平滑度,LV区域更可能对应于帧间小运动的区域,而HV区域可能对应于大运动的区域。因此,它们应该由具有不同感受野的不同模型处理。LR空间中的时间建模这里以t时刻的LV区域分支为例。LV区域分支的输入为掩膜帧和前一步长的隐藏状态,叠加起来由一个卷积层和几个残差块进一步处理。

通过这种方式,循环单元能够从随时间变化和运动较小的区域中收集补充信息。HV区域的分支以类似的方式设计,但所有卷积层都配备了参数为2的扩张率,以处理具有更大感受野的大运动。LV和HV分支的输出分别表示为和。

HR空间中的时间建模HR空间中的时间差分在相邻时间步之间建立了一座桥梁,这样信息就能够传播到当前时间步进行细化。每个分支的输出和被合并并送至三个残差头,即空间残差头(Spatial-Residual Head)、过去残差头(Spatial-Residual Head)和未来残差头(Future-Residual Head)。

前后细化

本节将详细介绍HR空间的时间差分和其他时间步的估计如何有助于优化当前时刻的SR结果。基于双向的VSR结果较好,这归功于其双向传播,这使得模型能够从整个序列中聚合信息。

损失函数

实验

消融实验

针对区域分解模块、正向和反向细化的消融实验:

将所提出的前后传播与其他类型的单向传播和双向传播方法进行了比较。为了进行公平比较,删除了所提出模型的LV和HV分解步骤,并尝试保持其参数数量与其他两种方法相同,如下图所示:

中间SR和细化SR结果的可视化如下图,可见前后细化产生更锐利的边缘和更精细的纹理。

定量评估

与BasicVSR 的29.04dB相差0.23dB,此处不展示基于transformer的方法了,毕竟参数量不是一个量级(吐槽:DAP都参与定量评估了,为什么不添加BasicVSR 呢)

定性评估
文末言

论文中还是有很多细节是值得考虑与深挖的,对下图表述感觉有疑问的可以详见原文

END

0 人点赞