刷新SOTA ! 视频恢复的重中之重:时间对齐!

2021-12-13 14:34:05 浏览数 (1)

作者单位:港中文、思谋科技

代码语言:javascript复制
论文链接:https://arxiv.org/pdf/2111.15288
代码链接:https://github.com/redrock303/Revisiting-Temporal-Alignment-for-Video-Restoration.git

编者言:本文主要侧重对视频帧中时间对齐的研究,提出了一种迭代对齐的方式来精细视频帧之间的对齐,从而成功的刷新了众多视频low-level领域的成绩!代码也已开源!

看点

对于视频恢复任务来说长距离时间对齐是重要的且具有挑战性的。最近的一些工作将长时间对齐划分为渐进处理的子对齐。尽管此操作有助于对远距离通信进行建模,但由于传播机制,误差累积是不可避免的。

本工作提出了一种迭代对齐模块(IAM),该模块采用逐步细化的子对齐方案,产生了更精确的运动补偿。此外,本文还提出了一种非参数重加权方法(ARW),以空间方式自适应地计算每个相邻帧的重要性以进行聚合,在多任务上实现了SOTA。

方法

Overview

框架如下图所示。在特征提取模块中,输入帧首先使用阶梯卷积进行降采样,用于视频去模糊/去噪,同时在SR的相同分辨率下进行处理。然后,我们利用建议的IAM将输入帧与中心帧对齐。

为了简单起见,我们只考虑在一边对称地处理另一边的单边对齐。然后,设计了一个自适应重加权模块来融合对齐的特征。最后,通过将预测的残差添加到原始(用于视频去模糊/去噪)或上采样(用于视频SR)输入图像中来获取输出。

特征提取模块

如下图所示,首先利用两个步长为2的卷积来降低视频去模糊和去噪的特征分辨率以提高计算效率,在视频SR中则分辨率不变。然后利用另外两个步长为2的卷积来获得输入帧的金字塔表示,最后将金字塔特征用单个卷积进行融合。

时间对齐

如下图所示,现有的对齐方法大致可分为两类:(a)完全独立地进行帧到帧对齐(b)在循环中顺序执行对齐的渐进对齐。与上述不同,本文提出的算法基于先前的估计迭代地细化子对齐,如图(c)。

对于第一次对齐:

mathcal{A}_{1}: a_{1}left(mathbf{F}_{1}, mathbf{F}_{0}, t=1right) Rightarrow hat{mathbf{F}}_{1}^{0}, mathbf{h}_{1}^{1}

其中表示中子对齐的对齐结果。第二次对齐表示为:

mathcal{A}_{2}:left{begin{array}{l} a_{2}left(mathbf{F}_{2}, mathbf{F}_{1}, t=1right) Rightarrow hat{mathbf{F}}_{2}^{1}, mathbf{h}_{2}^{1} \ a_{1}left(hat{mathbf{F}}_{2}^{1}, mathbf{F}_{0}, mathbf{h}_{1}^{1}, t=2right) Rightarrow hat{mathbf{F}}_{2}^{0}, mathbf{h}_{1}^{2} end{array}right.

对于中的子对齐,将预先估计的运动场作为初始并进行细化,以此类推,形成迭代优化。这样的好处有如下两点:1. 通过迭代优化,子对齐将更加精确。2. 子对齐不仅依赖于预对齐的特征,还依赖于预估计的运动场,使其更加可靠。

不难观察,对于2N帧相邻帧,上述方法需要N(N 1)次对齐。相比之下,独立和渐进式方案仅需要2N次。为此,本文设计了一种参数少得多的轻型子对齐单元,如下图。

以第i次子对齐为例,首先利用两次卷积与ReLU,从源特征和目标特征的串联中估计初始运动场

之后,

被预测为:

mathbf{h}_{i}^{k 1-i}= begin{cases}mathbf{h}_{i}^{c}, & i=k \ thetaleft(mathbf{h}_{i}^{c}, mathbf{h}_{i}^{k-i}right), & text { others }end{cases}

其中,使用一个卷积和两个残差块(θ)来精细预测。最后,用可变形卷积从源特征自适应内容采样:

hat{mathbf{F}}_{k}^{i-1}=operatorname{DConv}left(hat{mathbf{F}}_{k}^{i}, mathbf{F}_{i-1}, mathbf{h}_{i}^{k 1-i}right)
自适应重加权

最近,注意机制成为聚合多帧信息的流行机制。相比之下,本文提出了一个非参数重加权模块从两个角度显式地计算对齐帧的空间自适应。该模块先计算对齐帧相对于参考帧的精度,然后测量对齐的相邻帧的一致性,如下图所示。

基于精度的重加权:如(a)所示。对于参考

,位置(x,y)处的特征向量表示

。找到对齐帧中对应的3×3补丁相同位置,计算余弦相似性(归一化内积)如下:

mathbf{S}_{k}^{x, y}(Delta x, Delta y)=frac{hat{mathbf{F}}_{k}^{0}(x Delta x, y Delta y)}{left|hat{mathbf{F}}_{k}^{0}(x Delta x, y Delta y)right|_{2}} otimes frac{mathbf{v}_{0}}{left|mathbf{v}_{0}right|_{2}}
mathbf{S}_{k}^{x, y}(Delta x, Delta y)=frac{hat{mathbf{F}}_{k}^{0}(x Delta x, y Delta y)}{left|hat{mathbf{F}}_{k}^{0}(x Delta x, y Delta y)right|_{2}} otimes frac{mathbf{v}_{0}}{left|mathbf{v}_{0}right|_{2}}

其中,是位置(x,y)处的3×3相似性图,⊗表示内积。然后将Softmax函数应用于的空间维度,产生像素权重,用于融合3×3补丁上的特征向量,重新加权的结果如下所示:

overline{mathbf{F}}_{k}^{0}(x, y)=sum_{Delta x, Delta y} mathbf{W}_{k}^{x, y}(Delta x, Delta y) odot hat{mathbf{F}}_{k}^{0}(x Delta x, y Delta y)
overline{mathbf{F}}_{k}^{0}(x, y)=sum_{Delta x, Delta y} mathbf{W}_{k}^{x, y}(Delta x, Delta y) odot hat{mathbf{F}}_{k}^{0}(x Delta x, y Delta y)

其中为哈达玛积。基于一致性的重加权: 首先计算对齐的相邻帧的平均值,如上图(b)所示,一致性被计算为:

mathbf{C}_{k}=exp left(alpha cdotleft|hat{mathbf{F}}_{k}^{0}-hat{mathbf{F}}_{a v g}^{0}right|_{2}^{2}right)
mathbf{C}_{k}=exp left(alpha cdotleft|hat{mathbf{F}}_{k}^{0}-hat{mathbf{F}}_{a v g}^{0}right|_{2}^{2}right)

的值为-1。最后将基于精度的重加权特征乘以一致性映射,得到精细后的结果。

实验

消融实验

IAM和ARW的消融实验:

不同IAM和ARW的设置的消融实验:

在REDS4和REDS4-Fast1上评估了算法以及最新的视频SR模型方法,模型在大运动的情况下带来了显著的改进,证明了我们的IAM在长距离对准中的有效性。

定量评估

在REDS与VID4上的SR定量评估:

Set8和DAVIS上的去噪定量评估:

VDB-T上的去模糊定量评估:

0 人点赞