RealBasicVSR：BasicVSR再次升级，破局真实场景视频超分。

CV干货，第一时间送达

[arXiv:2111.12704], [code]

Abstract

真实场景视频数据的多样性、退化的复杂性为视频超分带来了极大的挑战。尽管时序上的长距离传播可以有效改善轻度的重建质量，但真实场景的重度退化则会伴随长距离传播损害重建质量。

为平衡细节生成与伪影抑制，我们发现：预清洗(pre-cleaning)对于降低噪声与伪影不可或缺 。武装上精心设计的预清洗模块后，所提RealBasicVSR在重建质量与效率方面超越了已有方案。

真实场景的视频超分往往采用多样性的退化数据训练提升模型泛化性能，这就需要更大的batch以生成稳定的梯度。但计算负载的增加又会导致：(1) 速度-性能均衡；(2)batch-length均衡。

为缓解第一个均衡问题，我们提出了随机退化机制，它可以取得40%的训练加速且不会牺牲性能。我们进一步分析不同的训练配置并建议：采用更长的训练序列(而非更大的batch)可以更高效的利用时序信息。

为促进对比，我们还提出一个新的数据集VideoLQ，它包含丰富纹理的低质真实场景视频，可作为未来真实场景视频超分研究的基准数据集。

Tradeoff in Inference

BasicVSR在非盲视频超分领域取得了非常好的指标，同时也是今年NTIRE2021竞赛视频增强方向的冠军(四个赛道三冠一亚)。但是，它在真实场景的表现仍差强人意，见下图对比。

从上图可以看到：在非盲场景，BasicVSR具有非常好的结果，同时伴随帧数增加，性能可以大幅改善；而在真实场景中，轻度退化时的性能尚可，重度退化时则会引入新问题：增强噪声、产生伪影。而如果仅处理一帧的话，BasicVSR可以移除噪声，产生平滑的结果。因此，在增强细节与伪影抑制方面需要进行均衡 。

受上述分析启发，我们提出了一种简单的“即插”模块为时序传播抑制退化先验，见上图。也就是说，输入图像首先经过该块进行退化移除操作，可以描述如下：

tilde{x}_i = C(x_i)

经上述模块清洗后的图像将送入到VSR模型中进行处理，描述如下：

{y_i} = S({tilde{x}_i})

为更好的引导预清洗模块，我们添加了如下损失约束：

mathcal{L}_{clean} = sum_i rho(tilde{x}_i - d(z_i))

注：z_i,d 分别表示GT与下采样操作，rho 表示Charbonnier损失。此外，我们还使用了如下损失引导预清洗模块训练：

mathcal{L}_{out} = sum_i rho (y_i, z_i)

但是，简单的进行上述预清洗可能无法有效的移除过度退化问题。针对此，作者提出了一种动态提炼机制(测试时使用)，描述如下：

begin{cases} tilde{x}_i^{j 1} = C(tilde{x}_i^j), text{ if } mean(|tilde{x}_i^j - tilde{x}_i^{j-1}|) ge theta \ tilde{x}_i = tilde{x}_i^{j}, text{ otherwise}end{cases}

注：对于非GAN模型，theta=1.5 ；对于GAN模型，theta=5 。