CV干货,第一时间送达
[arXiv:2111.12704], [code]
Abstract
真实场景视频数据的多样性、退化的复杂性为视频超分带来了极大的挑战。尽管时序上的长距离传播可以有效改善轻度的重建质量,但真实场景的重度退化则会伴随长距离传播损害重建质量。
为平衡细节生成与伪影抑制,我们发现:预清洗(pre-cleaning)对于降低噪声与伪影不可或缺 。武装上精心设计的预清洗模块后,所提RealBasicVSR在重建质量与效率方面超越了已有方案。
真实场景的视频超分往往采用多样性的退化数据训练提升模型泛化性能,这就需要更大的batch以生成稳定的梯度。但计算负载的增加又会导致:(1) 速度-性能均衡;(2)batch-length均衡。
为缓解第一个均衡问题,我们提出了随机退化机制,它可以取得40%的训练加速且不会牺牲性能。我们进一步分析不同的训练配置并建议:采用更长的训练序列(而非更大的batch)可以更高效的利用时序信息。
为促进对比,我们还提出一个新的数据集VideoLQ,它包含丰富纹理的低质真实场景视频,可作为未来真实场景视频超分研究的基准数据集。
Tradeoff in Inference
BasicVSR在非盲视频超分领域取得了非常好的指标,同时也是今年NTIRE2021竞赛视频增强方向的冠军(四个赛道三冠一亚)。但是,它在真实场景的表现仍差强人意,见下图对比。
从上图可以看到:在非盲场景,BasicVSR具有非常好的结果,同时伴随帧数增加,性能可以大幅改善;而在真实场景中,轻度退化时的性能尚可,重度退化时则会引入新问题:增强噪声、产生伪影。而如果仅处理一帧的话,BasicVSR可以移除噪声,产生平滑的结果。因此,在增强细节与伪影抑制方面需要进行均衡 。
受上述分析启发,我们提出了一种简单的“即插”模块为时序传播抑制退化先验,见上图。也就是说,输入图像首先经过该块进行退化移除操作,可以描述如下:
经上述模块清洗后的图像将送入到VSR模型中进行处理,描述如下:
为更好的引导预清洗模块,我们添加了如下损失约束:
注:z_i,d 分别表示GT与下采样操作,rho 表示Charbonnier损失。此外,我们还使用了如下损失引导预清洗模块训练:
但是,简单的进行上述预清洗可能无法有效的移除过度退化问题。针对此,作者提出了一种动态提炼机制(测试时使用),描述如下:
注:对于非GAN模型,theta=1.5 ;对于GAN模型,theta=5 。
上面两个图的实验对比说明了,动态提炼机制的有效性:既不会导致过度模糊,同时可以有效的移除噪声与伪影。
在预清洗模块的架构方面,作者采用了简单的残差模块堆叠方式;在VSR方面,作者对BasicVSR进行了简化,将残差模块数从60降低到40,以保持相当的复杂度。
Tradeoff in Training
在真实场景中,视频超分模型需要通过多样性的退化数据进行训练。进而导致,需要采用更大的batch稳定梯度、更长的序列长度提升重建质量、更多的计算资源。但计算资源往往是有限的,作者将其拆分为两个子问题:(1) 速度-性能均衡;(2) batch-length均衡。
针对速度-性能均衡,作者提出了随机退化机制,它可以大幅提升训练速度且不会牺牲性能,见上图。
上表给出了不同机制的训练速度与指标对比,可以看到:所提随机退化机制可以大幅减少待处理图像,降低CPU负载,进而消除了IO瓶颈,提升了40%训练速度。
针对batch-length均衡,作者进行了消融分析,见上图。当计算资源有限 时,建议采用更长的序列 。
VideoLQ数据集
为更好的评估真实场景视频超分,作者构建了 VideoLQ数据集,部分样例见上图。该数据集从不同的网站下载,为确保多样性,视频包含不同分辨率、不同内容以覆盖尽可能多的真实退化。对每个视频,作者从中抽取100帧无场景切换的视频序列。
关于BasicVSR与BasicVSR 的详细信息可参考如下解读:
视频超分新标杆 | BasicVSR&IconVS
CVPR2021 | NTIRE2021竞赛"三冠一亚"方案BasicVSR ,Vid4新巅峰29.04dB
Experiment
在训练数据方面,训练数据为REDS,作者采用了Real-ESRGAN中的二阶退化方案,此外还引入了视频压缩。在对标方法方面,包含RealSR、DAN、Real-ESRGAN、BSRGAN、BasicVSR 、RealVSR、DBVSR。
上表给出了所提方案与其他方案的性能对比,从中可以看到 :所提RealBasicVSR取得了 最佳指标 。
上图对比了不同方案的视觉效果,可以看到:RealBasicVSR具有最佳的重建质量 。