盲视频超分辨率：南理工提出不用HR参与也能训练的自监督学习方法

作者单位：南京理工大学

论文：https://arxiv.org/pdf/2201.07422.pdf

代码：https://github.com/csbhr/Self-Blind-VSR

编者言：以往的VSR采用监督的方式，生成SR图像与HR进行监督。本文采取自监督的方法（监督LR）来对网络进行训练约束，为盲视频SR算法应用自监督学习的开端之作，代码已开源。

01看点

现有的VSR方法通常依赖于监督学习方法，其中训练数据通常由已知或预定义核（例如双三次核）的模糊操作生成。然而，这并不适用于实际应用。为此，本文提出了一种自监督学习方法来解决盲VSR问题，该方法同时从LR视频中估计模糊核、HR视频和生成辅助配对数据以便对VSR网络进行约束。解决了没有HR做监督的VSR问题。

02方法

Overview

本方法是一种有效的自监督学习方法，使模糊核、光流和潜在的HR帧可以在没有任何HR监督的情况下同时估计。框架由两个分支组成，如下图所示。主分支用于估计模糊核、光流和潜在HR帧，辅助分支使用LR输入帧和模糊核生成的辅助训练数据来约束光流和潜在HR帧的网络训练，这两个分支中的VSR模块共享相同的网络参数。此外，下图还展示了VSR网络的细节架构。

模糊核估计、光流和潜在的HR帧

VSR模快中采用PWC-Net作为光流估计模型，表示光流估计网络，采用PWC-Net的默认网络配置。模糊核估计，特征提取网络和潜在的HR帧恢复网络的结构如下图所示。

自监督学习

由于HR和模糊核不可用，一个简单的训练方法是最小化以下损失函数：

mathcal{L}_{text {self }}=rholeft(mathbf{S K}_{i} mathrm{x}_{i}-mathrm{y}_{i}right)

其中通常取L1范数或2范数。然而，直接最小化通常会导致琐碎的解决方案。为了克服这个问题，本文研究了模糊核的性质和图像形成模型来约束模糊核估计和潜在HR帧恢复过程。由于模糊核的元素通常是稀疏的，故采用一个拉普拉斯先验对的输出进行稀疏化建模：

mathcal{L}_{k}=left|K_{i}right|^{alpha}

其中α是一个超参数，通常取0。为了规范潜在的HR帧恢复过程，本文采用一个基于图像形成模型的视频退化约束，通过将LR作为HR序列来生成辅助LR帧。基于上述性质，的输出应该接近LR。为此，约束可以表示为：

mathcal{L}_{I}=rholeft(mathcal{N}_{I}left(mathcal{C}left[mathrm{L}_{i-N}^{e, w}, ldots, mathrm{L}_{i-1}^{e, w}, mathrm{~L}_{i}^{e}, mathrm{~L}_{i 1}^{e, w}, ldots, mathrm{L}_{i N}^{e, w}right]right)-mathrm{y}_{i}right)

故总的损失函数表示为：

mathcal{L}=mathcal{L}_{text {self }} lambda mathcal{L}_{I} gamma mathcal{L}_{k}

这种SLR的生成方式不禁让编者想起了2021年WACV中的DynaVSR这篇文章，本文可以说是DynaVSR的训练部分的微扩张版本，在HR后增加了下采样，在SLR后增加了上采样，这样就可以只用LR进行监督了。