AdaDM: 让超分网络不仅可以用BN,性能还可以更优

2021-12-02 13:44:12 浏览数 (1)

CV干货,第一时间送达

arXiv: 2111.13905

code : https://github.com/njulj/AdaDM

Abstract

规范化技术(如BN)是CNN领域非常重要的技术,有助于加速训练、提升泛化精度。然而,在图像超分领域,规范化技术会降低特征的灵活性,故被EDSR之后各大超分方案剔除在外。

本文从定量与定性角度对该现象进行了分析并发现:残差特征的标准差经规范化后会大幅收缩,进而导致超分性能的退化。标准差能够反映像素值的变化量,当方差变小时,图像的边缘特征的辨别能力进一步降低。

为解决该问题,本文提出了一种AdaDM(Adaptive Deviation Modulator),它可以自适应调整像素方差。为更好的泛化性,我们将BN与AdaDM嵌入到已有超分中。我们发现:AdaDM的自适应方差幅值调整策略使得边缘特征更具判别力,进而导致带BN与AdaDM的超分模型取得了更高的性能。

Motivation

为更好的理解,我们首先构建了三个残差模块T1、T2以及T3,见上图。需要注意的是,我们假设T1、T2以及T3具有相同的权值。从上图Figure2b可以看到,hat{x} 表示经LN变换后的特征,计算方式如下:

hat{x} = frac{x-mu}{sigma}

卷积采用f_{conv} 表示,那么输出gamma

可以表示如下:

gamma = f_{conv}(hat{x}) = f_{conv}(frac{x-mu}{sigma})

按照卷积的相关特性,上式可以进一步优化为如下形式:

gamma = frac{1}{sigma}f_{conv}(x) - frac{1}{sigma}f_{conv}(mu I)

而Figure2a的输出则表示为:y = f_{conv}(x) 。对比两式可以发现:y

的像素分布被LN进行了重塑 。而在图像超分中,我们更关心像素方差,因其可以更好的反映边缘特征。因此,我们重新计算gamma 的标准差:

std(gamma) = std(frac{1}{sigma}f_{conv}(x) - frac{1}{sigma}f_{conv}(mu I)) \ = frac{1}{sigma} (f_{conv}(x)) \ = frac{1}{sigma}(y)

从上式可以看到:经过特征规范化后像素标准差降低到 1/sigma 。为更好的补偿像素方差损失,我们在T3中对gamma 乘以sigma 以保持像素方差一致性(可理解为方差放大):

hat{gamma} = gamma cdot sigma

基于上述分析,我们将训练三个有T1、T2以及T3构建的超分模型M1、M2以及M3。我们以EDSR作为基线并替换其残差模块,模型训练曲线见下图。从中可以看到:M2的性能比M1差很多,这与EDSR一文的分析相一致而M3通过引入方差放大机制避免了该问题并进一步提升了模型性能。

Method

Adaptive Deviation Modulator

在这里,我们需要一种机制:对残差特征的像素方差进行复原且能适配不同网络架构。因此,我们提出了AdaDM促使网络在训练过程中学习方差放大因子。

AdaDM模块结构图见上图,其计算公式如下:

hat{gamma} = gamma cdot e^{phi(log(sigma(x)))}

也就是说:上述调制机制是在对数空间进行的(作者认为这样做具有更好的稳定性)。

AdaDM with EDSR, RDN and NLSN

上图给出了AdaDM与不同超分架构核心模块的组合示意图,即在每个卷积前插入BN,在残差分支的尾部插入AdaDM。

Ablation Study

在正式给出最终效果之前,我们先进行一些消融实验分析。首先,我们先看一下BN位置的影响,对比了两种形式的残差模块,见上图与表。从中可以看到:

  • BN置于Conv之后的SRRB(即SRResNet)的性能要弱于EDSR,这与EDSR的分析相一致;
  • BN置于Conv之前的PreRB的性能与EDSR相当或更好,这与本文的分析相一致。

上表对比了AdaDM的影响,从中可以看到:

  • 仅使用AdaDM会导致模型不收敛;
  • BN与AdaDM的组合可以提升模型性能,进一步验证了AdaDM的作用。

尽管AdaDM能够取得轻微的性能提升,但仍不确定:性能提升是源自方差放大还是额外添加的跳过连接 ?为进一步验证,我们对额外的跳过连接进行detach处理,即无梯度回传。

上表给出了两个模式的模型性能对比可以看到:

  • 在Set5、B100与Urban100数据集上,两者性能相当;
  • 在Set14数据集上,detached版本性能高0.1dB
  • 在Manga109数据集上,detached版本性能低0.05dB;
  • 基于此,我们可以得出结论:BN AdaDM组合的性能提升源自方差放大机制。

Main Results

上表与图给出了所提方案与其他超分方案的性能与可视化效果对比,从中可以看到:改进版EDSR、RDN以及NLSN均取得了更优的性能

上表给出了DF2K训练的模型性能对比,CRAN与DFSA均为当前SOTA方案,从中可以看到:采用DF2K训练的方案甚至取得了比CRAN与DFSA更高的指标

db

0 人点赞