RealSR新突破|中科大提出全频带区域自适应图像超分|ORNet

标题&作者团队

Paper: https://arxiv.org/pdf/2012.06131.pdf

该文是中科大陈志波老师团队在RealSR方面的一个工作，它从频率角度出发分析了RealSR与SISR之间的关键差异，基于差异所在设计了一种频率分离模块，为达到全频带的复原目的设计了一种区域自适应特征集成模块。所提方法在DRealSR数据上取得了SOTA性能。

Abstract

常规图像超分往往聚焦于解决单一而均匀的退化(比如bicubic下采样)，这就导致了这些方法应用到真实场景(退化方式更为复杂)时性能的极具下降。真实图像超分的关键挑战在于：如何学习informative与content-aware的特征表达。

该文作者提出了一种全频带区域自适应网络(Omni-frequency Region-adaptive Network, ORNet)以解决上述问题，作者将低频、中频以及高频特征合成全频带特征。具体来说，作者从频率角度出发设计了一个频率分离模块以分离不同的频率成分并用于补偿真实LR图像的不同频带的信息损失。与此同时，考虑到真实图像的不同区域具有不同的频率信息损失，作者采用动态卷积与空域注意力设计了一种区域自适应频率集成模块以复原不同区域的频率成分。最后作者通过充分的实验验证了所提方法在RealSR数据上的有效性。

上图给出了RealSR与SISR数据的LR-HR在不同频率带上的信息差异对比。可以看到：SISR的退化主要存在高频成分，而RealSR的退化则存在于全频带。该文的主要贡献包含以下几点：

作者从频率角度分析了SISR与RealSR的本质区别，并回答了为何常规SISR方法不能很好的处理RealSR问题；
基于前述分析，作者提出了ORNet用于RealSR，它包含两个技术创新：(1) 频率分离模块；(2)区域自适应频率集成模块。
在多个RealSR数据集上验证了所提方案的有效性与优越性。

Method

image-20201226205853014

上图给出了本文所提方案的整体流程图，所提ORNet旨在提升RealSR数据上的充分性能，它从频率角度出发设计两个关键模块：(1)频率分离模块；(2)区域自适应频率集成模块。接下来，我们针对这两个模块进行简单的介绍。

Frequency Decomposition Module

为得到有价值的全频带特征表达，作者提出了频率分解模块。所提频率分解模块包含两个阶段：(1) 频率分解；(2)频率增强。

频率分解模块旨在将输入LR分解为低频/中频/高频成分；而频率增强则针对前述所分解的成分进行自适应的增强。为促进不同频带信息之间的交互并采用coarse-to-fine的方式增强频率成分，作者还采用了渐进式方式，即通过concat方式采用增强的更低频表达辅助增强更高频成分。对于FD模块，假设输入表示为

I in R^{h times w times 3}

,它的输出包含三种类型的增强频率特征：

tilde{f}_l, tilde{f}_m, tilde{f}_h

。

Frequency Decompostion Phase 首先，我们需要将输入LR分解为三个不同的频率成分，这种频率成分分离采用通过小波变化、DCT等传统信号处理方法得到。然而，这种确定性的、任务无关的处理方式不可避免的会忽视low-level复原任务的某些重要信息。为模仿小波变换并消除上述信息损失问题，作者提出采用可学习的隐式空域下采样方式对混合特征进行因式分解。该分解过程可以描述如下：

f_l = Conv downarrow_2(Conv downarrow_2(I)) \ f_m = Conv downarrow_2(I) - Conv downarrow_2(Conv downarrow_2(I)) uparrow_2 \ f_h = Conv(I) - Conv downarrow_2 (I) uparrow_2

注：

Conv downarrow_2

表示stride=2的卷积，Conv表示常规卷积，

uparrow

表示bilienar上采样。

Frequency Enhancement Pahse 在完成低频/中频/高频成分提取后，作者提出了一种FEU(Frequency Enhancement Unit)进行频率增强，具体来将，FEU是在GRDB的基础上改进而来。FEU的不同阶段的特征包含不同的信息(比如某些特征聚焦于结构信息，而其他特征则聚焦于纹理细节)，因此常规的融合方式(如Sum)与本文的目的(分而治之)存在出入。为解决该问题，除了采用常规操作(比如ConvReLU与稠密连接)外，作者进一步集成了通道注意力以调整FEU中的残差信息集成，这有助于不同分支在不同阶段有选择的融合相应的频率成分。

与此同时，考虑到高频成分的复原难度问题，作者提出采用coarse-to-fine方式进行渐进式增强。该过程可以描述如下：

tilde{f}_l = Enhance(f_l) \ tilde{f}_m = Enhance(f_l, tilde{f}_l) \ tilde{f}_h = Enhance(f_l, tilde{f}_m, tilde{f}_l)

注：Enhance表示由多个FEU构成的功能单元。

Region-adaptive Frequency Aggregation Module

考虑到RealSR与SISR两者退化的差异性，作者认为：有必要对不同区域进行自适应集成全频带成分以复原更真实的、具有更丰富纹理细节的HR图像。因此，作者提出了区域自适应集成模块，见下图，它通过动态卷积与空域注意力实现。

image-20201226213336897

为忽的区域自适应集成，一种直接的方式是采用空域注意力融合低频/中频/高频成分。然而这种广义的空域注意力仅仅利用了空域上下文信息而忽略了考虑不同频率特征之间的相关性。为获得更好的全频带特征自适应集成，作者提出组合动态卷积与空域注意力的方式。基于所提区域自适应特征图，我们可以得到灵活而精确的频率成分融合。

首先需要对增强的低频/中频/高频特征进行concat融合，描述如下:

tilde{f}_{omni} = [(tilde{f}_l uparrow_2)uparrow_2, (tilde{f}_m) uparrow_2, tilde{f}_h]

此外，作者还构建了一种核函数池

mathcal{K} in R^{m times in times c times k times k}

,这里

m,in,c,k

分别表示滤波器个数、输入通道数、输出通道数以及核函数尺寸；然后将

tilde{f}_{omni}

送入嵌入层以得到系数张量

alpha in R^{htimes w times m}

；最后采用该系数张亮对前述核函数池进行加权得到自适应动态滤波器：

tilde{K} = sum_{n=1}^m alpha_n(i,j,L) K_n

基于所提自适应动态滤波器，我们可以得到区域自适应注意力特征图，计算方式如下：

A(i,j,:) = tilde{f}_{omni}(i,j,:) * tilde{K}

最后的最后，集成的全频率特征可以通过如下方式得到：

f(i,j,:) = A(i,j,:) cdot tilde{f}_{omni}

Experiments

在训练数据方面，作者选用了DRealSR数据，它在x2,x3,x4三个尺度方面分别包含35065、26118、30502图像块，图像块的尺寸分别为

380times 380, 272 times 272, 192 times 192

。在测试数据方面，三个尺寸分别包含83、84、93张图像。

在网络结构方面，FD的三个频率通道分别为128(低频)、128(中频)、64(高频)；RFA中的核函数尺寸为5。

训练过程中，图像块大小为

192times 192

，初始学习率为0.0001，每个epoch衰减0.5，Batch=8，数据增广则采用了常规增广(随机裁剪、随机旋转、随机镜像)。损失函数选用了

L_1

image-20201226215105832

image-20201226215136017

上表&上图给出了所提方法与其他SOTA方法在DRealSR数据上的性能&视觉效果对比。在DRealSR数据上，所提ORNet确实取得了比较好的指标；但是，很明显，ORNet与EDSR、RDN、RCAN这类方式的对比并不在同一个公平的起跑线。

image-20201226215443086

上表给出了所提方法在SISR数据集上的性能对比，所提方法的指标与EDSR相当。这个对比就比较明显了，当把ORNet与EDSR、RCAN、RDN这类方法放到同一个起跑线后，其性能&效果优势就不见了，只是与EDSR相当，而相比SOTA方案(比如RCAN、IGNN、DeFiAN等)仍有不小的差距。

一点点的感触

ORNet从一个比较新颖的角度出发，设计了一种“分而治之”的频率增强方案用于真实图像超分。不过这种“分而治之”的思想在不少paper中具有体现，比如DRealSR一文、RealSR一文等等；巧妙之处在于多分支形式的频率分离并通过“coarse-to-fine”方式进行分频率增强。动态滤波器部分则采用MSRA的DynamicConvolution方式，其巧妙之处在于所提的是注意力图而不是特征。

但是呢，ORNet的性能&效果在SISR数据上并无明显优势，反而计算复杂度更高；尽管该文在DRealSR上的指标不错，但是SISR那些方法鲜少在DRealSR上进行训练，所以实验部分的一些对比有那么一点点的“不公平”。

在SISR方面，现有的超分方案基本上都达到了“性能饱和”，研究者们开始朝着RealSR方向进行更多的探索，也有一些不错的工作，比如Tencent的RealSR(它从数据集角度着手)；而本文则是从网络结构方面着手。

尽管这些方法均取得不错的效果，但这些方法仍是数据驱动，一旦数据分布发生变化则导致性能的急剧下降。真实图像超分问题距离真正解决还有不少的路要走，也期待各位同学有新的突破......

frequency image

0 人点赞