抖音图像修复背后技术——CVPR2021多阶段图像修复框架（附github源码下载）

作者：Edison_G

在现实生活中，难免会有老旧照片或者受损图片。在热门的抖音中也频繁出现照片修复特效，其实背后都是我们熟知的“Image Restoration”。图像恢复任务需要在恢复图像时，在空间细节和高级上下文化信息之间保持复杂的平衡。

一、前言概要

本次分享中，研究者提出了一种新的协同设计，可以最优地平衡这些难点。主要研发出的是一个多阶段架构，它逐步学习退化输入的恢复函数，从而将整个恢复过程分解为更易于管理的步骤。

具体地说，新的模型首先使用编码器-解码器架构来学习上下文化的特征，然后将它们与保留的局部信息的高分辨率分支相结合。在每个阶段，都引入了一种新的per-pixel自适应设计，它利用原位监督的关注来重量化局部特征。这种多阶段架构的一个关键组成部分是不同阶段之间的信息交换。

为此，提出了一种two-faceted的方法，其中信息不仅从早期到后期依次交换，而且特征处理块之间也存在横向连接，以避免任何信息的丢失。由此产生的紧密相连的多级体系结构，命名为MPRNet，在十个数据集上提供了强大的性能增益，包括图像去噪、去模糊等。

Image deblurring on the GoPro dataset

研究者通过在十个合成和现实世界的数据集上设置新的最新技术来演示MPRNet的有效性，用于各种恢复任务，包括图像去噪、去模糊和去噪，同时保持低复杂度(见上图)。此外，后文我们还分享了了详细的描述、定性结果和泛化测试。

二、Multi-Stage Progressive Restoration

上图就是提出的图像恢复框架，包括三个逐步恢复图像的阶段。前两个阶段是基于编码器-解码器子网络，它们由于较大的感受野而学习广泛的上下文信息。由于图像恢复是位置敏感任务（需要从输入到输出的像素到像素对应），因此最后阶段使用对原始输入图像分辨率进行操作的子网络（没有任何下采样操作），从而在最终输出图像中保留所需的精细纹理。

整体框架不是简单地级叠多个阶段，而是在每个两个阶段之间合并一个监督注意模块。在对GT图像的监督下，模块重新调用上一阶段的特征映射，然后将它们传递到下一阶段。此外，研究者还引入了一种跨阶段特征融合机制，其中早期子网的中间多尺度上下文特征有助于巩固后一个子网的中间特征。

(a)Encoder-decoder subnetwork. (b)Illustration of the original resolution block (ORB) in our ORSNet subnetwork. Each ORB contains multiple channel attention blocks. GAP represents global average pooling[Wei Liu, Andrew Rabinovich, and Alexander C Berg. ParseNet: Looking wider to see better. arXiv:1506.04579, 2015]. (c)Cross-stage feature fusion between stage 1 and stage 2. (d)CSFF between stage 2 and the last stage.

Supervised Attention Module

最近的图像恢复多阶段网络[Maitreya Suin, Kuldeep Purohit, and A. N. Rajagopalan. Spatially-attentive patch-hierarchical network for adaptive motion deblurring. In CVPR, 2020.]直接预测每个阶段的图像，然后传递到下一个连续阶段。相反，新框架在每两个阶段之间引入一个监督注意模块，这有助于实现显著的性能增益。SAM的示意图见下图。首先，它提供了对每个阶段的渐进式图像恢复有用的GT监控信号。其次，在局部监督预测的帮助下，生成注意力特征图，以抑制当前阶段信息较少的特征，并且只允许有用的特征传播到下一个阶段。

三、实验与分析

上表显示，新方法通过在所有五个数据集上持续获得更好的PSNR/SSIM分数，显著提高了最先进的水平。与最近最好的算法MSPFN相比，新方法获得了1.98dB（所有数据集的平均值）的性能增益，表明误差降低了20。一些数据集上的改进大到4dB，例如Rain100L。此外，新模型比MSPFN少3.7倍的参数，而快2.4倍。

上图显示了具有挑战性的图像的视觉比较。MPRNet有效地消除了不同方向和大小的雨条纹，并生成了视觉上令人愉快和忠实于GT的图像。相反，其他方法会损害结构内容（第一行)，引入artifacts(第二行)，并且不会完全消除雨条纹(第三行）。

上图显示了评估方法中的一些去模糊图像。总的来说，由新模型恢复的图像比其他模型恢复的图像更清晰，更接近GT。

如上图，说明了视觉结果。新方法能够去除真实的噪声，同时保留了结构和纹理的图像细节。相比之下，由其他方法恢复的图像要么包含过于平滑的内容，或者包含具有斑点纹理的工件。

db image

0 人点赞