CVPR2023 | 使用条件生成器进行多重真实感图像压缩

题目：Multi-Realism Image Compression with a Conditional Generator 作者：Eirikur Agustsson, David Minnen 等来源：CVPR 2023 文章地址：https://arxiv.org/abs/2212.13824 内容整理：杨晓璇本文提出一种将图像压缩的解码器与条件生成对抗网络结合的模型。MSE 不再是评价解码图像的唯一标准，通过调节因子

beta

，可以获得高感知质量的解码图像。这可以使得在低码率条件下解码的图片能使人的感知更愉悦，同时生成器也不会影响图像的真实性。通过本文的方法，"失真-感知" 得到权衡，在高感知质量条件下有更低的图像损失，在低图像损失下有更好的感知质量。

动机和贡献

有损图像压缩考虑用于存储输入图像的比特数和重建图像与原始图像的接近程度之间的权衡。当使用更多的比特数时，重建图像能够更接近输入图像。这个想法在基本的“速率-失真”权衡中得到了形式化，其中“速率”代表比特率，“失真”是为输入图像和重建图像之间的均值平方误差（MSE）。

但在低比特条件下，纯粹的“速率-失真”优化会导致重建图像存在伪影。因为以 MSE 为目标，最优的重建时映射到给定表示的所有图像的平均图像。直观上，人们更喜欢清晰且纹理自然的“感知重建”，而不是平均图像重建。“感知重建”的 MSE 可能比平均图像差，但用户可能会发现它在感知上更令人愉悦且不那么虚假。这其中就存在着“失真-感知”的权衡问题。

作者在 2020 年的工作已经成功地优化了“速率-失真-感知”的三重权衡。但是，有一个警告：由于感知约束可能会产生远离输入的重建，因此重建图像可能会受到怀疑，因为不清楚哪些细节是原始的，哪些是由架构添加的。

作者通过训练一个解码器来解决这个问题，在给定单个压缩表示的情况下，该解码器要么生成很少或不生成细节的重建，要么生成细粒度细节，或介于两者之间的任何内容。接收器可以决定生成多少细节，因此根据“感知因子”

beta

来调节解码器，接收器可以从单个表示

hat y

产生完整的、不同“失真-感知”的图像。图 1 展示了这个过程：当

beta=0

时，解码器只考虑 MSE 失真，会重建失真更低的图像；当

beta

增大时，重建图像的感知质量会提高，但会造成一定的失真。

图 1 从同一表示

hat y

中解码不同的重建图片

本文的主要贡献总结如下：

通过使用条件生成器在图像压缩表示中权衡失真和感知之间的关系，在生成和非生成压缩世界之间架起桥梁。
本文模型在高分辨率基准数据集的“失真-感知”方面实现了新的最先进水平。本文的方法在高感知质量下实现了更好的失真，在低失真（高 PSNR）下实现了比以往更好的感知质量。

提出的方法

整体架构

在本文中作者并未展示模型整体架构的图像，只是提到参考作者之前的工作《High-Fidelity Generative Image Compression》（以下提到称 HiFiC）。在此展示 HiFiC 文章中的模型架构示意图，见图 2。

图 2 模型整体架构

模型整体依旧使用了经典的超先验架构，但在解码器端结合了生成对抗网络（GAN）。模型可看作有以下三部分组成：

编码器 E
既是解码器，又是 GAN 中的生成器 G
判别器 D

有损图像压缩模型使用的是“速率-失真”权衡损失函数：

mathcal{L}_{RD}=mathbb{E}_{xsim p_X}[r(hat y) lambda MSE(x,hat x)]quad(1)

通常，通过改变

lambda

来训练一组模型，这会导致模型覆盖不同的比特率。

判别器 D 用来预测给定

是对应于表示

hat y

的真实图像的概率。GAN 网络的损失函数为：

mathcal{L}_G=mathbb{E}_{hat ysim p_Y}[-log(D(hat y,G(hat y)))]\ mathcal{D}_G=mathbb{E}_{hat ysim p_Y}[1-log(D(hat y,G(hat y)))] mathbb{E}_{xsim p_X}[-log(D(E(x),x))]quad(2)

另外，生成器 D 依赖于因子

beta

，具体机制在下一小结介绍。为了从压缩表示中重建图像，接收器选择一个

beta

的值，

betain[0,beta_{max}]

，然后运行生成器 G 得到

hat x_{beta}=G(hat y,beta)

。结合有损图像压缩模型和 GAN 模型的损失函数可得到：

mathcal{L}_{EGD}=mathbb{E}_{xsim p_X}[lambda'r(hat y) d(x,hat x_{beta}) beta(-logD(hat y,hat x_{beta}) C_Pmathcal L_P(x,hat x_{beta}))]quad(3)

其中前两项是有损图像压缩的损失函数，需要注意的是此时的

lambda

在速率项上，这是为了针对不同的比特率，而不改变与其他项相比的失真的相对权重。第三项是生成器的损失函数，第四项是感知质量，这两项共同受

beta

的控制。

mathcal L_P

是 LPIPS，是一种感知相似性的度量标准，

C_P

则是一个超参数。

在训练过程中，对

beta

进行均匀采样最小化

mathbb E_{betasim U(0,beta_{max})}mathcal L_{EGD}(beta)

。在训练过程中

beta_{max}=5.12

，推断过程中可以任意选择

beta

的值来得到不同权衡的重建图像，其中

beta_{max}=2.56

。

调节因子

图 3 所示是

beta

调节因子作为条件的作用机制，将其称为 FourierCond。灵感来自于扩散模型在 timestep 上的条件。首先，通过计算傅里叶特征得到所有层共享的特征

f(beta)

，然后应用两层的 MLP 将

f(beta)

投影到 G 中的每个残差块的卷积层。

图3 调节因子

beta

的作用机制

实验结果

数据集

从大量高分辨率图像中提取的 256 像素切片上训练本文方法，其中每个图像都会随机调整大小，以使短边在 500 到 1000 像素之间。在以下常见基准数据集评估图像压缩：Kodak 和 CLIC 2020。对于 Kodak，只评估 PSNR，因为它的图像太少，无法可靠地估计 FID。对于 CLIC 2020，评估 PSNR 和 Frechet Inception Distance score（FID，用于评估由生成性对抗网络生成的图像的质量）。作者还在常用于评估生成模型的数据集：MS-COCO-30K 上进行评估 FID 和 PSNR。

Baseline

SOTA MSE Baseline：ELIC 模型架构，熵模型替换为 Charm（来自于本文团队的工作），并将解码器中的 N 调整为 256（与本文模型对齐）。所得的模型在 PSNR 评估下与 ELIC 相当，在 Kodak 上约有 0.1dB 的差距。

GAN baseline：固定

beta = 2.56

训练模型，即与本文的主要模型相似，但是只能针对单个“失真-感知”权衡的非条件生成器。作者使用这个 baseline 来调整 LPIPS 的权重

C_P

和因子

beta

，然后将生成的

C_P

用于本文的主要模型。

其余的 baseline 包括该团队之前提出的模型 HiFiC，Charm，以及传统图像压缩模型 BPG 和 VTM。

结果展示

图 4 所示是本文的主要实验结果，在 MS-COCO 和 CLIC 两个数据集上分别测试了 PSNR 和 FID。图 4 表明，本文的模型可以在“失真-感知”权衡上实现新的最先进技术：在高感知质量方面（

beta = 2.56

），模型与最先进的生成方法 HiFiC 在 FID 上的评估相当或更优，同时在 PSNR 评估上显著优于 HiFiC。在低失真方面 (

beta = 0

)，模型在 PSNR 评估下表现出色，接近 SOTA MSE Baseline，同时在 FID 评估下显著优于它。

总结来说，本文模型在高

beta

模式下比 HiFiC 得到了更接近于输入图像的结果，也就是更高的 PSNR；同时在低

beta

模式下获得了比 MSE 模型跟高的感知质量。

图4 MS-COCO（上）和 CLIC 2020（下）的结果

结论

本文提出了一种能够从压缩图像的单一表示的输出不同“失真-感知”权衡的方法，接收器可以从中解码高感知质量重建（高

beta

）或高 PSNR 重建（低

beta

）。在失真 (PSNR) 与感知质量 (FID) 方面，本文的方法可以达到新的最先进水平。

这是第一个单一解码器方法，它允许在接收器端实现感知质量和失真之间的权衡，而不改变比特流。这意味着，根据使用情况，用户可以选择查看尽可能接近原始图像的重建，或者切换到查看具有更令人愉悦的（生成的）细节的图像。

作者希望本文的发现能够激发进一步的工作，以突破感知质量与失真权衡的界限。

工作函数架构模型数据

0 人点赞