ICCV2023 | 将基于 Transformer 的图像压缩从人类感知转移到机器感知

题目：TransTIC: Transferring Transformer-based Image Compression from Human Perception to Machine Perception 作者：Yi-Hsin Chen, Ying-Chieh Weng 等来源：ICCV 2023 文章地址：https://arxiv.org/abs/2306.05085 内容整理：杨晓璇这项工作旨在将基于 Transformer 的图像压缩编解码器从人类感知转移到机器感知，而无需对编解码器进行微调。本文提出了一种可转移的基于 Transformer 的图像压缩框架，称为 TransTIC。TransTIC 采用提示生成器，将特定于实例的提示注入编码器，将特定于任务的提示注入解码器。实验表明，本文提出的方法能够将基本编解码器转移到各种机器任务，并且显着优于竞争方法。这项工作是在下游图像压缩任务上利用提示的首次尝试。

引言
模型
- 整体架构
- 提示 Swin-Transformer 块
实验
- 实验设计
- 训练
- 结果
结论

引言

一般来说，大多数学习的图像压缩系统主要是为了人类感知设计的。最近，由于针对高级识别任务跨设备传输视觉数据的需求不断增长，用于机器感知的图像编码成为一个活跃的研究领域。如果为用于不同机器感知任务的图像编码设计一个通用的编码器，则很难实现最近的速率-失真权衡。但如果为每一个任务都定制编码器的代价远远超过了可承受范围。

受 Visual Prompt Tuning 这篇文章的启发，本文提出了一种插件机制，它将额外的可学习输入（称为提示）注入到固定的基本编解码器中。

图 1. TransTIC 示意图

本文的主要贡献如下：

在不微调编解码器的情况下，通过向编码器注入特定于实例的提示和向解码器注入特定于任务的提示，将训练好的基于 Transformer 的图像编解码器从人类感知转移到机器感知。
这项工作是首次尝试在下游图像压缩任务中使用提示技术。
本文提出的插件的特性使得集成任何其他基于Transformer 的图像编解码器变得容易。
大量的实验表明，本文的方法在复杂的机器任务上比其他基于迁移的方法取得了更好的速率准确度性能。

模型

整体架构

图 2 是 TransTIC 的总体架构，该架构建立在 Transformer-based image compression 提出的模型上。不同之处在于上下文先验模型被替换为简单的高斯先验模型以进行熵编码。主编解码器

g_a

、

g_s

和超先验编解码器

h_a

、

h_s

包括 Swin-Transformer 块（STB）作为基本构建块。这些 STB 与卷积层交织在一起，以适应特征分辨率的变化。在这项工作中，主编码器和超先验编码器针对人类感知（即图像重建任务）进行了预训练，并且它们的网络权重在传输过程中是固定的。

图 2. TransTIC 的总体架构

迁移

g_a

、

g_s

以使解码图像

hat x

适合机器感知，将 (1)

g_p

生成的特定于实例 (instance-specific, IP) 的提示注入

g_a

中的前两个 STB，(2) 将特定于任务 (task-specific, TP) 的提示注入

g_s

中的所有 STB。需要注意到，提示生成器

g_p

和输入到解码器的特定任务提示是可学习的，并根据机器感知任务进行更新。

提示 Swin-Transformer 块

STB 是模型设计的核心。图 3(c) 详细说明了其数据处理流程。它由多个Swin-Transformer 层组成（图 3(b)）。

图 3. STB 的详细设计

特定于实例的提示 在编码器侧，引入了一个特定于实例的提示生成器

g_p

，它根据输入图像为前两个 STB（称为IP型STB）生成特定于实例的提示。

g_p

本身是特定于任务的，因为它的网络权重是针对特定的下游机器任务进行训练的。图 3(d)描述了 IP 型 STB 的内部工作原理。它们的操作与普通 STB 类似，只是在第 i 个 Swin-Transformer 层中引入了额外的单独提示

。

进行与特征

同样的分割和展平。在窗口收集步骤中，仅收集图像 token，而丢弃提示 token。

Q=FW_Q\ K=[F;P]W_K\ V=[F;P]W_V quad(1)

特定于任务的提示 与编码器不同，解码器采用特定于任务的提示，因为输入图像在解码器端不可用。图 3(e) 说明了 TP 型 STB 的操作。与编码器中的 IP 型 STB 类似，TP 型 STB 在不同的 Swin-Transformer 层中用单独的 token

。在 Swin-Transformer 层中，相同的提示在固定大小的窗口之间共享，这一点与特定于实例的提示不同。

实验

实验设计

在三个机器任务上评估本文的方法：分类、对象检测和实例分割。
使用预训练的 ResNet50、Faster R-CNN 和 Mask R-CNN 进行分类、对象检测和实例分割。
采用 top-1 准确率作为分类的质量指标，并采用平均精度（mAP）作为检测和实例分割的质量指标。

训练

损失函数为：

mathcal L=-logp(hat z)-logp(hat y|hat z) lambda d(x,hat x)quad(2)

首先，取

d(cdot)

为均方误差训练编解码器

g_a, g_s, h_a, h_s

。得到适应人眼感知的编解码器。然后固定参数，取

d(cdot)

为感知损失，分别在不同的数据集上训练适应分类、对象检测和实例分割的提示生成器

g_p

。

结果

图 4 可视化了竞争方法的速率-精度图。得到以下观察结果：

TransTIC 和 TIC SFT 在所有识别任务中都优于 TIC 通道选择。这是因为 TransTIC 和 TIC SFT 都能够实现空间自适应编码
TransTIC 在分类任务上的表现与 TIC SFT 相当，在更复杂的任务上表现优于 TIC SFT，例如对象检测和实例分割。这表明提示技术在迁移基于变换的编解码器方面比空间特征变换更有效。
ROI（感兴趣区域）在具有空间自适应能力的方法（即 TransTIC、TIC SFT 和 ROI）之间表现最差。
充分微调达到预期的最佳性能。

图 4. 不同机器任务下的速率-精度性能比较

图 5 展示了由竞争方法产生的解码图像和相应的比特分配图。如图所示，针对人类感知进行优化的基本编解码器 TIC 往往会花费更多的比特来编码复杂区域（例如图 5（a）中的岩石表面和图 5（b）中的背景森林），这可能与下游识别任务不太相关。相比之下，TransTIC 和其他针对机器任务优化的方法将更多位从背景转移到前景，从而产生更清晰的前景物体。

图 5. 结果可视化

结论

本文利用提示技术将训练好的基于 Transformer 的图像编解码器从人类感知转移到机器感知。不需要重新训练编解码器，而是向编码器中的 Swin-Transformer 层引入额外的特定于实例的提示，并向解码器引入特定于任务的提示。实验结果表明，本文的 TransTIC 在各种机器任务上实现了与其他迁移方法相当或更好的速率-精度性能。

对象工作架构模型设计

0 人点赞