低复杂度多模型 CNN 环路滤波 for AVS3

论文标题：Low-Complexity Multi-Model CNN in-Loop Filter for AVS3 发表会议：ICASSP 2022 作者：王珅，付一兵，朱辰，宋利，张文军 原文链接：https://ieeexplore.ieee.org/document/9746146

摘要
引言
提出的方法
- 单模型的对比与选择
- CNN 多模型环路滤波方案
实验结果
- 训练细节与测试条件
- 客观评估
- 复杂度分析
结论

摘要

卷积神经网络（CNN）在许多图像/视频处理任务中取得了不错的性能表现。而AVS3作为国内自研的新一代视频编码标准，我们将 CNN 应用于 AVS3 视频编码标准，提出了一个低复杂度多模型 CNN 环路过滤方案。首先通过多个轻量级网络模型对比，选择简化的 ResNet 作为整体方案的基础单模型。然后在这基础上，提出了多模型迭代训练框架，实现多模型滤波器方案。并针对不同的比特率范围对网络深度与多模型数量进行了优化，以实现网络模型性能和计算复杂度之间的权衡。实验结果表明：所提出的方法在 All intra 配置条件下，在 Y 分量上实现平均 6.06% 的 BD-rate 节省。与其他编码性能相当的 CNN 环路滤波器相比，我们所提出的多模型环路滤波方案可以显著降低解码器的复杂性，实验结果表明，解码时间平均可以节省 26.6%。

引言

第三代音频视频编码标准（AVS3）作为新一代视频编码标准，是由国内的 AVS 工作组自主研发的。与 AVS2 相比，AVS3 具有更高的压缩效率，尤其是超高清视频。AVS3 还是采取了基于块的混合编码框架，因此在重建图像中仍存在块效应、振铃效应等等失真，并且在低码率下这些失真会更加的明显，影响观看体验。除此之外，预测效率也会受到失真的影响。

为了减少编码失真，多种环路滤波算法被提出，AVS3 标准采纳了三种环路滤波器：Deblocking filter (DBF)， Sample adaptive offset (SAO),以及 Adaptive loop filter (ALF) 。三种环路滤波器都可以缓解失真带来的影响，并将改善的帧作为后续帧的预测参考。

视频编码框架

近年来，卷积神经网络（CNN）在计算机视觉任务中展现出强大的能力，包括图像超分辨率、边缘检测等。CNN 在视频压缩领域也显示出不错的潜力。在混合编码框架的多个模块中，用于图像恢复的环路滤波最适合通过 CNN 建模。许多基于深度学习的环路滤波方法已经被提出，并可以显著提高编码效率。这些方法一般通过利用视频帧中的空间相关性来构建一个复杂的 CNN 模型。然而，单个 CNN 模型对失真的恢复能力不足以适应各种各样的视频内容和不同的失真类型。这类问题很适合利用集成模型来解决。集合模型的基本思想是通过有效结合多个单一模型的结果来提高网络模型的最终性能。集合模型算法提供了一个解决方案，可以训练多个模型并进行综合预测，从而达到比每个单一模型更好的效果。

因此，我们提出了低复杂度多模型 CNN 环路滤波方案。首先对多个轻量级单模型进行了比较和探索，选择简化版 ResNet 作为网络单模型。进一步应用多模型迭代训练机制训练得到多模型 CNN 网络，并对多模型的数量和网络深度进行了优化。此外还增加了帧级标志位的设计，有助于实现整体性能的优化。最后将低复杂度多模型 CNN 环路滤波器嵌入 AVS3 参考软件 HPM7.1 中测试性能表现。

提出的方法

单模型的对比与选择

选择了五个轻量级的模型作为网络单模型的候选。我们研究了每个架构的主要特征并比较了它们的性能。

单模型候选结构

简要介绍五个候选模型结构。受AVS3提案M5129的启发，我们设计了 Single model 1，它由 20 个堆叠的 ResBlock 组成。Single model 2 的特点是具有不同大小的卷积核，并增加了 Dropout 层。在 Single model 3 中，宽激活机制被添加到 ResBlock 中。在 Single model 4 中，ResBlock 被深度可分离卷积（DSC）所取代，并利用 SE-Block 为每个通道上分配不同的权重。Single model 5 使用下采样卷积层，步长为 2，最后通过 shuffle 操作上采样。

为了进行公平的比较，在相同的训练条件和数据集 DIV2K 下训练了五个轻量级单模型。使用预先训练的模型对 DIV2K 验证集中前十张 QP37下重建图像进行滤波。滤波后的 PSNR 结果和模型复杂度对比见表 I。可以看到，5个单模型中 PSNR 最高的为 Single model 1，并且 Single model 1 的复杂度相对较低。因此选择 Single model 1 作为多模型网络架构的单 CNN 模型结构。

单模型滤波性能与复杂度对比

CNN 多模型环路滤波方案

在许多研究中普遍使用大量的参数来训练一个通用模型，而这可能导致解码器端极高的复杂性。在集成模型的思想下，用多个轻量级的单模型取代复杂模型具有合理性。在确定了单 CNN 模型的结构后，我们提出了多模型迭代训练机制来训练多个单模型。针对不同类型的视频内容建立不同的单模型。迭代的详细过程见算法 1。

多模型训练机制

由于图像失真程度在不同的量化器参数（QP）下有所不同，我们在四个 QP {27,32,37,45}上训练了相应的多模型网络。假设每个 QP 网络分别包含

N_1

、

N_2

、

N_3

和

N_4

个单一模型。多模型 CNN 的网络结构如图 2 所示。在编码器中，对每个大小为 128×128 的 CTU，首先根据 QP 选择相应的多模型网络模型，然后分别使用

N_i

个单模型进行过滤，并进行速率失真优化（RDO），以选择 PSNR 最高的单模型。选定的单模型索引被写入比特流。在解码器，根据传输的模型索引，选择相应的单模型来对当前的 CTU 进行滤波。

多模型架构

四个 QP 下初始单模型设置为由 20 个堆叠的 ResBlock 组成，包含 32 个特征图，每个 QP 的多模型架构由 8 个单模型组成（

N_1 = N_2 = N_3 = N_4 = 8

）。迭代次数 K 被设定为 5。考虑到在 QP 较小时，编码帧接近于 Ground Truth，这使得网络易于学习，网络深度和多模型的数量可以相应的减少。通过实验，确定 Multi4_Res12_32 和 Multi4_Res16_32 分别作为 QP27 和 QP32 的多模型，其他 QP 的模型参数保持不变。与初始化模型相比，对比结果见表 2。在表 2 中，ResM_N 表示具有 N 个通道的 M 个 ResBlock 的堆叠，MultiX_ResM_N代表由 X 个 ResM_N 单模型组成的多模型滤波器。

网络深度和多模型数量优化

多模型的滤波效果明显好于单模型，说明多模型结构是有效的。
对于 QP27，Res12_32 的滤波效果优于 Res20_32，说明当量化失真轻微时，使用更深层的网络模型反而可能造成更差的滤波效果。如果进一步减少多模型的数量，使用 Multi4_Res12_32结构，与 Multi8_Res20_32 相比，性能略有下降，但复杂度大大降低。因此对于 QP27，我们选择 Multi4_Res12_32 作为多模型结构。
对于 QP32，使用 Multi4_Res16_32 结构可以大大降低网络的复杂性和模型的存储空间，而性能可以说是没有变化的。对于 QP32，选择 Multi4_Res16_32 作为多模型结构。
对于 QP37 和 45，使用 Multi8_Res20_32 结构作为多模型结构。

实验结果

训练细节与测试条件

训练数据集包括来自 DIV2K 的 800 张高分辨率图像。所有这些视频序列在 AI 配置下通过 HPM7.1 编码，QP为 {27,32,37,45}。所有的模型都是基于 Python3.6 实现的，使用 pytorch1.2 后端。

为了全面的评估压缩效率，我们测试了所提出的多模型 CNN 滤波器的 BD-rate 性能，在 AI 配置下打开 ALF，关闭其他过滤器 DBF 和 SAO 。这里的 Anchor 指的是 HPM7.1 ，DBF、SAO和ALF开启。提案 M5129 用来进行比较。

客观评估

表 3 描述了 AI 配置下的通用测试序列的实验结果。与 Anchor 相比，所提出的方法实现了平均 6.06% 的 BD-rate 节省。值得注意的是，我们提出的方案在不同分辨率的视频上均实现了高压缩效率。对于 UHD4K、1080p 和 720p 的视频序列，BD-rate 的节省分别为 5.67%、6.58%、5.93%。对于 UHD4K 视频序列，多模型方案的 BD-Rate 节省接近于 M5129 提案，而对于 Campfire 序列，我们提出的方案性能超过了 M5129 提案。这表明，高分辨率视频序列的失真是多种多样的，多模型方案能够有效地处理不同的失真。

BD-rate 节省与解码时间节省

复杂度分析

与 BD-rate 性能接近的 M5129 提案相比，我们提出的多模型 CNN 环内滤波方案在解码器中节省了大量时间。与 M5129 提案相比，所提出的方案节省的解码时间如表 3 所示。可以看出，在所有不同的分辨率下都能节省 20% 以上的时间。并且在 4K 分辨率下，可以实现高达 31.41% 的时间节省。随着视频分辨率的提高，我们提出的多模型 CNN 方案的时间节省不断增加。

结论

本文提出了一种用于 AVS3 的低复杂度多模型 CNN 环路滤波器。在集成模型的启发下，首先经过比较研究选择了 ResBlock 作为轻量级的单模型结构，然后通过多模型迭代训练机制训练多个单模型来替代复杂模型。随后，我们优化了网络的多模型数量和深度，并增加了帧级标志位的设计，以提高我们方案的灵活性。大量的实验表明，我们提出的多模型 CNN 环路滤波方案可以实现优秀的压缩性能。同时，与其他性能相当的方案相比，我们的方案可以显著减少解码时间。

机器学习深度学习人工智能神经网络卷积神经网络

0 人点赞