回归VMAF分数的视频质量评价模块

来源：PCS 2021 演讲者：Darren Ramsook 内容整理：贾荣立本文基于深度学习，在将 VMAF 分数作为 Ground Truth 的前提下，提出了两个不同的网络回归质量分数用于视频质量的评价。该模块可作为视频压缩，视频增强等视频/图像处理领域的网络损失函数。

引言
将评估图像质量的模型用于视频质量评价
全参考视频质量评价模型
- ProxVQM
- VGG-ProxVQM
数据集生成
训练细节
结果
- PCC/SRCC/RMSE
- 实例
总结

引言

VMAF (Video Multimethod Assessment Fusion)由 Netflix 开发并开源在 Github 上，基本想法在于，面对不同特征的源内容、失真类型，以及扭曲程度，每个基本指标各有优劣。通过使用机器学习算法(SVM)将基本指标“融合”为一个最终指标，可以为每个基本指标分配一定的权重，这样最终得到的指标就可以保留每个基本指标的所有优势，借此可得出更精确的最终分数。Netfix使用主观实验中获得的意见分数对这个机器学习模型进行训练和测试。
VMAF 主要使用了3种指标：visual quality fidelity（VIF）、detail loss measure（DLM）、temporal information（TI）。其中VIF和DLM是空间域的也即一帧画面之内的特征，TI 是时间域的也即多帧画面之间相关性的特征。这些特性之间融合计算总分的过程使用了训练好的 SVM 来预测。

VMAF是目前比较好用的质量评价模型。但是在图像/视频压缩，视频增强等领域，可能需要一定的质量评价模块作为损失函数指导网络的训练。VMAF作为不可微的质量评价模型，无法直接作为损失函数，在这样的前提下，Darren等人提出使用神经网络去模拟VMAF的分数，使得该质量评价模块可以直接应用于其他网络的训练过程当中。

将评估图像质量的模型用于视频质量评价

在图像质量评价领域，已经有不少相关的工作使用了端到端神经网络去拟合图像质量分数，但是这些模型往往没有考虑时域信息，因此将图像质量评价模型应用于视频质量评估往往会产生误差。

如图展示的是经过放大的从视频帧中截取的 patches ，参考无损伤的图像，在损伤的 patches 中可以明显看出有块效应和压缩伪影等失真。

参考patches（第一行）和失真patches（第二行）

在不考虑时间改变的情况下利用 VMAF 得到的分数为70.67,56.25,50.32；当考虑到时间改变后，得到的质量分数为70.67,73.52,81.15。

因此评价静止图像质量的模型不能应用于评价视频质量，因为它们并没有将时域上的特征考虑在内，从而影响质量评价的结果。

全参考视频质量评价模型

为了克服静止图像质量评价模型的缺点，我们提出了考虑时域信息的视频质量评价模型，鉴于预训练的深度卷积神经网络用于图像任务的成功，我们提出了一个无权重共享的完全可训练的模型 ProxVQM ，以及利用预训练 VGG 网络的部分可训练模型 VGG-ProxVQM 。卷积神经网络将一系列帧而不是单个帧作为输入。

ProxVQM

对于全部可训模型 ProxVQM ，其模型结构如下图所示，首先利用 CNN1 分别提取压缩帧和参考帧的特征，然后经过拼接，利用 CNN2 分别学习时域特征，拼接后利用 CNN3 回归出最终的质量分数。

ProxVQM网络结构

VGG-ProxVQM

对于部分可训模型 VGG-ProxVQM ，其模型结构如下图所示，和 ProxVQM 不同的是，它首先利用了预训练的VGG网络提取帧图像的特征之后再进行后续的处理。

VGG-ProxVQM网络结构

数据集生成

利用youtube UGC 720p 数据集生成所需的数据集。使用H.265编解码器压缩剪辑，恒定速率因子(crf)设置在28至51之间。并且为了使得VMAF范围更加均匀，从不同 VMAF 得分中都抽取一定数量的视频。最终获得了13178条三帧序列用于训练，2822条序列用于验证，2822条用于测试。

数据集中VMAF socre的分布直方图

训练细节

损失函数采取MSE，adam优化器并且初始学习率设置为1e-4，每个CNN模块的dropout率为0.2。

结果

PCC/SRCC/RMSE

经过测试，ProxVQM 的 PCC 是0.982，SRCC 是0.98，RMSE 是7.22; VGG-ProxVQM 的 PCC 是0.989，SRCC 是0.988，RMSE 是4.41。两个模型的预测分数和 VMAF 分数的散点图分布如下图所示。

预测分数与VMAF分数的散点图分布

实例

下图实例1中展示了参考的三帧图像和有损伤的三帧图像，其 Ground Truth 的分数为16.31，ProxVQM 的预测分数是13.03，VGG-ProxVQM 的预测分数是15.51。

实例1

下图实例2中展示了参考的三帧图像和有损伤的三帧图像，其 Ground Truth 的分数为94.89，ProxVQM 的预测分数是84.70，VGG-ProxVQM 的预测分数是91.07。

实例2

总结

在图像/视频质量评价领域， PVQM 往往是复杂且不可微的，作者基于前人的工作 VMAF 提出了使用 CNN 去近似 VMAF ，并且利用YouTube UGC 720P数据集去生成训练数据，其提出的 ProxVQM 和 VGG-ProxVQM 在视频质量评价方面展示了较好的性能。

机器学习深度学习人工智能神经网络卷积神经网络

0 人点赞