自由视视频的主观和客观质量评价

2022-11-07 15:12:38 浏览数 (1)

作者:Jiebin Yan等 来源:TIP2022 论文题目:Subjective and Objective Quality of Experience of Free Viewpoint Videos 论文链接:https://ieexplore.ieee.org/abstract/document/9784402/ 内容整理:贾荣立

目录

  • 引言
  • 主观实验及其分析
    • 数据集构建
    • 主观实验及结果分析
  • 方法
    • 空间特征提取
    • 时空特征融合
    • QoE 预测模块
  • 结果

引言

随着新型媒体的发展,观众渐渐不再只满足于传统的 2D、3D 视频,对于其他新形势视频的需求也在不断发展,其中自由视视频(FVV)就是近些年来消费者关注的热点之一。如下图所示,相比于传统的 2D、3D和全景视频,自由视视频包含了一部分虚拟视角,用以填补真实相机之间的空缺,从而给观众以视角连续的观看体验。

黑色的相机代表真实的相机,红色的表示虚拟的相机

FVV 的视频体验质量可能同时受到内部和外部因素的影响。前者主要因素涉及 FVV 制作阶段,后者涉及到 FVV 的播放设置。如下图所示,在 FVV 视频的生成制作过程中,合成视角可能出现一些伪影、空洞等,影响画面的质量;另外,导航扫描方式和不同密度的帧填充方式也会对 FVV 的 QoE 产生一定的影响。

(a) 伪影, (b) 拉伸和空洞

FVV 的质量直接影响到视频用户的体验感受,因此,对 FVV 进行质量评价,对于指导视频的生成,提高视频用户的体验具有重大意义。本文基于这一目标,构建 FVV 数据集,并对其进行主观和客观的质量评价实验。

主观实验及其分析

在本节中,首先介绍数据集的构建,然后进行主观实验得到主观质量分数,最后,对主观数据进行分析。

数据集构建

影响FVV视频质量的因素

本文主要关注两个复杂的真实场景:综艺节目(《这!就是街舞》)和体育赛事转播(CBA)。考虑到影响 FVV 视频的质量因素包括内部因素——深度信息和物体的聚集程度,和外部因素——导航扫描路径方式和视角切换速度。在这里,通过选择不同内部因素的场景,改变外部因素,得到全面且多样的FVV数据集。

首先,我们选择不同深度信息和不同聚集程度的代表性场景,最终选择18个场景作为构建视频数据集的基础场景。之后选用压缩方案为H.264压缩和H.265压缩,每种压缩方法都与从22到47的6个量化参数(QP)值相关联。

最后,设置了三种导航扫描方案和三种视图切换速度。为了清晰地表示,这三种导航方案分别用nav1、nav3和nav2表示,如下图所示。而预定义的三种视图切换速度(即缓慢、中间和快速)是通过合成不同数量的视图(150、120和100)来实现的。

用于生成fvv的三种导航扫描路径。(a)nav1 (b)nav2 (c)nav3。红点和蓝星分别表示导航扫描路径的起点和终点

最后,我们获得了包含1944个(18×12×3×3)视频的FVV QoE数据库。帧速率设置为25,FVV的最小帧数超过190。

主观实验及结果分析

通过一定规模的主观实验,和数据异常值处理后,得到FVV视频的主观分数。接下来,对主观分数的分布进行可视化,如下图所示:

FVV质量评价数据集分数分布和不同因素的关系,(a) 导航扫描方案(top) 和 视角切换速度 (bottom). (b) CBA场景深度 (top) 和《这!就是街舞》场景深度 (bottom). (c) CBA场景物体聚集程度 (top) 和 《这!就是街舞》场景物体聚集程度 (bottom)

观察各个因素对应的分数分布,可以得到以下结论:

  • 由图(a)可知,受试者对导航扫描路径不敏感,且视图切换速度对 FVV 的QoE没有明显的影响。通过进行95%置信度的统计显著性检验,导航扫描路径和视图切换速度的p值分别为0.658和0.378,说明这两个外部因素对FVV QoE没有显著影响
  • 从图(b)和(c)中,我们可以观察到,参与者(近64%)倾向于对《这!就是街舞》中低聚集程度的 FVV 视频给予较高的分数(不低于2),而这种模式在CBA场景中并不存在。除此之外,深度信息范围较小的fvv更有可能得到更高的分数,具体来说,超过72%的参与者认为这类 FVV的QoE得分不低于2分。这可能是由于男女演员和镜头之间的短距离所带来的真实的沉浸感。

方法

我们提出的baseline模型的结构框架如图所示。它由空间特征提取模块、时空特征融合模块和QoE回归预测模块组成。

模型framework

空间特征提取

以前很多的 VQA 工作已经证实,ResNet-50 具有质量感知能力,从而捕捉视频帧的失真,在这里我们同样使用 ResNet-50 作为空间特征提取模块的backbone。假设

x^{(n)}

是 FVV 视频

mathcal{F}=left{x^{(n)}right}_{n=1}^N

的第 n 帧,将其输入网络并得到特征图

M_{n} = left{mathbf{M}_c^nright}_{c=1}^C

。然后进行全局平均池化和全局标准差池化,得到的特征向量分别记为

bar{v}^n

widetilde{v}^n

。然后将这两个特征向量进行拼接,从而得到该视频帧的特征向量为:

v^n=bar{v}^n oplus widetilde{v}^n

时空特征融合

现有的VQA方法要么将所有的视频帧或几组连续帧作为输入,要么从视频中截取部分帧,前者可能导致预测速度太慢,而后者则可能会出现long-term的特征表征不足。我们希望预测性能和预测效率之间能够有所权衡,从而在实际应用中发挥作用,具体做法如下:

我们从 FVV 中稀疏的采样一定数量的视频帧

mathcal{F}^{prime} = left{x^i mid i in mathcal{I}right}

,然后利用上文介绍的空间提取模块提取相应的空间特征,得到一个特征向量集合

mathcal{V}=left{v^i mid i in mathcal{I}right}

。之后,我们使用两个全连接层来降低特征向量的维数。再之后,通过使用门控循环单元(GRU)来捕捉这些序列帧之间的时间关系:

h^i=G R Uleft(v_{ }^i, h^{i-1}right)
h^i

h^{i-1}

分别代表当前时刻和前一个时刻的隐藏状态。

QoE 预测模块

将某一帧的时空特征进行整合后,再通过一个全连接层,得到帧

x^i

的预测分数

q_i

。考虑到时间记忆对于视频 QoE 的影响,我们使用主观启发的时间池化来融合所有帧的分数,从而得到最终的视频分数:

Q=frac{1}{N^{prime}} sum_{i in mathcal{I}} bar{q}_i

其中,

bar{q}_i

表示采样帧中第

i

帧的加权QoE得分,

N^{prime}

为采样帧集

I

的大小,

Q

表示最终QoE得分。

结果

我们选用了七种质量评价方法与本文提出的方法进行对比,七种前五个方法是图像质量评价方法,而后两种是视频质量评价方法。模型/方法性能由SRCC/PLCC进行表征,结果如下:

不同质量评价方法在本文提出的数据集上的表现

可以看到 VSFA 和本文提出的方法在相应指标上取得了较好的结果。

0 人点赞