沉浸式媒体应用与设备近年来的兴起,在一定程度上导致了MPEG、3GPP、WebVR以及其他相关领域标准化的推进。就目前的沉浸式媒体应用与设备而言,如何评价其体验质量并量化形成对比是十分必要的。就此,MPEG已经出台了相应文件N16933 提案,大意上是在沉浸式媒体系统中要求加入和质量评估有关的标准。该文件同时也采纳了大量该方面的研究成果,部分论文的观点将会在下文中被提到。
1、编码与数据流
如今,网络上每天产生的流媒体音频与视频数不胜数,占比也越来越大,因而编码与数据流在更多情况下是被绑定在一起的,且此趋势还会因360度视频等沉浸式媒体需要更多数据的情况而日益加深。
目前,沉浸式媒体内容的编码采用HEVC标准,因其可以降低通过HTTP协议传输动态自适应数据流时存储和带宽的要求,被认为是最先进最完善的编码方式。就此,诺基亚科技团队[1]利用该标准在两种分辨率条件下储存同一全景视频,当向测试设备传输视频数据时,根据测试者的当前角度,部分图像块通过高分辨率传输,剩余部分则利用低分辨率数据代替,其大致示意图如下所示。
图1 混合分辨率全景视频传输
关于混合分辨率的图像传输,上海交通大学团队和中国电信上海研究院提出了一种基于视点的视频封装解决方案[2]。该方案在视角区域提供高质量tiles,而背景区域提供低质量tiles.根据用户视口封装混合分辨率文件,可以有效节省带宽,而不会造成太多明显的质量影响。
同时为满足前述选择性传输的随机性,图像集中各图像块均独立编码以便后续的解码,最终根据传输性能和压缩损失两方面的综合表现寻找到了一些列较优方案,并在这些可选方案中得到结论:相比于高分辨率传输所有视频内容,混合传输的方式可以降低30%-40%的比特率。此外,也有相关研究团队[3]利用相同传输方式,对相同尺寸样式的图像块集在理想环境和实际环境下的脚本进行了详细的评估,包括比特率开销、带宽要求、峰值信噪比(PSNR)等多方面因素,部分结果如表1所示。实验结果与诺基亚团队所得结论相符合,并得到了更为全面的结论:对于实际的音频视频脚本,可以利用基于图像块的编码与数据流,节省至多40%的比特率;而对于理想脚本,在蜂窝网络中传输可降低近80%的比特率,这一结果也被其他论文[4]所证实。
表1 混合分辨率传输结果
类似的图像块集合也被用于提升媒体的交互性,以及媒体服务质量指标计算的多个方面。法国IMT Atlantique团队[5]于今年5月发表的文章中提出了一种视角自适应360度视频传输的解决方案,该方案需要服务器端提供同一内容视频的多种呈现方式,也就是备有不同质量、不同分辨率的多种图像集,而客户端设备根据用户视角向服务器请求合适的传输带宽,此过程如下图所示。
图2 视角自适应的360度视频传输
同时,该团队通过PSNR和图像质量评估算法MS-SSIM得到采用不同图像质量分布策略的数据流和图像投影方式对于最终效果的影响。此外,也有文章[6]提到在基于图像块的流传输时,通过可变化的IDR帧的呈现方式可以减少传输拥塞的现象,以提高传输质量。
德国弗劳恩霍夫应用研究促进协会近期的研究中提出了一项时空活跃性指标,目的在于快速、简洁地计算出基于人们感兴趣区域(ROI)的视频传输方案。都柏林圣三一学院团队则基于HTTP标准和视频观看者的视角对动态自适应的数据流进行分割、整合,产生良好的虚拟现实效果,该团队也利用了PSNR及SSIM计算并验证了该传输方案相比已有方案,更能切合用户的需求和期望。上海交通大学团队[7]提出了一种360度的VR直播系统,其思想是将完整的VR视频分割成子视频,子视频或子图像集通过带有空间特征的多个子通道传输,以便接收端快速整合并进行比特率自适应的实时刷新。
除此之外,MPEG文件中收录的与编译码、数据流相关的论文主要着重于比特率优化以及球面域率失真优化的改良。比特率优化主要是指因全景视频的球面峰值信噪比(S-PSNR)与典型PSNR计算方式的不同而作出的基于比特率层面的优化,使得传输字节合理分配至不同编码块时,仍保持着可观的S-PSNR。沉浸式视频相比于传统视频而言,主要会在图像于二维/三维空间转换时产生失真,而此类失真会使得数据传输时的率失真优化过程在一定条件下的作用微乎其微。对于该问题,作出的改良[8]是通过分析球面域失真对率失真优化的影响,依此寻找出最优方案。
同时,针对该问题,上海交通大学团队[9]根据WS-PSNR的权重图,将更多的比特分配给重要区域,通过使用基于权重的码率控制方案来进行优化。所提出的码率控制方案提高了VR视频的视频质量,平均增益分别为S-PSNR,WS-PSNR和CPP-PSNR的2.1%,4.3%和1.5%。
2、数据集
沉浸式媒体的重现性是用户体验时非常关心的一个方面,实现该特性的一个重要前提是需要有一系列公开可得的数据集。目前,一些科学协会如ACM MMSys和QoMEX已经在此方面进行跟踪研究。
今年ACM MMSys已经发表了一系列有关于数据集的论文,大多关于沉浸式媒体应用与设备中头部眼部运动跟踪,且主要集中虚拟现实和360度视频。其中,有论文提供了59位用户在观看5个不同类型360度视频时头部运动的数据,并据此得到了一些统计结果,以此分析人们在观看全景视频时的习惯。与此类似,还有许多研究头部运动跟踪的成果,并公开了数据集。就沉浸式媒体研发时考虑的另一关键运动人眼运动而言,有团队提供了眼部跟踪数据集以及基于测试者眼部运动的特征图像集,弥补了该方面数据的空缺,该成果相比已有的头部跟踪数据集而言,更为精确地描述了相应的运动状态。
除上述数据集外,在各社区论坛还有着相当多的公开资料。但总的来说,类似上述的数据集对于实际条件下传输策略的研究、评估均会有一定的帮助。
3、客观指标
许多度量沉浸式媒体质量的客观指标采用了衡量传统媒体的指标,或是略微修改指标的定义以满足360度图像或视频的特性,例如自适应性和视角认知度指标。但这样的做法目前存在的问题是,这类指标呈现出的媒体质量往往与人们的主观感受不匹配。就此,有研究人员[10]认为,客观意义上的指标虽不能与人类体验达到完全一致,但仍会存在一定的规律,基于此,他们利用全景图像样本,得到了大量的主观评分和客观结果,挖掘其中的统计规律,试图让单个客观指标具有类似于人的主观能动性。采用类似方法的基于视频样本的客观指标研究也已存在。当然,对于图像和视频两种表现形式而言,同种指标的计算也可能存在区别,例如图像与视频PSNR的计算,前者还需利用SSIM、VIFP等算法才能得到严谨的结果。
如上述对于特定指标的研究已有许多,然而目前还缺乏对包含多种编码传输方式,需计算多项指标的大范围样本的研究或评价。
4、主观指标
相比而言,对于沉浸式媒体主观指标的研究还不是很多。就目前来讲,360度视频卡顿指标的计算已有研究[11],得出的计算方式也可用于传统媒体,如电视、电脑、手机,其中电视与VR在相同条件下的卡顿程度对比如下图所示。同时该研究也对之后的卡顿研究提出了诸多建议,是相关领域中首次对头戴式设备如何预知卡顿的问题提出的见解。
图3 电视与VR的卡顿指标对比
另有一项关于VR视觉效果评价的研究通过主观测试以及秩相关系数检验(SRCC)来衡量VR内容质量以及各方向物体的一致性,并综合两方面表现提出了两种质量检测的主观指标:O-DMOS和V-DMOS。
此外,还有根据主观指标降低视频传输带宽的研究,而此项研究正是基于DMOS指标的基础上进行的,最终得到在DMOS值为4.5时,不同类型的视频传输平均可以降低44%的比特率,从结果上优化带宽的效果已比较可观。
实际上,在进行主观性能测试时,我们都假设测试者位于一个特定的环境中,例如一个常见的VR测试环境是让头戴设备的体验者坐在转椅上自由操作,或者规定其做一些特定的动作,然而即便如此,体验者们的感受仍可能迥乎不同,对于测试结果有着很大的影响。此外,当屏幕上放映内容,人们沉浸于其中时,相关测试设备也需统一。如果测试只关乎某项主观指标的问题,也只需做到统一就足够了,但是体验者在沉浸感、交互性以及其他方面的感受就会变差。
总结
本文主要对目前与沉浸式媒体有关的研究成果进行了总结概括,MPEG发布的文件也是想告知相关研究者们如何从主客观两方面对沉浸式媒体的质量进行评价。同时也可以发现,目前所提出的计算评价方法仍处于起步阶段,还需通过大量的样本去验证、完善,因而MPEG以及其他组织也鼓励研究者们发布更多关于媒体评价中指标、数据集、测试方法等多方面的信息,为实现对沉浸式媒体全方面的评估提供坚实的基础。
参考文献
[1]Alireza Zare, Alireza Aminlou, Miska M. Hannuksela, and Moncef Gabbouj. 2016. HEVC-compliant Tile-based Streaming of Panoramic Video for Virtual Reality Applications. In Proceedings of the 2016 ACM on Multimedia Conference (MM '16). ACM, New York, NY, USA, 601-605.
[2]Ying Luo, Li Song, Rong Xie and Chuanfei Luo, “View-dependent Omnidirectional Video Encapsulation using Multiple Tracks,” International Conference on Virtual Reality and Visualization(ICVRV), Zhengzhou, China, Oct.21-22, 2017.
[3]Mario Graf, Christian Timmerer, and Christopher Mueller. 2017. Towards Bandwidth Efficient Adaptive Streaming of Omnidirectional Video over HTTP: Design, Implementation, and Evaluation. In Proceedings of the 8th ACM on Multimedia Systems Conference (MMSys'17). ACM, New York, NY, USA, 261-271.
[4]Feng Qian, Lusheng Ji, Bo Han, and Vijay Gopalakrishnan. 2016. Optimizing 360 video delivery over cellular networks. In Proceedings of the 5th Workshop on All Things Cellular: Operations, Applications and Challenges (ATC '16). ACM, New York, NY, USA, 1-6.
[5]X. Corbillon, G. Simon, A. Devlic and J. Chakareski, "Viewport-adaptive navigable 360-degree video delivery," 2017 IEEE International Conference on Communications (ICC), Paris, 2017, pp. 1-7.
[6]D. Podborski, Y. Sanchez, R. Skupin, C. Helige and T. Schierl, "Tile based panoramic streaming using shifted IDR representations," 2017 IEEE International Conference on Multimedia and Expo (ICME), Hong Kong, China,2017, pp. 565-570.
[7]Y. Hu, S. Xie, Y. Xu and J. Sun, "Dynamic VR live streaming over MMT," 2017 IEEE International Symposium on Broadband Multimedia Systems and Broadcasting (BMSB), Cagliari, 2017, pp. 1-4.
[8]Y. Li, J. Xu and Z. Chen, "Spherical domain rate-distortion optimization for 360-degree video coding," 2017 IEEE International Conference on Multimedia and Expo (ICME), Hong Kong, China,2017, pp. 709-714.
[9]B. Li, Li Song, R. Xie, W. Zhang, “Weight-Based Bit Allocation Scheme for VR Videos in HEVC, ” IEEE International Conference on Visual Communications and Image Processing (VCIP), St. Petersberg, Florida, US, Dec 10-13, 2017.
[10]E. Upenik, M. Rerabek and T. Ebrahimi, "On the performance of objective metrics for omnidirectional visual content," 2017 Ninth International Conference on Quality of Multimedia Experience (QoMEX), Erfurt, 2017, pp. 1-6.
[11]R. Schatz, A. Sackl, C. Timmerer and B. Gardlo, "Towards subjective quality of experience assessment for omnidirectional video streaming," 2017 Ninth International Conference on Quality of Multimedia Experience (QoMEX), Erfurt, 2017, pp. 1-6.