视频质量评价(VQA)是视频服务系统中的重要技术要素,贯穿成像、编辑、处理、编/转/解码、渲染、显示等整个视频技术链条。上海交通大学教授宋利在LiveVideoStackCon 2018大会上对VQA的工业标准,服务流程管理技术等相关内容进行了详细的介绍。LiveVideStack对演讲内容进行了整理。
文 / 宋利
整理 / LiveVideoStack
大家好,我是来自上海交通大学的宋利,接下来我将从以下三个方面为大家分享有关视频质量评价的内容。
1. VQA技术图谱&工业标准
1.1 总体框架
在开始正式介绍之前让我们了解一下什么是VQA。简单来说VQA就是视频质量评价体系,主要分为主观评测与客观评测两个部分。主观评测是忽略各种客观影响因素单纯依据终端用户对画面的直观感受作出的质量评价,其过程为由具有统计意义的一组人进行评分并重点考察观看测试条件、个人偏好对评测结果的影响,这种评测方法的特点是成本高且速度慢。为了实现更公正的规模化视频质量评价,我们需要引入客观评测指标结合主观评测对视频质量做出综合分析。所谓客观评测更多是依靠仪器、软件等客观评价手段对视频画面质量做出判断并尝试寻找与主观评测结果之间的联系,这种由机器自动评分的方法其精度逼近主观评测,可明显提高评测效率并为实时评测提供技术支持。简而言之,VQA以主观评测为基础指标,以客观评测为重要参考指标。
1.2 主观评价目的
主观评价可衡量总体服务体验,并为客观评价指标体系(延时、卡顿、丢包等)提供校验基准。通常来说,测试指标越贴近用户所感则越可称其为“体验”,因为“体验”更多反应的是用户主观感受。VQA主观评价体系将用户体验质量摆在首要参考位置,并以底层网络或媒体层参数作为基础逐级形成。主观评测及获得的大数据是我们优化技术、服务用户的参考依据。
1.3 工业标准——ITU研究组
1)总体框架
VQA的工业标准由ITU研究组建立,ITU研究组的职责除了提出视频质量评价体系的工业标准,还有运营SG12这样一个用于确立VQA视频质量相关研究工作的研究组织。作为音视频工业界的标准之一,ITU的架构十分复杂,这就需要SG12研究组做出许多努力。
2)分层评价模型
ITU所制定的分层评价模型能够对视频质量评价体系做出系统性模型分解,其结构最上层为媒体层模型,紧接着往下依次为比特流层模型、包层模型与规划模型。不同模型借助不同的衡量体系评价视频质量,如媒体层模型通过内容对比度、模糊度、色调等多个维度分析预测视频质量,比特流层模型主要通过提取分析视频传输层编码信息如QP、复杂度、丢包、花屏参数等预测视频质量;包层模型通过分析包头信息从帧类型、大小、码率等多个维度预测视频质量,而网络规划模型则通过业务KPI和业务KPI需求推导出视频质量目标。当然,现在这一套评价体系距离成熟的大规模商用还有一定距离,相对于其他评价体系其工业化程度也并不是很高。
1.4 工业标准——视频体验联盟标准工作组
国内也成立了如视频体验联盟标准工作组这样的标准制定组织,我也有幸成为此标准工作组的组长。在围绕此领域进行许多研究后我们发现,首先ITU标准中能够落地并实现规模化应用的实例较少,其次就是学术界中许多很好的研究成果成果没有及时反映至标准制定当中。所以标准制定工作组的作用就是帮助新技术快速快速落地于整个视频服务体系当中。
1)工作组发展
上图展示了视频体验联盟标准工作组过去四年的发展历程。该联盟在2016年12月发布了国内首个“视频服务用户体验评估标准1.0”,并协助发布2016年中国视频服务体验白皮书;2017年召开联盟成立大会并立项新标准uVES1.1,并在2018年通过了CCSA标准化立项审核,发布了2018年中国视频服务体验白皮书。
2)体系框架
下图展示了uVES标准的体系框架,其中底层为源视频的传输参数及接收码流,底层之上的KPI包括了视频编码参数、视频传输质量、终端显示、信源信号参数、媒体封装质量、信令交互等基本参数与指标。KPI之上的KQI包括视频质量如压缩损失对视频画质的影响;观看体验质量如由丢包等原因造成卡顿对观看体验带来的影响;交互体验质量如快进快退是否流畅等影响人机交互的因素。顶层则为用户体验,我们综合视频源质量、观看体验质量与交互体验质量三个维度的评价为每个视频赋予相应的分值来判断其质量优劣。
以上三个维度的关键参数与覆盖的典型应用场景如上图所展示的那样,其中的视频源质量主要根据视频的码率、帧率、分辨率、编码类型、屏幕尺寸、音频质量以及视频信号质量、内容复杂度、视频后处理与信号源质量等方面的参数指标做出判断;与观看体验质量相关的考察则依据传输类型有所不同,但会重点分析卡顿与花屏的情况;交互体验质量方面的考察则更多针对与用户交互直接相关的关键参数如加载时长与快进快退时长等。
3)模型的算法评价方法与流程
首先从样本序列库选取目标Samples,经由网络KPI对相关参数做出评价,在此之后经过包接收处理后得到的Metrics会被输入KQI并做出评价,最后根据之前评价结果输出相应MOS分。而算法评价方法则如上图下半部分展示的那样分为主观测试序列与客观预测模型,其中客观模型由主观测试序列与主观测试活动得出的主观测试数据利用分开样本集得到建模序列,再通过数学建模并结合统计评测结果得到。
4)成果介绍
视频体验联盟标准制定工作组建立后制定了uVES1.0标准,并在随后的uVES1.1标准中加入了对新一代编码标准与4K、HDR等技术的支持。
1.5 工业标准——uVES1.0
1)视频源质量
视频源质量是指音视频本身质量指标的高低,其主要影响因素有显示质量Qs、压缩质量Qcod、播放质量Qv。对应在码流层包括基于显示质量、基本压缩参数的Mode 0、基于显示质量和压缩质量的Mode 1,而在图像层还有基于播放质量的Mode 2。
其中的Mode0主要评估视频的显示质量,主要包括了对电视机分辨率、视频显示屏幕尺寸与视频码率的评价。由上图左侧的公式我们可以得到屏幕多项关键质量参数对视频质量的影响,如右侧图线展示的42寸屏幕的各种分辨率MOS极限。
而Mode1则综合考虑了显示质量与视频源压缩质量,其中的评价参数除了电视片分辨率外,还有帧类型、帧大小、量化参数、运动矢量、Skip模式和非Skip模式的比例。得到的Qcod为视频序列的质量分析结果,帮助我们了解视频源压缩对视频质量的影响。
上图表格帮助我们进一步了解Mode1模型的关键参数。
接下来的Mode2则是评估基于图像层的视频播放质量,其关键参数包括块效应、模糊度、对比度与噪点度。其中的块效应表示在编码过程中造成的块边界不连续的情况,模糊度则表示对图像模糊程度也就是基于图像灰度的梯度幅度变化的衡量;对比度是指一幅图像中明暗区域最亮的白和最暗的黑之间的差异范围,而噪点度则是指对像素色度值的浮动的衡量,这种浮动对图片质量无正影响也没有固定的规律。大家可能发现这这里的方法并不新,主要约束在于考虑大规模终端部署时硬件复杂度受限。
上图表格可以比较清晰地帮助我们了解Qs与MOS的分段对应关系。
2)交互体验
交互体验是指视频业务使用过程中业务操作的便捷性与效率,其影响因素主要包括视频系统的响应速度、菜单操作的响应速度、视频初始加载时长、频道切换时长与快进快退响应速度等指标。业界公认的“2秒定律”鲜明体现了上述参数对交互体验的影响:消费者能够接受视频初始加载在2秒内能完成的服务,超过2秒后,加载时间每增加1秒就有10%的用户选择放弃服务;当交互时延达到10秒时绝大多数用户会选择放弃服务。
交互体验的量化分析主要由直播时切换时长、点播初始加载时长、直播时频道切换时延、点播时初始缓冲时延、当前已播放时长与基于人类遗忘曲线得到的用户最大遗忘时长这几个参数共同决定。我们会综合频道切换得分、实时评分与会话评分来判定交互体验的优劣。
3)观看体验
观看体验是指视频在播放过程中是否出现异常的质量劣化问题,包括花屏、马赛克、卡顿、音画不同步等。其影响因素包括网络环境与传输能力、业务平台能力导致的缓存、数据延迟与卡顿。落实在用户体验上,我们通过调研发现受到过去使用惯性的影响,用户对不同尺寸终端的观看体验容忍程度不同。如用户对于同样的卡顿现象,在电视上的容忍程度较低而在手机上的容忍程度较高,相对而言用户体验受到相同异常的影响也有所不同。
- 花屏
关于花屏问题对体验的影响,我们会统计花屏的频率、面积比、时长占比,使用上图展示的数学模型分析并赋分。
- 卡顿
关于卡顿问题对用户体验的影响,我们会重点分析卡顿时间、间隔与频率,使用上图展示的模型结合不同设备类型得到相应的能够体现其对用户体验影响的分值。
1.6 工业标准——uVES1.1
经过基于拓展行业发展与行业新需求,在实际部署行与可操作性上做出的不断优化,uVES1.0之后的uVES1.1应运而生。
相对于uVES1.0,uVES1.1为后续HDR以及全4K视频服务质量评价提供了保障。uVES1.1的Mode0/1实现了对新编码标准的支持。使用的国际大型数据集虽然没有提供主观分值,但却提供了许多参考分值,将已有主观分值与参考分值进行结合并进行模型整体训练,可以极大提升其性能。除此之外,通过对参数采集要求与参数影响权重的优化,进一步简化参数,降低大规模部署的难度。
关于Mode2的改进主要添加了对UHD视频与HDR视频的质量评价,其中对UHD视频的质量评价主要从基于场景检测的颜色度指标、对比度指标与清晰度指标三个部分展开,对HDR视频的质量评价则进一步完善了图像层评价指标体系,将模糊度、块效应、对比度与噪点度和曝光度与颜色丰富度相结合,并且进一步支持了高量化精度、宽色域视频质量的评价。
针对观看体验的评价,uVES1.1使用机器学习相关技术进一步优化质量评价过程。首选系统获取每个采样间隔的视频源质量与卡顿时间信息,并分别输入视频质量模块与卡顿模块;通过机器学习模块整合两者分析结果为最终的媒体回话质量得分。
为了进一步优化观看体验方面的评价过程,我们依据国际最新标准,通过统计量代替单次卡顿信息并删除了低权重参数等简化有效参数;同时使用BP神经网络替换原有RF模块来优化方法,得到的优化算法在减少数据采集量的同时更加清晰展现了观看体验对视频质量的影响。
uVES的近期后续工作包括:实现对AVS2编码标准的全面支持来继续拓展模型对编码标准的兼容性;实现对全4K视频规格的良好支持,如高分辨率比、高动态、高帧率、高量化精度与宽色域视频;最后继续拓展更多服务类型如低延时、交互、V/AR等新型视频的应用。
2. VQA服务流程管理技术
下面我们谈一下VQA服务流程管理技术。
2.1 QoE管理系统
QoE管理系统主要包括QoE模型、QoE监控与QoE控制。
上图展示的QoS/QoE监控系统的数据采集架构流程,可以看到监控系统采集来自远端服务、内容提供到中间的网络环境与用户终端的数据并分析其每一项对QoE造成的影响。而无参考工具PSQA则通过采集Video-Related Assumptions、Common Assumption和Speech-Related Assumption内的多项参数,结合、Video Quality Parameters与Speech Quality Parameters的数据,重点分析Video Quality Estimation Function与Speech Estimation Function,最终汇总并得出Multimedia Quality Integration Function,输出与Video Quality、Multimedia、Speech Quality相关的三项指标,从多个维度监控QoE的动态变化。
2.2 IPTV视频质量监控系统
IPTV视频质量监控系统的总体框架如上图展示的那样,Agent端包括RTP会话管理模块与RTCP发送模块,媒体服务器端与Agent端的RTCP流会经由IPv6/IPv4网络输入质量监控服务器端,首先通过质量监控服务器端中的RTP会话管理模块与RTCP接受记录模块进行初步分析,得出的数据进入界面显示模块、决策分析模块与记录写入磁盘模块进行进一步分析;其中决策分析模块得出的结果会反馈至QoS反馈模块进而影响记录写入磁盘模块与IPv6/IPv4网络。下图展示了多款成熟厂商的IPTV视频质量监控系统。
2.3 基于软件开发的主观视频质量评测
1)模块介绍
主观视频质量评测的应用设计与体系结构包括评价模块、基于数据库的应用模块与演示模块。
- 应用服务模块
应用模块的作用是为了创建和配置测试会话,其具有管理模块与Web 界面并允许管理员执行下图展示的多项任务。
- 演示模块
演示模块除了用于加载每个会话中播放的视频片段并执行播放列表之外,还负责在Application Server的指示下播放和暂停视频片段。
- 评价模块
在评价模块,我们使用了ACR评级系统将视频质量分为Excellent、Good、Fair、Poor、Bad五个等级,使用HTTP协议与Application Server进行联系与数据交换。
2)自动化评测的优势与问题
自动化评测具有多项优势,如评测过程不需要特殊的硬件设备,许多观众都可以同时参加同一个会议;可以轻松扩展设计以在真实场景中进行质量评估,也可以实现离散或连续秤;除此之外,设备没有线缆、纸张与笔,使得整个评测过程非常人性化。
当然自动化评测系统也存在许多问题,如传统的主观评价和确定性适应的手段尚不明确,在服务端用户的反馈处理需要的时间还有优化的空间,并且此过程只能在离线状态下执行使得其应用场景受到很大限制,而且也不能满足各种视频流媒体服务所需的实时、准确的QoE管理,我们希望能够增加评估模型的准确性以帮助监控过程。
2.4 基于预测性的视频流服务管理系统
基于预测性的视频流服务管理系统包括基于服务器的预测性视频体验质量监控、基于用户的预测性视频体验模型与预测性视频体验控制。
1)视频质量评估
2)视频质量优化与控制
3)服务器端监控
4) 选取DL方法的算法
3. VQA驱动的视觉感知编码技术
在开始了解VQA驱动的视觉感知编码技术之前,先回顾一下视频质量与码率的关系。由上图左侧曲线不难看出视频质量MOS与码率R大致呈指数关系,而由右侧研究基于H.264编码器不同分辨率下达到特定MOS时所需码率的图线我们可以发现,相同分辨率的条件下,MOS越高所需码率越高;而控制MOS为特定值时,分辨率越高所需码率越高。
不同的视频内容对码率的影响各不相同,相比于盲目追求较高的视频质量,我们去更加倾向于选择满足一定视频质量要求下所需的最合适的码率并反过来利用其指导编码工作。
具体来说,VQA驱动的视觉感知编码技术的流程是首先对原始视频序列进行包含空间信息(SI)与间隔信息(TI)的特征提取,并对提取出的特征进行聚类分析,得到的多个簇会被输入预测模型;与此同时,主观视频质量评测部分输出的MOS分值也会被输入预测模型,并综合得出预测码率。
基于自适应比特率的机器学习为VQA驱动的视觉感知编码带来进一步提升。视频主观视频质量评测得到的数据会辅助内容自适应RD预测模型实现对视频多项关键性参数指标的预测,其结果会帮助内容自适应ABR编码进行视觉感知编码。
上图展示了基于自适应比特率的机器学习的具体流程。首先待预测视频会和各簇中心点的数据结合以计算欧式距离,计算结果会被归入某一簇中;随后根据此簇的模型,按照预期MOSexp计算获得预测码率;在模式优化阶段,会对编码后视频做主观测试并得出其MOS,并计算预期MOSexp与主观测试得分值MOS的相关性,获得模型预测效果。
上图非常直观地展示了模型预测码率与实际码率的关系。