本文是来自MHV(Mile High Video)2019的演讲,演讲者来自于Netflix公司的Zhi Li。本次演讲主要讲述视频多评估方法融合(Video Multi-method Assessment Fusion,VMAF)指标的发展历史,其遵循的基本原则和最新的进展。
首先,Zhi Li对VMAF以及其历史进行简要介绍。VMAF是用于衡量视频质量高低的指标。一个好的指标应具有以下特点:
- 能精确体现人眼主观感受;
- 在不同视频内容上保持一致;
- 能用于不同尺寸的视频;
- 能很好地体现自适应码流对图像层面带来的影响,比如压缩或缩放特征。
VMAF项目始于Netflix团队与南加州大学的合作,之后德克萨斯大学奥斯汀分校与南特大学也参与合作。2016年,VMAF在GitHub上开源;2017年,VMAF模型被添加到FFmpeg中; 2018年,VMAF添加了一个支持4K视频的模型,添加了置信区间;至今,Zhi Li团队也在不断进行速度优化。VMAF即可被用于比较编解码器性能,也可用于编码决策。
接下来Zhi Li介绍了VMAF是如何工作的。VMAF计算有两个阶段:第一个阶段是提取空间和时间特征并进行帧内池化。空间特征包括视觉信息保真度和细节丢失指标,时间特征包括时间复杂度。第二阶段是用主观数据训练一个SVM模型来将第一阶段提取的特征进行融合,得到每一帧的分数,再进行时域池化得到视频总体的分数。
最后,Zhi Li介绍了近期的进展,包括VMAF对HDR视频的支持,用户体验问题的诊断以及如何将VMAF用于图像压缩学习。
附上演讲视频:
演讲PPT全文