来源:Video @Scale 2021 主讲人:Balu Adsumilli, Yilin Wang 内容整理:贾荣立 由于内容和质量的高度多样性,用户生成内容 (UGC) 的视频质量非常难以评估,传统测量和评估视频质量的算法和模型不能很好起作用,在这样的情况,亟需针对 UGC 视频的视频质量评价方法。为了促进和鼓励 UGC 压缩和质量评估方面的研究,作者在 2019 年发布了一个大规模的 UGC 数据集 (YT-UGC),其中包含具有代表性的 UGC 原始视频及其基本真实的平均主观得分 (MOS)、平均主观得分差(DMOS)、 和一部分内容标签。除此之外,作者一直在研究分析和优化 UGC 视频质量的一些工作。最近,构建了一个新颖的基于深度学习的框架,以了解内容、失真程度和压缩级别对感知质量的重要性。在本次演讲中,将介绍基于 DNN 的视频质量指标,称为 YouVQ,并展示其性能。
目录
- 什么是用户生成内容(UGC)视频?
- UGC 视频质量评价
- 对于 UGC 视频质量评价方法的要求
- 现有 UGC 质量评价方法
- UGC 视频质量评价数据集
- YouVQ
- 从现有数据集出发分析问题
- 直接迁移学习
- 质量相关数据的重训练
- YouVQ 的网络结构
- YouVQ 框架的好处
- 性能分析
- 总结
什么是用户生成内容(UGC)视频?
简单来说,UGC 视频就是由普通用户拍摄、剪辑并上传到视频平台的视频内容,大多数上传到 YouTube 和其他视频共享平台的视频都是 UGC。以 YouTube 为例,每分钟有500小时的视频被分享,每天有二十亿个活跃用户,分布在 100 多个国家,使用 80 多种不同语言。
在视频播放方面,约 1400 种编解码器、容器、分辨率和格式的组合。可以说,UGC 视频已经取代了传统媒体视频,成为了当今视频观看的主流。与 PGC(Professionally-generated Content,专业生成内容)相比,UGC 视频的内容和情感比叙事和质量更为重要,再加上拍摄者一般没有经过专业的摄影培训,UGC视频常常包含许多影响视频质量的因素,如:相机抖动,遮盖,亮度不足,压缩严重等问题,因此如何评价 UGC 视频的质量,指导视频质量的改进与提升,是目前比较关注的话题。
UGC 视频质量评价
对于 UGC 视频质量评价方法的要求
- 要求全面准确地反映人类真实主观感受;
- 必须是无参考的;
- 对不同内容的视频具有同样可靠的评价结果。
现有 UGC 质量评价方法
现有的 UGC 视频质量评价方法是在传统的视频质量评价方法之上发展而来的,传统的视频质量评价包含但不限于:
- 主观评价指标:平均主观得分(MOS),平均主观得分差(DMOS);
- 有参考的视频质量评价指标:PSNR,SSIM,VMAF 等,要求使用“无损”或者“近乎无损”的源视频作为参考;
- 无参考指标:banding,噪声,NIQE 等,不依赖于源视频或源视频相关信息,可以直接针对目标视频进行评价。
对于 UGC 视频,由于不存在无损的源视频,因此只能考虑使用无参考视频质量评价方法,但是现有的无参考视频质量评价模型和方法,在评价 UGC 内容上表现并不好,因此考虑设计针对 UGC 视频的质量评价方法,
UGC 视频质量评价数据集
由于针对 UGC 质量评价的数据集较为缺乏,我们从 YouTube 上挑选并制作了数据集 YT-UGC ,包含从 150 万上传视频中挑选出 1500 个上传视频。将这些分为 15 个类别,每一个视频都含有不同的分辨率和码率。每一个视频都有经过主观实验得到的 MOS 分数,对于一些比较流行的类别,还添加了 DMOS 作为参考,除了和视频质量直接相关的信息之外,还包含了超过 600 种的与视频内容相关的标签,以供后续的研究。
YouVQ
从现有数据集出发分析问题
对于含有质量标签的 UGC 数据集,比如 YT-ugc 和 patch-VQ,它们的规模比较小;而对于非质量评价的数据集,比如 Kinetics-600(500 k videos),YT8M(8M videos),ImageNet(14M 图片),则数据量比较大。因此源领域数据充足,而目标领域数据量偏小,考虑到这样的特点,我们选择迁移学习方法解决数据集不足的问题。
直接迁移学习
我们认为,直接使用一个非 UGC 质量评价相关的主干网络依然不很理想,因为不同的主干网络对于不同的 UGC 内容,其反映的结果并不是相同的。
以右上角的两张图片为例,对于非质量评价的主干网络,它们对于形状识别比较敏感而对于质量相关的东西并不敏感,但是我们从视频质量角度来说,这两张图片是非常不同的。使用非 UGC 质量评价的主干网络提取特征,可能会导致质量相差很大的图像提取的特征却相近。
质量相关数据的重训练
为了解决上述问题,我们提出了 retraining 的模块,使用 UGC 质量评价相关数据进行重训练,达到特征提取的目的。具体做法是为了避免直接使用主干网络提取的特征,我们可以加入失真,高斯模糊等给源视频,然后训练模型去区分源视频和失真视频,这样的自监督学习,使得模型不是只局限于简单的 MOS 模型。
YouVQ 的网络结构
我们的模型使用了三种网络提取特征,包括 ContentNet(内容网络),DistortionNet(失真网络)和 CompressionNet(压缩网络),这三部分可以输出内容,失真类型和压缩程度的质量指示,以及提取特征块,后续通过 aggregation 网络回归质量分数。
YouVQ 框架的好处
- 在原始的 UGC 视频中进行自我监督学习,不再受标签 MOS 的限制;
- 从质量相关的不同方面学习互补特征;
- 能根据本地分辨率工作,对本地细节敏感。
性能分析
使用不同的网络组合进行特征提取,得到的 PLCC 和 SRCC 如下图所示,可以看到,在同时使用了压缩程度、内容和失真网络时,准确程度达到了最高。
接下来,对比了在 YT-UGC 数据集使用不同方法或模型的得到的质量评价结果,如下图所示,可以看到 YouVQ 的 PLCC 最高,最为准确。
总结
我们提出了 YouVQ 进行 UGC 视频质量评估,它是一个分析 UGC 视频质量的综合框架,使 VQ 分数更具有可解释性。从结果来看,YouVQ 的结果很好地反应了了人类主观感受。对于无参考的评价,结果非常好;而当参考存在时(如含有源视频时),YouVQ 同样可以工作。
附上演讲视频:
http://mpvideo.qpic.cn/0bc3e4acyaaaheap3djrbjrfaj6dfqtqalaa.f10002.mp4?dis_k=8826fdcfbc9f4137ad296d4f33b86ac8&dis_t=1649675540&vid=wxv_2312566346154606593&format_id=10002&support_redirect=0&mmversion=false