UGC 视频质量评价

来源：Video @Scale 2021 主讲人：Balu Adsumilli, Yilin Wang 内容整理：贾荣立由于内容和质量的高度多样性，用户生成内容 (UGC) 的视频质量非常难以评估，传统测量和评估视频质量的算法和模型不能很好起作用，在这样的情况，亟需针对 UGC 视频的视频质量评价方法。为了促进和鼓励 UGC 压缩和质量评估方面的研究，作者在 2019 年发布了一个大规模的 UGC 数据集 (YT-UGC)，其中包含具有代表性的 UGC 原始视频及其基本真实的平均主观得分 (MOS)、平均主观得分差(DMOS)、和一部分内容标签。除此之外，作者一直在研究分析和优化 UGC 视频质量的一些工作。最近，构建了一个新颖的基于深度学习的框架，以了解内容、失真程度和压缩级别对感知质量的重要性。在本次演讲中，将介绍基于 DNN 的视频质量指标，称为 YouVQ，并展示其性能。

什么是用户生成内容（UGC）视频？
UGC 视频质量评价
- 对于 UGC 视频质量评价方法的要求
- 现有 UGC 质量评价方法
UGC 视频质量评价数据集
YouVQ
- 从现有数据集出发分析问题
- 直接迁移学习
- 质量相关数据的重训练
- YouVQ 的网络结构
- YouVQ 框架的好处
- 性能分析
总结

什么是用户生成内容（UGC）视频？

简单来说，UGC 视频就是由普通用户拍摄、剪辑并上传到视频平台的视频内容，大多数上传到 YouTube 和其他视频共享平台的视频都是 UGC。以 YouTube 为例，每分钟有500小时的视频被分享，每天有二十亿个活跃用户，分布在 100 多个国家，使用 80 多种不同语言。

在视频播放方面，约 1400 种编解码器、容器、分辨率和格式的组合。可以说，UGC 视频已经取代了传统媒体视频，成为了当今视频观看的主流。与 PGC（Professionally-generated Content，专业生成内容）相比，UGC 视频的内容和情感比叙事和质量更为重要，再加上拍摄者一般没有经过专业的摄影培训，UGC视频常常包含许多影响视频质量的因素，如：相机抖动，遮盖，亮度不足，压缩严重等问题，因此如何评价 UGC 视频的质量，指导视频质量的改进与提升，是目前比较关注的话题。

UGC 视频质量评价

对于 UGC 视频质量评价方法的要求

要求全面准确地反映人类真实主观感受；
必须是无参考的；
对不同内容的视频具有同样可靠的评价结果。

现有 UGC 质量评价方法

现有的 UGC 视频质量评价方法是在传统的视频质量评价方法之上发展而来的，传统的视频质量评价包含但不限于：

主观评价指标：平均主观得分(MOS)，平均主观得分差(DMOS)；
有参考的视频质量评价指标：PSNR，SSIM，VMAF 等，要求使用“无损”或者“近乎无损”的源视频作为参考；
无参考指标：banding，噪声，NIQE 等，不依赖于源视频或源视频相关信息，可以直接针对目标视频进行评价。

对于 UGC 视频，由于不存在无损的源视频，因此只能考虑使用无参考视频质量评价方法，但是现有的无参考视频质量评价模型和方法，在评价 UGC 内容上表现并不好，因此考虑设计针对 UGC 视频的质量评价方法，

UGC 视频质量评价数据集

由于针对 UGC 质量评价的数据集较为缺乏，我们从 YouTube 上挑选并制作了数据集 YT-UGC ，包含从 150 万上传视频中挑选出 1500 个上传视频。将这些分为 15 个类别，每一个视频都含有不同的分辨率和码率。每一个视频都有经过主观实验得到的 MOS 分数，对于一些比较流行的类别，还添加了 DMOS 作为参考，除了和视频质量直接相关的信息之外，还包含了超过 600 种的与视频内容相关的标签，以供后续的研究。

YouVQ

从现有数据集出发分析问题

对于含有质量标签的 UGC 数据集，比如 YT-ugc 和 patch-VQ，它们的规模比较小；而对于非质量评价的数据集，比如 Kinetics-600（500 k videos），YT8M（8M videos），ImageNet(14M 图片），则数据量比较大。因此源领域数据充足，而目标领域数据量偏小，考虑到这样的特点，我们选择迁移学习方法解决数据集不足的问题。

直接迁移学习

我们认为，直接使用一个非 UGC 质量评价相关的主干网络依然不很理想，因为不同的主干网络对于不同的 UGC 内容，其反映的结果并不是相同的。

以右上角的两张图片为例，对于非质量评价的主干网络，它们对于形状识别比较敏感而对于质量相关的东西并不敏感，但是我们从视频质量角度来说，这两张图片是非常不同的。使用非 UGC 质量评价的主干网络提取特征，可能会导致质量相差很大的图像提取的特征却相近。

质量相关数据的重训练

为了解决上述问题，我们提出了 retraining 的模块，使用 UGC 质量评价相关数据进行重训练，达到特征提取的目的。具体做法是为了避免直接使用主干网络提取的特征，我们可以加入失真，高斯模糊等给源视频，然后训练模型去区分源视频和失真视频，这样的自监督学习，使得模型不是只局限于简单的 MOS 模型。

YouVQ 的网络结构

我们的模型使用了三种网络提取特征，包括 ContentNet（内容网络），DistortionNet（失真网络）和 CompressionNet（压缩网络），这三部分可以输出内容，失真类型和压缩程度的质量指示，以及提取特征块，后续通过 aggregation 网络回归质量分数。

YouVQ 框架的好处

在原始的 UGC 视频中进行自我监督学习，不再受标签 MOS 的限制；
从质量相关的不同方面学习互补特征；
能根据本地分辨率工作，对本地细节敏感。

性能分析

使用不同的网络组合进行特征提取，得到的 PLCC 和 SRCC 如下图所示，可以看到，在同时使用了压缩程度、内容和失真网络时，准确程度达到了最高。

接下来，对比了在 YT-UGC 数据集使用不同方法或模型的得到的质量评价结果，如下图所示，可以看到 YouVQ 的 PLCC 最高，最为准确。

总结

我们提出了 YouVQ 进行 UGC 视频质量评估，它是一个分析 UGC 视频质量的综合框架，使 VQ 分数更具有可解释性。从结果来看，YouVQ 的结果很好地反应了了人类主观感受。对于无参考的评价，结果非常好；而当参考存在时(如含有源视频时)，YouVQ 同样可以工作。

附上演讲视频：

http://mpvideo.qpic.cn/0bc3e4acyaaaheap3djrbjrfaj6dfqtqalaa.f10002.mp4?dis_k=8826fdcfbc9f4137ad296d4f33b86ac8&dis_t=1649675540&vid=wxv_2312566346154606593&format_id=10002&support_redirect=0&mmversion=false

文件存储迁移学习

0 人点赞