丽影 - 质量评估,让你知道视频有多美!

2019-08-28 12:10:22 浏览数 (1)

不知道你会不会跟小编一样,照镜子的时候自我感觉良好,一拍照的时候总觉得哪里不对劲?如果说相机记录了你的容颜,那么自己照镜子的时候,多少脑补了一些王力宏、胡歌的棱角给自己。凌晨5点的时候,你自信满满去全民K歌直播,结果粉丝都在睡觉,来不及点赞;此时,你凭什么知道,你拍的视频究竟有多美呢?丽影,提供基于图像或视频的主观质量评估技术,让你知道视频有多美!

01

质量评估是什么?

1. 直观解释

质量评估技术可以告诉你,下面两个视频的主观质量得分是多少,从而判断出哪个视频的得分更高。关键词:机器打分

(点击播放查看对比)

2. 严格解释

    质量评估技术是一种分析通过音视频主观评测平台获得的用户打分数据,采用深度学习方法对大众审美进行建模的技术,当模型的标注训练数据足够,且模型训练的足够充分时,可以认为“机器打分=用户打分”。

    我们使用清晰度评估算法对全民k歌线上约1000条视频数据进行了评测。下图为清晰度评分的scatter plot和box plot的结果对比,蓝点为全民K歌的源视频,绿点为丽影处理后的输出视频。可以看到绿点的质量打分的均值比蓝点更大,说明丽影处理后的视频相比源视频具有更高的主观质量打分。具体的,清晰度的平均分数从1.369提升至1.471,提升百分比为7.45%。

    目前,全民 K歌已经接入丽影平台近4个月,累计处理视频577, 434个,日均处理约5, 000个视频。统计全民K歌近一个月的161, 952个线上数据表明,即便平均源码率只有1395kbps,视频经过丽影处理,输出码率仍能降低至920kbps,平均文件体积节省29.43%。丽影平台在帮助全民K歌将平均文件体积减小29.43%的情况下,主观质量提升7.45%,有效地提升了全民K歌线上视频的主观效果。丽影,可以让视频变得更小更漂亮。

02

质量评估,可以用在哪些领域?

1. 为线上视频质量监控提供参考依据

    海量视频数据的质量监控是直播厂商不得不面临的棘手问题之一,视频质量服务包括视频质量检测、视频质量评价和视频质量监控。如果可以针对海量视频提供快速正确的审核或监控方案,则可以全天候不间断地检测视频质量,大幅降低人工成本,减少线上服务的风险和事故率。

    丽影平台目前可以提供无参考的质量评估算法,其中无参考锐化评估算法、无参考清晰度评估算法已上线丽影,闭环指导视频增强演算法的适配。

2. 为视频处理提供客观参考

     目前,丽影中用到的视频处理技术有:去块效应、锐化、超分辨率、视频降噪等技术,未来逐步开放的技术有:极速夜景增强、美颜滤镜(已落地手Q)等技术。视频处理技术的最大特点就是很难找到一个客观指标,告诉你参数调到什么程度才能让用户满意。下面,以锐化算法为例,进行说明。

    下图是丽影平台的锐化模块采用不同锐化阈值的的效果对比图。下图从左到右分别为原始图片,锐化强度为2.0的增强图片,锐化强度为3.0的增强图片。我们通过音视频主观打分平台得到三张图的的平均主观意见分(MOS),从左到右分别为:0.5,0.685,0.623。显然,锐化强度并非越大,观众就会越喜欢。因此,如果能通过建模的方法拟合得到这三张图的主观质量得分,就可以知道锐化算法采取最符合人眼视觉的锐化程度。

    下图反映了无参考锐化评估算法对丽影平台锐化增强处理的评估效果,我们可以看到预测效果基本与我们预期的一致。合适的锐化强度能够有效地丰富视频的细节纹理,使视频的视觉体验更佳,但过度的锐化会放大一些artifacts,我们的预测曲线也与视频的主观体验变化较为吻合。

3. 为视频推荐或搜索系统提供主观评分标签

短视频正逐渐成为互联网上的一种重要的信息传播方式,为短视频打上各种有用的标签,可以帮助优化推荐系统或搜索引擎,从而为用户提供精准的短视频推荐或搜索服务。常用的打标签模型可以获得实体类标签,如建筑和美食;人物类标签,如马伊琍和文章;动作类标签,如体操和舞蹈,等几十类标签。通常,这些标签,都是某个视频某种属性的度量。

    我们看到“大漠孤烟直”的壮美沙漠,看到“黄山归来不看岳”秀丽山川,都会情不自禁地发出“太美了”的赞叹。于是,我们思考,“美”是不是可以成为一个标签,帮助到视频推荐系统或者搜索系统,把所有美的东西都聚集到一起呢?假设我们对所有图片或视频得到一个主观评价得分,再根据每个图片的属性设置对应的阈值(容易理解的是,“小桥流水人家”和“长河落日圆”给人带来的主观冲击力是不同的)。于是,质量评估技术可以帮助我们把所有美的图片或视频都聚集到一起。

    如果,我们有办法对这些美进行区分,不论是通过简单的属性标签,又或者是复杂的数学模型,总之,只要想办法区分出不同类型的美,就有可能根据美学分类为不同雅俗程度的用户做推荐。具体的,当用户就是只喜欢壮美的景色,你再怎么给他推江南秀丽风光的视频,用户也感受不到其中的美之所在。因此,质量评估技术还可以对视频内容的美的程度或类型作区分,将相应的内容推荐给不同雅痞程度的用户那里。

    丽影的质量评估技术,希望能够为公司的视频推荐或搜索团队,提供视频主观打分和美学聚类技术,帮助相关产品或平台,从美学的角度,将不同美学程度或不同美学类型的视频内容,推荐给不同雅俗程度的用户。

03

质量评估技术介绍

    为了减少传统深度学习方案对人工标注的过度依赖问题,我们采用弱监督的基于rank learning训练模式对网络进行预训练,之后使用部分人工标注数据调参,其中无参考锐化评估算法的标注训练样本主要通过音视频主观评测平台进行收集,而无参考清晰度评估算法则使用了部分来自微视的标注数据。

    在预训练的过程中,我们采用了合成训练样本的方式来训练通用的图像视频质量评估网络。我们从公开的图像美学数据集aesthetic visual analysis (AVA)来通过一定准则人工筛选得到约4k张高质量的种子数据集,另外地,我们也从xiph选取了部分视频源来增加压缩失真的相应训练样本。我们假设筛选得到的种子数据集中的图片x的各项指标比如锐度和清晰度都处于最佳,对这些图片x进行额外的质量调整操作h(x,ϕ)都可能会降低图片的视觉质量,ϕ为操作调节的强度参数。具体地,我们选择了锐化增强、压缩失真、白噪声和多种图像平滑操作算子来对图像进行劣化处理,高质量图片被相对更强劣化处理之后得到的图片的质量不高于被相对更弱的劣化处理之后得到的图片的质量,其中锐化模型主要利用了锐化增强和模糊两种类型的失真,而清晰度模型使用了所有的失真类型。

    这样我们可以获得一对由高质量的x生成的图像[x_a,x_b],其对应的劣化处理强度为[ϕ_a,ϕ_b],如果ϕ_a > ϕ_b, 那么x_a的主观图像质量应不高于x_b的主观图像质量,反之,亦然。这样动态生成的图像对相应的ground-truth rank label为:l=1, if ϕ_a≤ϕ_b, else l=-1, 其中l=1表示的x_a的主观质量不低于x_b的主观质量,l=-1表示的x_a的主观质量低于x_b的主观质量。

     之后我们使用上图所示的孪生网络结构进行训练,其特征为共享网络权重的红蓝两个输入通道,可以有效地利用两个输入的相对关系来训练网络。网络的单支结构F主要模块为多尺度的patch裁剪、mobilenet前馈和多个patch的求平均。弱监督的rank learning的损失函数为L_rank = sum( max (0, l * (F(x_b) - F(x_a) )))。我们可以理解为当网络F对输入[x_a,x_b]的预测值[F(x_a),F(x_b)]与[ϕ_a,ϕ_b]的大小关系一致时loss=0,大小关系相反则loss>0,促使网络通过backward propogation进行训练调整。另外的,当有带MOS标注的训练数据时,可以利用MOS值和F(x)的L1 distance作为regression loss与rank loss一起辅助模型训练。目前我们的视频评估算法属于帧级的预测,未充分利用时域的有效信息,对于视频整体的锐度/清晰度,主要是通过对所有视频帧的时域平均获得。

     我们也在的主流数据集上对无参考锐化评估算法进行了对比测试,其中CID2013和BID为包含真实噪声的数据集,而其他的四个常见的LIVE、CSIQ、TID2008和TID2013数据集为合成失真。PLCC和SRCC主要衡量的是图片质量客观预测分数与主观标注分数的相关一致性,一般地,分值越接近于1预测效果越好。如上图所示,我们可以看到无参考评估算法的总体表现要比目前其他的锐化评估算法都要好。目前该工作相应的会议论文已被ICIP2019接受。

本文作者:kindlehe & alriczhang

———— / END / ————

最新资讯 丨 技术干货

就在腾讯多媒体实验室

长按二维码关注我们

0 人点赞