本文为媒矿工厂发表的论文
论文标题:A Generative Compression Framework For Low Bandwidth Video Conference
发表会议:ICME2021
作者:冯大虎
在后新冠疫情时代,人们的生活方式也受到极大的改变,越来越多的线下事宜变成了线上事宜,而视频会议则在其中担任了重要的角色。当下,教育、办公、学术研讨、即时通信等领域,对于在线视频会议场景的传输日益迫切的需求。而相较于文字或者图片,视频的传输对于网络带宽和稳定性提出了新的要求。如何在恶劣网络环境的情况下(如在偏远地区、地铁站或者电梯里,手机带宽不免会出现下降到个位数的时候)获得良好的视频会议成为了当下的研究热点之一。事实上,随着深度学习技术的发展,AI辅助的视频编码技术使得在上述情况下的视频通话成为可能。
在近日ICME2021会议上,上海交大的medialab团队提出一种新的视频压缩编码框架“A Generative Compression Framework For Low Bandwidth Video Conference”,只需要1KB/s码流,就能获得高质量的视频会议,相较于VVC编码标准,节省了3/4的码率。
论文介绍
图1 基于生成模型的视频编码框架
该论文提出的视频编码框架仍然保留了传统的encoder-decoder的编解码结构,但是在对于其中的编解码器的具体设计进行了极大的改进。具体如图1所示。
在该视频编码框架中,输入的视频帧被分为了两类不同的帧,分别是关键帧和其他帧,关键帧和其他帧整个编码架构中分别起到不同的作用。关键帧主要传递人脸整体的外貌特征和背景特征,对于一般的视频流,综合考虑视频质量和码率选取1-10张视频帧作为关键帧。在视频流中,除了关键帧以外的帧,称为其他帧。其他帧在该视频框架下,起到传输细节,例如改变人脸姿态和表情的作用。因为人脸的姿态以及表情信息可以很好地和人脸的整体外貌信息解耦,对于同一个人,他的外貌信息是相同的,但是这个人能拥有着不同的人脸姿态和表情。同样地,对于不同的人,也可能拥有相同的表情和人脸姿态。由此可见人脸的外貌信息和人脸姿态表情互不影响,把上述三者进行解耦更加有利于对人脸视频会议的压缩编码。
对于关键帧和其他帧,编码器和解码器所对应不同的组成部分,对于其他帧,编码器由HRnet[1]组成,解码器由输入生成器(Input Generation)和VSBnet组成。而对于关键帧,编码器由HRnet和VVC的编码器组成,而解码器由VVC的解码器,关键帧池(Frame Pool)以及VSBnet组成。当其他帧被输入到了编码器中,输入帧图片会作为HRnet的输入,HRnet将会提取输入帧图片中人脸的关键点的位置信息,并将该位置信息作为编码器的输出。而对于关键帧,因为需要保留其人脸整体的外貌信息,所以单一的人脸关键点信息并不足够,在这里采取了VVC编码器,对关键帧的图像进行编码,通过尽可能少的码率,来保留尽可能多的人脸外貌特征。除了VVC的编码器以外,对于关键帧,仍然需要HRnet对其进行关键点位置信息的提取,以方便在之后的解码器端生成VSBnet所需要的成对输入。具体的编码器的示意图如图2所示。
图2 编码器计算流程示意图
值得注意的是,为进一步节省码流,考虑到人脸的外貌特征在短时间内不会发生很大的改变,可以将关键帧的编码后的码流上传云端后者事先保存在本地,从而进一步节省实时传输的码流。经过信道的传输后,将经过VVC解码恢复的关键帧图像与对应的关键点位置信息一一配对,并组成了解码端的关键帧池。该关键帧池缓存了所有关键帧的信息,并从中选取特定的关键帧作为输入生成器的一个输入。输入生成器的另一个输入来自实时的人脸关键点位置信息的码流,也就是除去关键帧以外其他帧的码流,当事先利用了云端下载了关键帧,则对于本次视频会议的传输所有帧都将被认作是其他帧,即所有帧都只需要经过人脸位置信息的编码。输入生成器利用关键帧池和实时人脸关键点的位置码流,生成VSBnet所需要的输入对,VSBnet会利用这些输入对,从而恢复出原始帧的图像。整体解码端的示意图如图3所示。
图3 解码器计算流程示意图
模型介绍
从输入生成器获得参考帧辅助帧和目标帧将会输入到VSBnet中,而VSBnet也是整一个生成模型的核心。VSBnet(Visual-Sensitivity-Based Network),即基于视觉敏感性的网络,主要分为5个部分:视觉敏感特征提取器,视觉非敏感特征提取器,置信图,生成器和判别器。整体的网络框架图如图4所示。
图4 VSBnet框架示意图
视觉敏感特征提取器、视觉非敏感特征提取以及置信图组成了一个视觉敏感性单元,该单元可以接受输入人脸关键点和各区域的图像信息,并输出目标帧人脸以及背景的融合特征,而生成器利用该融合特征,恢复出目标帧的人脸前景以及背景。在训练时,该论文采用分层级的训练方法,首先对输入进行下采样,训练一个粗粒度的模型,当粗粒度模型训练达到了一定的效果后,再训练原始分辨率的网络,这样从粗粒度到细粒度的网络训练方式,对于高分辨率的图像有着非常好的效果。对于网络中的五个模块,该论文参照了pixel2pixelHD[3]的网络结构,利用了ResUnet[2]作为网络的backbone。对于生成器和判别器的设计,采用了类似金字塔结构的多尺度生成和多尺度判别,使得网络能生成不含伪影的高分率的高质量图像。
实验结果
利用该论文所提框架,与现有的视频编码的框架进行对比,主要结果如表1所示:
表1 各编码框架客观指标参数
Method | PSNR(Y)↑ | MS-SSIM↑ | VMAF↑ | BPP(10-4)↓ |
---|---|---|---|---|
VVC-QP62 | 29.69 | 0.935 | 4.184 | 2.84 |
VVC-QP52 | 34.57 | 0.969 | 45.99 | 4.96 |
VVC-QP42 | 39.04 | 0.984 | 73.86 | 12.32 |
Maxine Nvidia | 24.37 | 0.85 | 68.34 | 16.18 |
Ours | 29.76 | 0.970 | 49.25 | 3.33 |
Ours(A) | 31.88 | 0.976 | 52.85 | 3.33 |
Ours(V A) | 34.60 | 0.987 | 73.25 | 3.33 |
分析表1,其中VVC-QP62、VVC-QP52、VVC-QP42分别表示三种不同量化参数的VVC 编码方案,Maxine-Nvidia 是英伟达开发的一个同样利用神经网络生成视频会议的云平台,Ours表示单纯利用人脸关键点,而不加入辅助帧和视觉敏感性划分去生成目标视频帧,这种做法也是主流的深度学习采用的做法。而Ours(A)表示在利用人脸关键点的基础上,还加入了辅助帧,帮助模型能更好地生成目标视频帧。而最后Ours(V A)同时考虑了视觉敏感性划分和辅助帧,相较于之前的模型是功能最为强大的。经过分析可知,该论文提出的Ours(V A)的模型在MS-SSIM指标上获得了最佳的效果,而在其他三项指标上都获得了次佳的数值。然而客观测试在很大的程度上并不能等效于相同的人眼主观感受,并且上述大部分的评价指标都是基于对图片的评测。而对于视频而言,视频帧之间的连续性,在一定程度上远甚于单帧图片的质量。所以该论文还进行了定量的主观测试。具体结果如表2所示:
表2 各编码框架主观指标参数
Method | BPP(10-4) | Fidelity | Aesthetics |
---|---|---|---|
VVC-QP62 | 2.84 | 0.00 | 0.00. |
VVC-QP52 | 4.96 | 0.00 | 0.01 |
VVC-QP42 | 12.32 | 0.11 | 0.56 |
Ours(V A) | 3.33 | 0.89 | 0.43 |
论文代码已开源:
https://github.com/sjtu-medialab/dafc
论文链接:
https://ieeexplore.ieee.org/document/9455985
参考文献
[1]Wang J, Sun K, Cheng T, et al. Deep high-resolution representation learning for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2020
[2]Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4, inception-resnet and the impact of residual connections on learning[C]. Proceedings of the AAAI Conference on Artificial Intelligence. 2017, 31(1).
[3]Wang T C, Liu M Y, Zhu J Y, et al. High-resolution image synthesis and semantic manipulation with conditional gans[C]. Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 8798-8807.