本次会议来自PCS 2021 Facebook workshop,会议的主要内容包括介绍Facebook的视频业务,以及对Facebook研发的实时通话专用设备,编码计算资源分配策略以及视频质量评价方法方面的技术进行了讲解。
会议首先对Facebook进行进了介绍,Facebook是世界最大的社交平台,视频产品的形式和种类也非常丰富。由于视频的规模和体量很大,Facebook也致力于研究减小计算和存储的消耗,确保稳定性和可靠性以及提高RD性能。
会议接着介绍了在实时通话上Facebook所做的工作。
在呼叫设备上,Facebook基于Android设计了一套专用的硬件设备Portal,该设备与手机类似,具有高清摄像头和免提语音设备。
在编解码方面,Portal主要对高清视频通话进行了优化,在编码器部分对码率控制进行了优化,能够适应频繁的码率波动和I/P帧的变化。Portal具备多路解码器,在节省了CPU消耗的同时,也具备群组通话的功能。Portal的硬件编码器与IOS的硬件编码器进行对比,Portal中进行优化后的编码器可以取得更好的RD性能。
在Portal中,Facebook另外添加了基于OpenGL的纹理编解码器,能够使得CPU和GPU进行异步计算,有效提高了通话的fps,并且尤其适用于AR场景。
Porter同样能够支持ROI编码,并且采用对图像采集和编码的整体pipeline进行了优化,以减小ROI编码带来的延迟。
会议中也介绍了Portal的开发流程,介绍了如何评估技术的实用性以及测试过程中图像的采集和编码、传输的评测指标和方法。
随后,会议介绍了Facebook使用机器学习和成本效益分析技术提高视频视觉质量的方法。
Facebook同样采用ABR技术来减小缓存,但对于大量的视频来说,无法保证具有足够的计算资源来使用先进的编码技术,因此如何在有限的计算资源下提高用户体验是一直以来的研究目标。由于观看次数较多的视频只占所有视频的小部分,因此可以对这部分视频进行更精细的编码压缩。
随后会议介绍了Facebook使用的成本效益分析模型,通过使用一个优先队列来管理编码任务,优先级被定义为效益除以消耗,其中的效益为视频的BD-rate乘上预期的播放次数,消耗为定义为编码任务对计算资源的需求。高效益的视频将会被优先处理。
而在播放次数方面,则是使用ML的方法进行预测。通过训练两个模型,来分别对视频本身特征和用户观看特征进行处理来得到最终的预测结果。二者结合后可以实现自动调整计算资源的分配,为用户提供更好的观看体验。
会议的最后介绍了使用视频质量评测来实现更好的ABR技术的方法。
Facebook使用FB-MOS作为播放时的评测指标。该指标的计算将编码和传输的整个流程都考虑进来,并将编码质量与播放体验相结合,可以适配于不同的播放终端,并使用SSIM的线性插值作为最终的分数。
在进行决策时,除了考虑FB-MOS,还会考虑播放终端的计算能力与网络传输代价,来选择合适的码率进行传输。
会议中也展示了码率与FB-MOS的关系图,并在不同的限制条件下展示了传输码流和质量的选取方法。