本文来自PCS会议(2021)的一次Keynote,演讲者是来自ATHENA的Christian Timmerer,主题是“HTTP自适应流会走向何处“。
本次演讲将分为三个部分:
- 介绍
- ATHENA
- 内容供应
- 内容分发
- 内容消费
- 端到段角度
- 体验质量QoE
- 结论:HAS将走向何处?
根据思科在2019年作出的推断,到2022年时,视频将占据网络流量的82%。同时,视频直播将占据更大的比重。在应用方面,更高级的,诸如VR、8K电视等应用将会导致更高的带宽占用。视频流量的重要性是是本次演讲的动机。
图1 HAS基本流程
HTTP自适应流的基本过程如图1所示,服务器端编码多个不同码率的副本,客户端随着网络情况的波动自适应地选择相应码率的片段进行下载和播放。
图2 多媒体系统的挑战和折中
图2展示了多媒体系统存在3个方面的挑战和折中:
- 内容的复杂度,比如较高级的视频形式如AR、VR和360视频;
- 时间方面,比如端到端延迟,开启延迟等;
- 质量方面,比如内容质量、服务质量和QoE等。
图3 HAS问题的考虑角度
图3展示了ATHENA公司考虑HAS问题的几个方面,下面将分别进行简要的介绍。
内容供应
在内容供应方面,主要考虑以下三点:
- 质量提升:Per-Title编码,内容感知、内容自适应、质量感知编码;
- 运行时提升:云端基于硬件/软件,并行/分布式,参考信息重用的编码(多码率/分辨率);
- 应用场景:视频点播、直播、交互、游戏、视频会议。
视频编码的过程简单来说就是对图像块划分、运动补偿、变换和量化以及熵编码。解码过程是熵解码、反变换和反量化、帧内帧间预测、环路滤波,之后到缓冲区,然后显示的过程。
图4 机器学习在编码中的应用
如图4,机器学习在编码中当前主要应用在CTU划分的预测、光流估计、角度方向预测、去块和降噪以及超分辨率这几个方面。
在加速多码率编码方面,编码的信息可以在编码不同质量的表示时被复用。比如首先编码最高质量的码流,然后使用其信息编码最低质量的码流,之后使用这些信息编码剩下的版本。信息可以指导及限制CTU搜索的范围。
在这种方法下,高质量视频的编码成为了整体速度的瓶颈。为了解决这个问题,以提升并行编码的程度,提出了首先编码中间质量版本,然后用其信息编码剩余版本的方法。
图5 多分辨率多码率加速编码的示意
上面这两种方法都是在HEVC上基于HM这个参考软件提出的,为了进一步提高效率,接下来在x265这个更加实用的编码器上进行优化,将多码率和多分辨率方法在x265上进行结合。算法的大致情况如图5所示。
图6 CNN应用到多码率编码加速
接下来是将机器学习应用到多码率编码的加速,方法是使用CNN来预测CTU的深度。对于不同QP训练不同的网络。在编码时,首先编码最低质量的版本,然后编码其他质量的版本,并在瓶颈,也就是最高质量的几个版本编码时使用CNN来进行加速。算法流程如图6所示。
图7 CNN应用到多分辨率多码率编码加速
然后就是把这种想法应用到多分辨率编码中,算法流程如图7。
内容分发
在内容分发方面,主要考虑以下四点:
- 边缘计算支持(CDN/蜂窝网边缘):在边缘完成一些功能,比如缓存、转码、重打包等;
- 服务器/网络/CDN与HAS客户之间的信息交换和协作;
- 使用现代网络架构的特性:SDN、网络功能虚拟化、MC-ABR等;
- 低延迟直播流:使用MPEG CMAF、HTTP分块传输编码CTE、LL-HLS等。
图8 边缘动态片段重打包
首先是为HAS在边缘进行动态片段重打包,方法是只在核心/CDN传输时使用CMAF片段,在边缘根据需要的格式进行重打包,如图8所示。这样相比于使用所有格式来传输的情况可以获得20%的带宽节省,同时还评估了重打包的时间。
图9 网络资源使用优化
然后是直播视频流的资源使用优化,如图9,方法包括:
- 用SDN和NFV的概念减轻多播ABR的问题;
- SDN:设置和优化多播路径;
- VRP(虚拟代理):汇总用户的请求;
- VTF(虚拟转码器):把片段转码到用户请求的质量等级;
- MILP优化模型协同构建最优的多播树和VTF位置;
- 启发式算法(多项式时间)。
图10 ES-HAS示意
接下来是ES-HAS,边缘和SDN协助的HAS框架,做法是在网络边缘引入新的服务器/片段选择方法,主要目标是提升QoE和网络使用率,结构如图10。
内容消费和端到端视角
在内容消费和端到端视角,主要考虑以下四点:
- 码率自适应方案:基于客户端、基于服务端、网络协助的、混合式的、基于机器学习的;
- 应用/传输层增强:HTTP/2(TCP)、HTTP/3(QUIC)、SRT、 RIST、WebRTC等;
- 客户播放提升:用户感知播放、内容增强滤波器、超分辨率;
- QoE:主客观质量评估、模型、分析。
图11 各种码率自适应方案
在码率自适应方案上,各种方法如图11所示。
图12 H2BR示意
然后是H2BR,基于HTTP/2的重传。这种方法借助HTTP/2的一些特性来增强现有的ABR,如图12。H2BR可以将最低质量的播放降低70%以上,QoE最多可以提升13%。
图13 不同播放器中ABR算法的QoE对比
在QoE方面,已经有白皮书给出了具体的定义。根据这种定义对播放器中的ABR算法进行了主客观测试,结果如图13。
在自适应点云流的QoE评估方面,立体视频传输提供了6自由度体验,但是需要大量带宽消耗,MPEG已经有点云压缩PCC的参考软件。为了解决网络和内容对感知质量的影响以及主客观指标一致性的问题,给出了一些测试方案,相应的结果可以在视频中查看细节。
总结与展望
- 内容提供
- 内容和上下文感知将会更重要;
- 多编解码(AVC, HEVC, VVC, VP9, AV1)支持;
- 机器学习更多的结合。
- 内容分发
- 边缘计算支持更加广泛;
- CDN, SDN, NVF等新网络组件与客户端协作;
- 低延迟直播流在面对大量用户的挑战。
- 内容消费和端到端
- 客户端内容增强更加实用,例如超分辨率等;
- 机器学习应用更广泛;
- 应用层/传输层增强吸引更多研究注意。
- QoE
- 沉浸式内容成为下一大进步;
- 用户感知的播放是提升QoE的重要手段;
- 更好/更新的QoE模型和分析可能成为新的兴趣点。