新知 | 4K/8K超高清时代如何利用媒体处理技术加速媒体数字化升级

2022-09-26 18:11:07 浏览数 (2)

新知系列课程第二季来啦!我们将为大家带来全真互联时代下新的行业趋势、新的技术方向以及新的应用场景分享。本期我们邀请了腾讯云音视频技术导师——刘兆瑞,为大家分享媒体处理技术在4K/8K超高清视频处理上的应用。

随着观看设备分辨率的提升以及观看设备不断向高清升级,业界对视频清晰度的要求也日渐增高。中国电子信息产业发展研究院发表的《超高清视频产业发展白皮书(2021年)》宣告了超高清时代的来临。面对4K/8K超高分辨率、超高码率的视频,很多新的痛点问题亟待解决,今天的文章将分享我们在利用媒体处理能力加速媒体数字化升级方面的一些思考。

文章第一部分会介绍4K/8K超高清视频的特点以及这些超高清视频广泛应用面临哪些问题。之后第二部分会介绍我们在编码器方面所做的优化,来使编码器更适配超大码率、超高分辨率的视频。第三部分则介绍编码器之外,我们针对直播场景的8K实时转码系统架构所做的优化。最后则会分享下我们针对超高清视频片源不足的现象,如何利用媒体处理能力,通过画质重生技术来弥补片源不足。

4K/8K超高清视频的特点就是它的分辨率和清晰度非常高,同时视频码率极高。超高的分辨率和码率对下游系统带来了新的挑战。以直播系统来说,直播转码过程的处理速度和性能消耗,与视频输出的分辨率及码率息息相关,要支持实时的8K转码系统,无论在编码内核上,还是在系统架构上,都需要新的设计方案。

当前也有很多专属硬件的方式来支持4K/8K分辨率的实时编码,虽然其能满足实时编码的需求,但压缩率相对软编较差,若要保持4K/8K的清晰度,往往需要几十兆甚至上百兆的码率。超高码率的传输对整个传输链路,以及播放终端来说,也是很大的挑战。

同时,AR/VR也慢慢地在兴起。这些新的场景都离不开视频编码与传输,随着新技术的兴起,超高清视频必然是未来的重要发展趋势。

第二部分主要与大家分享我们在编码方面所做的优化,以及目前我们自研编码器所能达到的编码性能。

无论是H.264、H.265,还是AV1,包括最新的H.266,腾讯内部均自研了相应的编码内核。自研编码器的好处是可以更贴合实际的业务场景设计编码特性,进行针对性的优化。比如在北京冬奥会时,视频云直播系统就承载了4K/8K的实时编码压缩,最高支持120FPS实时编码,为了达到实时的效果,在编码器内部做了很多定制调优。

从腾讯自研的H.265编码器V265来看,与开源的X265相比,可以在远远提升速度的情况下,同时提供更好的压缩率。V265编码器在速度指标上,其最快的档位远快于X265,能够提供高分辨率下的快速编码。除此之外,V265也支持8K/10bit/HDR编码。

对于AV1来说,其编码复杂度比H.265更高。针对超高清的情况,我们做了不少工程性能优化,与开源编码器SVT-AV1相比,可以有55%的性能加速,同时还能带来16.8%的压缩增益。

针对超高清视频的快速编码,我们核心优化的方向点有几个。第一个是更好地提高并行度。我们知道在编码过程中,有帧级的并行,也有宏块级的并行。在需要实时的大分辨率编码时,对于帧级的并行,我们对它的帧结构进行了调优,提高帧间编码并行度。对于宏块级的并行,支持tile宫格的编码,来优化行级编码并行度。另一方面,编码器往往会有lookahead预分析的过程,视频进行lookahead预分析结束之后才能进行后续的编码操作,而lookahead常常会成为整个链路并行的卡点。我们对预分析及后处理的复杂度瓶颈算法简化,来加快这一流程的速度。通过这些优化,编码处理速度、并行度都有很大提升。

这一部分介绍我们整个系统的架构优化。对于直播的场景来说,仅仅依靠编码内核的升级,很难兼顾8K视频的实时编码和压缩率,还需要对整体的系统架构进行调整。

目前常用的方案,是将8K的AVS3视频源输入硬件编码器,输出包括8K的265、4K的265、1080P的264,甚至720P的264等多路不同的码流来进行分发。这套方案虽然可以实现目标,但也存在很多问题。首先,8K的硬件编码器价格普遍昂贵,尤其是8K/AV1的编码器,选择更少,价格也更加昂贵。第二个是硬件编码器和优化后的软件编码器相比,压缩率依然较差。这是由硬件编码器的一些特性决定,导致很多不太适用于并行的加速算法无法应用。第三个是硬件编码器往往是定制好的架构和芯片,在面对众多不同的业务场景时,无法做到快速变更。不断变化升级的业务需求,对于硬件编码器是一个很大的挑战,但如果能够通过软编实现同样的编码效果,就能够兼顾转码压缩率和业务灵活性。

为了解决这些问题,我们对整体的直播系统架构进行了很多调整。这里先介绍一下普通直播系统的架构。首先将流推到upload接入网关。通过网关后进行直播流处理转码,转码后再将输出的直播流推到CDN进行分发观看。

对于8K视频编码来说,现有的直播处理链路只靠一台机器,一个转码节点,还是难以完成实时的软编。因此在这一背景下,我们设计了超高清直播流处理平台。

超高清直播转码节点,并不进行实际的转码,而进行转封装的工作,将拉来的源流切成TS小片。然后将这些TS片以文件的形式,发送给视频转码处理集群。转码处理集群可以并行处理多个不同的TS小片,实现多台机器的并行编码。这样就将原有单路编码任务集结在一台机器处理的情况优化,利用转码处理集群进行分布式的多台机器处理直播流。这样做的好处首先是纯软件控制,灵活性非常高 ,无论进行处理能力扩展还是业务升级,处理流程都极为方便。第二是可以更好的节省成本,离线转码集群与直播集群混部,可以实现更大业务范围的资源复用,提升资源利用率。当然它也有缺点,延迟相对来说会高于标准的转码流程。因为要进行并行的转码,首先要在开始流处理时进行一个转封装的过程,这个过程其实要进行一定的等待来生成独立的TS,所以延迟会相对更高,但也在可接受的范围内,尤其是下行使用HLS来进行直播时,延迟不会有明显的变化。

我们将实时直播的4K/8K超高清视频通过离线处理集群并行编码的方式转换为多个并行的、独立的离线转码任务。极速高清的能力可以用在离线转码节点内部。在离线转码节点内部进行转码的过程中,可以保证在相同的主观评分下,节省50%以上的带宽。如果和硬件编码器相比,可以有70%以上的压缩率提升。也就是说通过前面的系统方案,直播4K/8K超高清视频在同样的画质下,所需要的编码码率只是硬件编码码率的30%左右。或者在同样的码率下,极速高清可以提升20%以上的主观分数评价。

在每个独立离线转码节点内部处理流程中,从整个完整的链路来看,收到视频源后,会先对视频源进行解码,解码后我们会对视频源进行场景分类,对于不同的分类会有不同的编码策略。之后会有对应的场景检测,包括噪声检测、毛刺检测等等,来分析视频源中的噪声、毛刺、毛边的情况,为后续的编码优化做准备。在编码之前我们会对检测到的视频源问题进行修复,包括去噪、去盲刺,去毛边等等。对视频源的画质进行修复后,还会进行一个编码前的感知编码分析。感知编码分析主要是分析视频画面的ROI区域,比如视频画面中的人脸区域,纹理复杂、纹理简单的区域。对于纹理复杂的区域,可能会有一些遮盖效应存在,针对这种情况,我们可以适当地减少码率。对于纹理简单的区域,人眼往往比较敏感,如果出现块效应就会产生很大影响,针对这种情况,我们可以进行一些感知编码的调控分析,也就是JND的能力,将这些信息带入编码器中。编码器内核进行编码时,可以根据ROI及JND的结果,更好地调配宏块间的码率分配。

目前很多播放设备达到了4K,但并不是所有的片源都达到了4K的分辨率,腾讯明眸通过技术能力,将老片源升级,达到4K分辨率的清晰度,对人眼感官来说,可以享受到真4K的播放效果。

我们通常的超高清4K视频的生成过程分为几个步骤。首先是对源进行分析,包括噪声存在的情况,压缩失真存在的情况等。然后根据这个结果进行综合的数据退化,包括去噪声,纹理增强、噪声抑制等等。这里有一个特点单独说一下,也是我们实践中的得到的结果,就是对于人脸、字体等人眼在观看视频中非常关注的区域,如果这些区域做得好,能给人显著的观看体验提升。

在对细节进行增强处理之后,会对色彩进行矫正。4K/8K的视频已经广泛使用了HDR的能力,在这样的背景情况下,很多不具有HDR播放效果的片源,我们会进行SDR到HDR转换。最终可以达到高清分辨率同时色彩鲜艳的真4K的效果。

在完善视频超分的过程中,我们发现如果只通过单一模型,其实很难达到非常理想的效果。比如对背景,对整体画面使用通用的超分模型,但对于人脸、字体,其实需要采用另外的超分模型做单独的处理,然后将两个模型相结合,才可以达到显著的增强效果。因为人脸的区域各个特征都比较固定,超分前具有足够的先验信息,可以进行专门的增强来获得人眼感官的显著提升。

关于新知

随着行业数字化转型加速,线上线下一体化、数字技术与真实世界融合的全真互联时代正加速到来。腾讯云音视频技术导师将在新知栏目中分享在全真互联时代下新的行业趋势、新的技术方向以及新的应用场景与大家共同探索视界,创见未来!

腾讯云音视频在音视频领域已有超过21年的技术积累,持续支持国内90%的音视频客户实现云上创新,独家具备 RT-ONE™ 全球网络,在此基础上,构建了业界最完整的 PaaS 产品家族,并通过腾讯云视立方 RT-Cube™ 提供All in One 的终端SDK,助力客户一键获取众多腾讯云音视频能力。腾讯云音视频为全真互联时代,提供坚实的数字化助力。

0 人点赞