腾讯多媒体实验室打造H.264编码器,落地腾讯实时音视频

2022-10-09 09:40:11 浏览数 (1)

信息时代,利用音视频来获取、交换相关信息早已成为生活中的一种重要方式。疫情的到来使得人与人在物理空间上的交流受阻,也使得诸如云办公、远程会议、线上授课等相关刚性需求随之增加。作为这些应用的基础,实时音视频进一步承担了社会中非常重要的角色,同时也将视频应用的消费趋势从消费互联网向产业互联网延伸发展。

针对上述场景,腾讯多媒体实验室发布了端侧的实时H.264视频编码引擎O264RT,并落地腾讯实时音视频TRTC等诸多产品与业务,在提升用户体验的同时节省带宽成本。在实时应用场景,尤其是云办公时代的屏幕内容场景,O264RT相比于x264等开源编码器,编码画质有极大提升,能为用户带来极致的画质体验。

实时音视频基础,H.264标准专利即将到期

作为音视频应用的底层能力,高性能的视频编码压缩引擎能够在有限的带宽下保留尽可能多的画质细节,从而提升用户的视觉体验。业界熟知的编码压缩标准有H.264、H.265、H.266、AV1、AVS3等。相较其他编码标准,H.264以其极低的编解码复杂度、终端支持度以及友好的专利授权使用方式等优势在实时音视频领域拥有良好的生态,作为一代制定完成距今已近20年的标准,目前仍占据广大的市场。

一般而言,专利的保护期限为20年,这也意味着于2003年制定完成的H.264标准,其中的标准必要专利将会在2022以及2023底年全部过期。而它的下一代标准H.265至今仍然存在多个专利池重复收费,应用时与合规风险一直“暧昧不清”。脱离了专利束缚的H.264,在可见的未来会在市场中活跃相当长的时间。

图1. HEVC专利池与标准必要专利图示[1]

针对云办公场景优化,助力H.264画质提升

考虑到H.264在应用中的重要性,腾讯多媒体实验室启动并持续地投入到H.264编码器O264RT的开发与优化工作中。H.264编码标准已定稿20年,相较新的视频编码标准,它的编码压缩性能——即同等码率下画质存在较大优化空间。因目前业界领先的x264编码器在商用场景需要收取高昂的软件授权费,实验室推出了O264RT编码器并不断打磨优化,最终使得画质,尤其是实时音视频中的典型场景——云办公场景中的画质相比x264获得极大提升。  作为实时音视频的典型场景之一,云办公场景下的录屏、屏幕分享等相比于普通的自然场景,在视频内容上存在很大的不同。下面左图为典型的屏幕内容场景,而右图为摄像头/自然序列场景。   

图2. 屏幕内容场景(左)与自然序列场景(右)

可以看出,屏幕内容场景下颜色信息相对单一,存在重复的纹理(字符),且存在很多静止帧/块。由于一些典型的文档操作——如页面滚动、翻页等,使得相邻帧遵循统一的运动方向。H.264及其之前的视频编码标准应用场景主要是摄像头采集的视频内容,因此在制定过程中主要考虑摄像头场景,没有充分利用到屏幕分享类视频的特点,导致在此类应用中压缩效率不高。由于云办公的流行,近些年来屏幕分享类场景变得越来越多,在H.265,H.266或AVS3等新标准的制定过程中,针对这种颜色集中,纹理重复的视频,提出了诸如IBC(Intra Block Copy,帧内块复制模式)或PLT(Palette Mode,调色板模式)等工具集,显著地提升了该场景下的编码效率。腾讯多媒体实验室是H.266与AVS3定稿标准文本中IBC相关部分的主要起草单位,在标准制定或是落地实现方面均有诸多实践[2],对屏幕分享场景有很深理解与技术积累。因此在O264RT的开发过程中引入了多项有效的技术,也包括如运动搜索、模式决策调整等编码端算法来提升屏幕分享场景下的编码效率。  

视频编码中的运动搜索是指在邻近的已编码的参考帧找到待编码像素块的最佳匹配位置,从而利用已编码的像素值,结合运动矢量,达到对当前待编码像素的预测与重建。运动搜索策略的优劣依赖于是否可在参考帧中高效地寻找最相似的参考块,预测误差越少,则意味着残差信息所消耗的码率越低,也就可以获得更高的压缩性能。考虑到实际的编码复杂度,在各类编码器实现中,运动搜索一般会遵循一个预设的搜索模板以及提前终止策略。而屏幕内容序列与普通视频的不同也导致对于搜索模板需要重新设计。此外,通过增加搜索点位并配合深度优化的提前终止策略,以及利用哈希表等方法可以有效地在不增加编码复杂度的情况下,针对性地提升运动搜索的准确性。相比于x264,经过多轮优化,目前的O264RT编码引擎可以在相同复杂度、相同码率下达到近30%的编码画质增益,并落地腾讯TRTC。  

图3:编码视频内容画质对比 1080p@1000kbps(左:优化前,右:优化后)      

O264RT在云办公场景下优异的表现得益于腾讯多媒体实验室在屏幕内容场景下的不断积累,在标准专利方面,目前已经有数十件技术提案被国际国内标准采纳,产生了十余篇国际会议期刊论文[2][3][4]。在应用落地方面,目前已有多款编码器针对屏幕分享场景做了大量并应用于腾讯会议、TRTC等业务,节省大量带宽成本。相关底层技术也荣获了2021世界数博会最高荣誉“黑科技”奖。

图4 图5:2021年数博会领先科技成果奖——屏幕内容编码技术

腾讯多媒体实验室推出的O264RT是一款拥有自主软件版权的H.264编码器,在屏幕分享、弱网等环境下做了大量优化,在实时通信类场景下表现优异,已经成功应用于TRTC等产品中,为用户带来了高质量的体验。目前,针对其他场景的适配也在持续进行,以帮助各类业务获得极致的视频体验。

引用:

[1]HEVC Advance Patent Pool Momentum Grows - PR Newswire APAC

[2]Y. Wang, X. Xu, and S. Liu. "Intra block copy in AVS3 video coding standard," IEEE International Conference on Multimedia & Expo Workshops (ICMEW), 2020.

[3]X. Xu, S. Liu, et al, “Intra block copy in HEVC screen content coding extensions,” IEEE Journal on Emerging and Selected Topics in Circuits and Systems, vol. 6, no. 4, pp. 409-419, 2016.

[4]X. Xu, S. Liu, “Overview of screen content coding in recently developed video coding standards.” IEEE Transactions on Circuits and Systems for Video Technology vol. 32, no. 2, pp. 839-852, 2021.  

往期回顾

01

腾讯多媒体实验室实现云游戏「视觉无损」,首款3A游戏编码引擎落地START云游戏

02

浅入浅出谈“视频压缩”

03

技术科普|为什么看片可以这么“爽”?

请随时与我们联系并分享您的需求:

腾讯多媒体实验室

medialab@tencent.com

编辑:Yihan

0 人点赞