在LiveVideoStack采访的几十位多媒体技术人中,毕业院校比例排名前三位是清华、北大和上海交大。他们有的耕耘在大学讲坛,输出一波波人才。有的移居海外,在全球顶尖科技公司担当技术领导人。有的还在技术一线追求极致。有的正在从技术人到创业者蜕变的路上,开启一片新天地。今天的采访对象是来自腾讯云的张贤国,拥有十分华丽的履历。不过更吸引我的是他在北大的十年遇到的两次坎儿,坎儿有多痛,过了坎儿就有多爽。作为云架构平台部-编码内核组的负责人,张贤国还在追求极致的路上。
文 / 张贤国
策划 / LiveVideoStack
LiveVideoStack:张贤国你好,很荣幸代表LiveVideoStack对你进行采访,能否向LiveVideoStack的读者介绍下自己,以及目前专注的领域。
张贤国:很荣幸能成为LVS讲师中的一员。本人2003-2013年就学于北京大学,博士毕业后在MediaTek从事了两年HEVC相关标准的提案工作,并一作采纳8项提案。2015年加入仟壹后被并购至金山云,专门从事自己富有兴趣的领域——高性能高速视频编码器的研发工作。2017年来到腾讯,作为专家工程师和技术负责人之一,与同事们合力自研了腾讯服务端编码器V265。目前作为云架构平台部-编码内核组的负责人,仍专注于商用视频编解码器的研发工作。
LiveVideoStack:为什么选择专注于视频编码这个领域,有何吸引你的地方?您在北大10年中,最大的收获是什么?
张贤国:在我大学四年级的时候,高文院士来到北京大学任教,我有幸保送至高老师的数字媒体研究所攻读博士学位。不论在MTK、仟壹、金山云还是腾讯,都有很多师兄弟的指导或者辅助,是高老师整个团队将我引入并专注于这个领域。
视频编码吸引人的地方首先在于它是一个不断追求极致、并且有很完善的评价体系的领域,哪怕一个很小的优化都可以被看到;其次在于它跟大家的生活息息相关,做好视频编解码是可以给大家带来切实的生活品质提升的;总之,视频编解码是个可以充分体现技术和工作价值的领域。
北大的10年把我从一个来自农村的憨直少年转变成一个有目标、有理想的技术研究者,内心上经历过的两次磨砺是我最大的收获:
(1)从大一时对计算机的不熟悉和成绩的不理想到大三时完成技术积累保研至高老师团队,拿到了计算机行业从业者的合格证;
(2)从研究生伊始难以兼顾学业和实验室项目到2013年三篇IEEE Transaction毕业,拿到了视频编码领域技术研究者的合格证。
LiveVideoStack:看起来联发科和腾讯是两种不同风格的公司,在您的工作中有什么不一样的体会?
张贤国:因为一直从事的是后台研发相关工作,感觉其实差别不是很大,可能代码和测试环境管理上,MediaTek更严谨而腾讯更灵活。真正感受不同之处在于工作内容:MediaTek在视频编码标准制定领域,无论是HEVC还是VVC都一直保持着TOP3的提案采纳量,研究内容一般是三五年以后才可能(但未必)会用到的。腾讯则在视频编码器研发领域有着多年的积累,给用户以可见的更优秀的实际产品体验,研究内容会更关注于实际应用场景下的主客观效果。来到腾讯,能把MediaTek在标准制定领域严谨的工作方法与腾讯内部快速迭代的工作作风做一个结合,也是非常愉悦的体验。
LiveVideoStack:我们知道您所在的团队参加了MSU编码大赛,这里有哪些有趣的故事?
张贤国:MSU比赛坚持了这么多年,还是比较有公信力的。我们编码团队是2017年中开始组建并工作的,刚开始也是想通过MSU比赛横向对比看看 我们的研发水平和行业的差距,也方便我们好进一步的改进。由于2018年3月就要提交程序,起初我们也只是关注压缩率参加慢速档。不过做着做着大家都很有热情,一口气把中速和快速都做了,时间其实是非常紧张的。最后的比赛成绩还不错,同时也给了我们很好的Badcase样本——比如MSU在2018年增加的大量的简单、复杂场景切换视频。总之,MSU比赛极大程度得帮助了V265在2019年的大幅度完善并快速落地。
LiveVideoStack:从产品角度我们可以看到腾讯云视频用户体验的提升,作为底层支持的V265目前正在做哪些改进?它对比H.265、AVS3有哪些区别与优势?
张贤国:V265是一款通用的服务端编码器,面向的是各种视频场景的编码优化。目前,V265正在进行持续的迭代优化工作——继续提升慢速档的压缩率,继续添加更快的编码档次,继续支持更多的场景类型调优。V265编码器目前是H.265标准的encoder实现,所产生的码流都是符合H.265格式的,AVS3是超过H.265和AVS2的下一代视频编码标准。所以V265编码器和H.265/AVS3标准还无法横向比较。但从参考代码来看,V265编码器相比标准参考软件会增加大量不修改标准的encoder优化工具,以数据结构和汇编优化、预分析和码率控制、自适应量化和预测关系优化、以及各种加速算法为代表。
LiveVideoStack:5G以及AI技术的发展是当下非常热的话题,您觉得这些给编码器的设计带来哪些机会和挑战?
张贤国:5G相比4G的两大突出优势在低延迟和高带宽。低延迟要求编码器设计要为低延迟应用服务,比如V265编码器已经支持zerolatency编码,并着重在预测关系和码率控制上提升了zerolatency下的压缩率;高带宽要求编码器在高码率、高分辨率、高bit深度下表现优异,因而编码器迭代优化时的测试集合要涵盖8bit和10bit, 高中低码率和分辨率,比如V265的140个8bit视频、20个10bit视频的测试码率点范围也会在QP 20-40 的基础上扩展码率范围至可能的5G码率点。
AI技术是非常好的编码器优化工具,除了已知的腾讯云极速高清-内容自适应编码,V265在码率控制上就尝试了用AI的方法来估计一幅图像的码率以辅助码率控制流程。这里面的挑战点在于找到AI和编码器优化的结合点,怎么能在复杂度限制的条件下,将AI工具高效的利用起来。
LiveVideoStack:业界预测8K HDR将在2022年得到普及,V265对这方面是否有些规划?腾讯云产品侧未来是否有所提前布局?
张贤国:V265 2019年完成的一项重要工作就是对10bit编码和杜比HDR画质的支持,这也是考虑到越来越多云服务客户有HDR视频内容的需求。8K HDR 转码服务目前V265编码器也是可以支持的,但从最优化的角度来看,需要开发符合新一代标准的编解码器来全面提升画质、压缩率和观看体验。在8K HDR方向,腾讯云已经开始布局HEVC并研究下一代标准的软硬件服务。
LiveVideoStack:在软硬结合编码压缩上,腾讯有哪些进展与突破?
张贤国:目前主要有两个技术方向,一是与硬件编码器厂商合作,将V265编码器的码率控制、自适应量化等优化算法添加到硬件板卡的码率控制层甚至物理层提升硬件转码的效率,目前已经有一些进展。二是从头开始自研硬件视频编码器,目前这方面还处于探索阶段。
LiveVideoStack:针对于AI 编码技术,腾讯云也有明眸、智眸产品,您认为他们更适合于哪些场景的落地?未来发展的方向是怎样的?
张贤国:AI 编码技术中,腾讯明眸产品面向的是视频点播和直播的画质处理和转码服务,目的在于提升腾讯云转码服务的体验。而智眸产品则是面向自内容生产者,用于高效率完成视频编辑、发布和视频生产。明眸产品中,本人专门参与过极速高清编码部分工作,后面会继续加强参数预测的准确度,尤其是直播场景和ROI编码场景;智眸产品本人了解较少,但相信腾讯云在音视频实验室和优图实验室的大力支持下,一定会不断迭代,满足用户需求。
LiveVideoStack:腾讯自身有诸多的音视频相关产品,包括基于腾讯云实时音视频、通信产品,以及日常使用的微信通话、小程序等等,从技术角度是如何满足不同场景下低延迟和高画质需求的?
张贤国:从我个人的理解来看,自适应带宽监测、码率控制、自适应丢帧编码和网络抗误码都是满足低延迟高画质编码的关键;当然,编码器在低延迟编码下速度-质量效果是基础,包含预测关系、参考结构、位率分配、标准格式等。腾讯已经在微信和QQ上打磨多年,相信一定可以给腾讯云客户带来优秀的体验。
LiveVideoStack:针对实现“极速高清-智能动态编码”,腾讯云在技术层面遇到哪些困难与挑战?
张贤国:极速高清-智能动态编码的特点是智能计算符合业务需求的转码质量参数和转码工具参数。在优化过程中的难点在于如何找到可以提升AI预测准确率的编码特征以及如何构建AI预测的训练数据集。以编码特征寻找为例,使用简单时空特征下,预测出转码VMAF>95的最大crf的准确率只有50%,在扩大数据集的多样性以及找到更准确的编码特征后,才将准确率提升至90 %。
探秘云游戏背后全链条实时音视频技术实践
上周刚刚结束的Chinajoy上,我们看到了腾讯云带来的30G大型游戏云端秒开的流畅体验,这背后的支持无疑是超低延迟的音视频流。从智能动态编码、到网络传输优化、再到多终端适配,腾讯云展现了一个完备、高质量、高可用的视频产品链。
8月24日·北京 | LiveVideoStack联合腾讯云邀请多位技术专家,立足实践,为开发者360度深度解析腾讯云音视频及融合通信技术奥秘,现场更能体验腾讯云最新、最佳技术实践。