LiveVideoStack对声网视频工程师吴晓然进行了采访,他认为实时通信场景的Codec需要考虑网络情况才能做好。
文 / 吴晓然
整理 / LiveVideoStack
LiveVideoStack:吴晓然你好,能否向LiveVideoStack的读者介绍下自己,以及目前主要的工作以及关注的技术方向?
吴晓然:大家好,我是来自声网的视频工程师吴晓然,已经有十年的多媒体从业经验,从最初的多媒体用户界面,多媒体中间件,到Codec的集成与优化,Codec驱动开发,我觉得多媒体和实时通信一直是我喜欢和关注的方向。
LiveVideoStack:能否介绍下声网在视频架构、编解码、传输方面的探索?
吴晓然:声网其实在多年以前就开始了对实时通信领域的探索,实时通信的两个基础就是网络传输和编解码,通过多年的积累,声网已经建立了专为实时传输设计的虚拟通信网络,覆盖全球超过200个国家,在视频架构和编解码方面,声网也针对实时传输做了大量的创新及优化工作,根据不同的网络类型,终端设备,应用场景,都会作出一些自适应的调整,这也是为什么我们的SDK可以很好的覆盖所有平台的原因。
LiveVideoStack:我注意到声网开始探索新型的Codec,如AV1、VVC。是否可以分享一些您观察到的Codec的应用的趋势?另外,您判断某一个Codec进入商用市场的标准是什么?
吴晓然:是的,AV1已经呼之欲出,因为Open Media联盟的豪华整容,相信不久之后便会掀起一股热潮。VVC作为H.266应该还有一段时间,预计会在两三年后推出,大家也可以拭目以待。新一代的编码器带来的压缩效率提升是毋庸置疑的,但一个Codec能否进入商用,能否普及,是有很多因素共同决定的。H.264已经霸占市场十多年,虽然H.265在压缩效率上全面超越H.264,但依然无法撼动H.264的统治地位,一方面H.264是一个非常优秀的标准,很多开源的软件和各种平台的优化也加速了它的应用,另一方面,H.265高昂的专利费和部署成本也让商家望而却步。
LIveVideoStack:声网是否使用了硬件加速做编码/转码?
吴晓然:声网的编码器同时拥有软件编码和硬件编码功能,会根据不同的平台,场景及功耗等因素决定是否使用硬件编码器。因为实时通信需要Codec和网络模块结合,对抗网络常见的丢包和抖动问题,软件编码器在灵活性方面更胜一筹,但硬件编码器的低功耗也会让它在一些场合有用武之地。
LiveVideoStack:未来5G会对网络带宽和质量有一定的改善,您如何看待5G带来的机会和挑战?声网开始针对5G做了哪些准备和探索?
吴晓然:5G带来的带宽提升显然可以提升终端用户的使用体验,我们可以编更大的分辨率提升清晰度,编更多的帧提升流畅度,但网络的稳定性也是影响用户体验的一大因素,如果视频经常卡顿,那再清晰也是无济于事的,不同的网络有不同的特点,有线,WiFi,4G/5G都有各自不同的网络模型,声网拥有自己的数据媒体后台,会从大量的用户数据中提取出不同网络的特征,建立网络模型,针对性的进行算法改进。
LiveVideoStack:您是否看好VR或2K~8K视频互动直播?
吴晓然:视频互动直播是大势所趋,有可能成为年轻人以后主要的社交娱乐渠道,对于VR我不是很了解,据我所知,这块市场目前并不成熟,从Google暂停了VR摄像机的开发可见一斑,而且现在的VR设备基本上都眼罩或者头套,对用户体验还是有影响,相比之下,我更看好AR的市场前景。
LiveVideoStack:能否剧透下您在LiveVideoStackCon 2018分享的内容吗?
吴晓然:这次LiveVideoStackCon大会,我想分享一些我们声网针对QoE实时通信视频的Codec的优化和探索。之前我们优化Codec,只是优化Codec本身,其实只是一个局部最优解,而且在实时通信领域,用户的QoE才是最终目标,这和很多因素相关,只有你的Codec优化适应了当前的网络状况,设备平台,应用场景,用户才能得到最佳的体验,我们所要找的其实是全局最优解。