即构科技金健忠:回顾20年音视频技术演进

2021-09-01 11:25:54 浏览数 (1)

多媒体技术是一个传统行业,从模拟到数字,VCD到蓝光,从窄带到宽带,标清到高清,技术演进让人的视听体验发生了颠覆式的改变。LiveVideoStack采访了即构科技CTO金健忠,他回顾了过去20年多媒体技术的发展,并展望了未来的技术趋势。

文 / 金健忠

策划 / LiveVideoStack

LiveVideoStack:能否向LiveVideoStack读者简单介绍下自己,当初是如何进入音视频这个领域的,以及这些年的工作体会。

金健忠:大家好,我是金健忠,目前担任即构科技CTO。从2001年开始到现在,先后在InterVideo、ST意法半导体从事音视频软硬件方面的开发,2010年加入腾讯,组建QQ语音团队,做互联网音视频。5年时间里,我们逐渐发现互联网有很多应用都需要用到音视频。2015年和林友尧(即构科技创始人&CEO,QQ前总经理)等人出来创业,思考怎么把这些年在音视频领域积累的经验转化为平台,服务更多的应用,到现在,我们创立即构已经3年多。

即构主要为企业提供互联网 音视频整体解决方案,覆盖音视频的产生、接入、存储、分发、回放等方面,帮助各个行业快速接入和应用音视频,让客户更专注在自己的领域发展。

这些年的工作体会主要有三点:

第一, 音视频是需要长期积累的技术,数字音视频技术可以追溯到模拟信号彩色电视时代,复合视频信号本身在时间、帧、场方面已经离散化处理了,里面还涉及颜色空间转换、色差信号压缩以及各种复杂的同步。

第二, 音视频技术涉及的范围很广,比如双工通讯的回声消除是属于算法方面的,性能优化ARM-NEON/SSE等属于CPU结构方面,音频播放线程缓冲属于OS方面的,带宽预测/FEC/ARQ属于网络传输方面,还有高包量低延迟服务、GPU等。

第三, 音视频技术应用场景非常丰富,我自己经历过的就有DVD(数字视频光盘)、DVB(数字视频广播)、VOD(视频点播系统)、LIVE(直播)、Communication(通话)等应用场景。

LiveVideoStack:在音视频领域从业近20年,能否从你的角度给我们分享一下近20年来音视频(技术)领域的发展历程?

金健忠:我认为整个音视频行业大致围绕以下3条线索在发展演进:

线索1:数字化进程和协议分层

首先我理解音视频发展是一个数字化和协议分层的一个过程。大家知道一开始电影是一秒钟拍24张照片,放出来看效果就是连续的,这是时间轴上的采样。接下来模拟电视信号又在扫描线上采样,然后再放入色差信号、音频信号形成复合视频信号。将复合视频信号进行调制发送就完成音视频传输,将复合视频信号记录到磁带上就完成音视频的存储。这一阶段整个音视频需要作为一个整体考虑。这些技术发生在很久之前。

接下来发生的事情就是音视频信号纯数字化的过程,这个过程产生了VCD/DVD/蓝光BD/数字电视DVB/ATSC等一系列存储传输方式,技术上也把整个音视频技术分为若干层,包括如MPEG编解码codec、存储冗余编码纠错技术如Reed-Solomon、传输编码、传输数字调制如QAM/COFDM、物理传输如Cable、存储介质如DVD等等。这些技术都互相独立和发展。

第三个重要的阶段是通用硬件的介入以及互联网化。通用硬件和互联网的介入使得各个层次之间的分解更细致。比如容器和编码的分离,MPEG2 PS/TS可能还算是codec的一部分,到了MP4/mkv等容器就已经和codec没有太多关系了。H.264提出NAL概念,明确建立codec和容器/协议的边界。存储可以有各种容器和介质,传输也可以有各种协议和物理介质。应用更是丰富多彩。以前一个视频广播业务需要地面广播或者Cable或者卫星 接受机 电视一整套系统。现在无论是专用接收机、电脑,还是手机都可以完成视频广播的接收,基于IP的网络协议可以通过光纤或者卫星链路实时地传送到各个边缘节点,再通过Cable、Wifi、Cellular传输到终端。

线索2:硬件和质量提升

第二条线索可以从硬件和质量上看。记得我刚上大学的时候,在电脑上看VCD还需要一个MPEG解码卡的专用硬件。随后不久,CPU等硬件能力持续增强,出现MMX等专门为多媒体设计的指令,这些让软解成为可能。但是好景不长,更高质量DVD的出现又让老旧硬件性能捉襟见肘。接着又是更强的CPU,带硬件加速的显卡。这种硬件的升级和质量的需求互相促进形成闭环。模拟信号一个频道可以传输一路标清视频,MPEG2一条TS流可以传输五路标清或一路高清,升级H.264后高清也能传五路了。以前手机只能窄带语音,现在则需要全带全双工。音视频开发需要不断更新技术,适配新硬件,满足新的需求。

线索3:互动和场景丰富

场景丰富,尤其是互动的需求是不可忽略的一个趋势。在IP化/互联网化之前,早有DVD加入互动菜单,蓝光BD引入BD-J可以跑Java程序进行互动,数字广播DVB加入MHP ,使用一个拨号网络作为回传通道。DVB-H则在COFDM TS上加入DSM-CC把音视频IP化。互联网化之后,基于互联网实时传输分发网络,可以方便的实现全双工多方互动。

LiveVideoStack:经历了众多产品的音视频架构底层开发,包括之前的QQ语音以及现在的即构科技。相比于过往的产品,你认为即构的音视频架构有哪些变化与不同?

金健忠:QQ语音架构是我在2010年加入腾讯后,针对腾讯互联网 实时音视频场景应用开发的。后续又经历腾讯音视频中心、腾讯互娱、腾讯云等多个团队的打磨,可以说性能已经非常出色。在即构,为丰富互联网 音视频应用场景,我们重新设计了一套音视频架构,旨在希望以平台的方式满足各个行业对音视频需求。在思路上,我们吸取了以往架构的经验,比如我们同样设计灵活的模块结构,让音视频处理管道可以合理安排线程、buffer,保证整个管道实时、高效。同时,我们也针对更复杂的场景在技术上进行一些优化,比如:

  • 音视频引擎的整体设计
  • 更好的音视频同步设计
  • 支持多协议以及多协议互通
  • 支持时钟注入,进一步优化数据驱动链路
  • 优化元数据处理流程,媒体数据和元数据有强相关性,管道结构中需要维护这种相关性,包括有缓冲节点和无缓冲节点
  • 更灵活的buffer机制,同时支持可引用和不可引用buffer,支持CVPixelBuffer/SurfaceTexture等传递方式
  • 灵活的模块间协商机制,静态协商、事件触发协商、动态协商。比如切换硬件codec的时候可以触发事件协商改用SurfaceTexture
  • 就近接入调度支持、最优线路调度支持、分发调度支持

LiveVideoStack:市面上很多实时音视频方案是基于WebRTC,即构在最初技术选型时,为什么没有选用WebRTC,而选择了走自研这条路?

金健忠:即构提供完整的互联网 音视频平台服务,包括内容产生、接入、分发、回放等环节,支持多端互通,包括WebRTC协议的Web端。Web端互通只是即构音视频平台服务中众多特性中的一个。WebRTC开源框架没有原生支持即构的众多特性,相比从WebRTC框架开始修改打磨来说,自研可以从一开始就融入即构的设计原则,从架构、算法、平台支持、协议等方面最优化设计。

例如:

技术架构上,我们希望原生支持多路音视频,支持AUX输入环回或混音到远端,支持低延迟耳返,原生支持多协议,支持外部采集、渲染、外部编码、解码音视频外部滤镜等。

算法设计上,一开始就考虑到架构和场景,比如Jitter Buffer,帧率码率控制,视频分层编解码等都会匹配多协议设计。带宽预测,反馈能够适应多跳选路(例如国际加速优化),分发到需求。3A设计采用全频带,适应多场景多平台多需求。

平台支持上,能够更好适应通用/嵌入平台,如CVPixelBuffer,SurfaceTexture原生支持等。

协议支持上,就近接入调度,支持多跳路由优化,支持分发,支持秒开特性。媒体层协议进行合理安排减少连接建立时间。

LiveVideoStack:随着5G商用时间表的临近,VR场景将会得到释放,最可能带来变革的就是音视频领域。你觉得5G将会给音视频行业带来怎样的机遇与挑战?

金健忠:VR/AR是交互方式革新,本身还有许多技术问题需要解决。为了营造沉浸式环境,需要给用户提供极快速的响应。100Hz的刷新频率、LCD(液晶显示器)的一点点拖尾都会让用户觉得头晕。高分辨率、高刷新频率需要的高带宽让头戴设备很难摆脱物理联线。精准的定位和不到10ms的响应时间也是需要突破的难点。我觉得整个VR/AR的革新主要还是在其本身,只有这些问题解决后才会引起音视频的进一步变革。

相比VR来说,5G商用已经有时间表。5G可能会带来带宽、延迟、密度方面的变化。

这些提升主要来自毫米波段的使用,QAM256,100MHz频道。一般认为5G可以带来Gb/s级别的用户带宽,ms级别空口延迟。这个水平相当于使用网线连接千兆以太局域网。整个系统的瓶颈会转移到如国内网络环境50ms RTT,国外直连 >200ms RTT,云虚拟机负载,云虚拟机单链接性能,存储性能等其他方面。可以从服务器接入调度,优化负载调度,单链接性能等方面优化整体性能。

LiveVideoStack:展望未来,你对音视频领域有哪些期待?

金健忠:我认为有以下几个方面,

  • 变声和声音特效
  • 更好的语音去背景噪声。 当前实用的降噪算法主要集中在噪音学习和阵列降噪上。但是人耳人脑的能力远超现在算法能达到的水平,比如人在嘈杂环境下,也有很大可能“过滤掉”噪声和其他人的语音集中理解某个人说话。
  • 声纹识别,说话人识别
  • 语音分离,音乐分离。 比如两个人说话,能把一个人的语音完整分离出来。能够从交响乐分离出大提琴的声音。
  • 语音识别 音乐识别,哼唱识别。这个也很有意思,哼一哼就能找到对应歌曲。这个领域好像有一些接近实用的应用了。

其它还包括以下领域,都非常令人期待:

  • 更高效视频codec,4k,8k,低码率,足够低的计算复杂度
  • 更好的视频分层编码codec
  • 人脸识别
  • 文字识别
  • AI视频分类

0 人点赞