本文由LiveVideoStack对即构科技技术副总裁冼牛的采访整理而成,冼牛畅谈了多媒体技术在5G的机会,以及低延迟将给多媒体应用带来的变革。
文 / 冼牛
整理 / LiveVideoStack
LiveVideoStack:冼牛你好,简单介绍下自己的工作经历,以及在即构科技负责的工作内容和感兴趣的技术方向。
冼牛:我是冼牛,2002年开始从事视频会议研发,有16年电信、互联网和金融行业的跨界从业经验。现在即构科技负责实时音视频引擎的研发,专注视频直播、视频社交和在线教育等领域,对音视频技术如何为各行各业的具体应用场景带来创新玩法十分感兴趣,也是技术专栏作者&布道师。
LiveVideoStack:距离上次采访你过去了一年多的时间,这段时间你个人和对行业的观察有哪些新的发现和体会?
冼牛:我个人的感觉就是,前几年流行的“前沿技术概念”正在逐个变成现实。以5G来说,一年前我们都在翘首以盼5G时代的到来,今年,我们在5G方面已经有了具体的应用案例。上个月,即构科技的一个教育客户,就在广州的学校里通过智能录播系统向全国展示了首个5G 远程互动课堂,现场反响非常好,而这个系统用的正是即构的互动直播技术。同样,我们发现音视频在各行各业的应用越来越成熟,和AI结合也产生了形态多样化的产品,比如教育领域新近出现的AI教学,就是运用了切流技术让AI老师模拟真人教学。即构科技利用自身在实时音视频技术上的超低延迟、支持高清画面和流畅稳定等优势,结合AI技术,落地了AI智能课堂的应用场景,为在线教育行业带来了创新的玩法。
LiveVideoStack:根据思科的报告,2022年,5G流量占到整个移动设备流量的12%。5G对于多媒体传输带来哪些本质变化呢?
冼牛:5G对于多媒体传输的本质影响,不能完全停留在技术指标上面。5G带来上行带宽、低延迟和流畅性的大幅改善,终端设备内容消费和生产能力大大幅提升,最终产生的结果是,用户对内容生产和消费的行为习惯会完全转变:对实时音视频的使用会更高频和普及。用户行为习惯的改变是最本质的变化,用户行为习惯的改变会驱动技术创新和进步。5G的到来带来更加充裕的带宽,用户行为的改变会消耗更多的带宽,5G基建资源永远也会处于一种不够用的持续饥渴状态。这对于我们技术人来说是一个好事,这会迫使我们继续去升级技术,继续去为由于用户行为习惯改变而带来的新的应用场景而创新,上面提到的AI智能课堂就是一个很好的例子。在5G时代,当随时随地使用实时音视频成为高频习惯,那么AI智能视频客服,也可以是一个创新的应用场景。
LiveVideoStack:未来几年,哪些行业与场景(如IoT,自动驾驶等),会成为多媒体传输触达的领域呢?
冼牛:随着5G时代的到来,上面提到的AI智能课堂和AI智能视频客服,应该是会比较快落地的应用场景。我这么判断的原因有二:其一,5G促使用户的使用习惯的形成;其二,在线教育平台和服务型企业有降低人力成本和升级业务流程的强烈的需求。C端的行为习惯和B端的升级需求结合在一起,就能促成新的应用场景。
在IoT方面,在智能硬件上添加音视频功能相当于让这些硬件有了视觉和听觉,把人们的听觉和视觉在整个网络上实现延展,相信会有更多的应用场景陆续涌现。这个领域还没有很强的落地场景,我相信是受制于三个因素:其一是终端硬件的处理能力还有限;其二是网络带宽和传输能力还有限;最后一个就是用户习惯还没有被培养形成。随着5G时代的到来,硬件能力的升级,我对这个领域还是持续关注。
LiveVideoStack:您如何看待开放标准与私有标准的价值与利弊?
冼牛:开放标准与私有标准各有利弊,都有存在的价值。专业公司提供的网络传输技术采用专有协议,原因有两个:
其一,专有协议都是在特定场景里经过多年打磨出来的,而特定场景有特定场景的要求,很难做到标准化;
其二,开放标准是面向所有开发者和场景的,必须是普适和公平的,在特别的技术环境和应用场景里,必然不能面面俱到。
因此,开发者在选型的时候,可以采用开放的标准来满足通用应用场景的需求;当一些垂直领域的特定应用场景,开放的标准不能深度满足要求的时候,可以有针对性地考虑选择商用的私有标准。
LiveVideoStack:越来越多的企业采用一家甚至多家云端的多媒体服务,这些云服务需要通过API来互相对接。统一、强壮、易用的API对于多媒体生态是否有促进作用呢?
冼牛:强壮、易用的API对于多媒体生态肯定是有促进作用的。即构科技也在不懈努力,持续让自己的API变得更加强壮和易用,在开发者体验上做到极致。云服务的API还没有一个统一的标准,也很难做到整个市场一刀切的统一标准。我们可以参考一个类比,比如说手机的充电线接口,也还存在几种不同的类型。成熟的手机市场尚且如此,不断成熟中的云服务市场也会有类似的市场规律。
LiveVideoStack:网络的本质就是把数据从一端传输到另一端,保证数据及时(低延迟,高带宽)、准确(数据完整性)、安全和更低的成本。对于多媒体传输而言,您认为有哪些更深刻的挑战?即构科技是提供低延迟的多媒体传输能力,你们是如何定位自己的核心价值?以及如何看待多媒体传输技术的?
冼牛:流媒体的传输是不要求数据的百分百的完整性和准确性的,因此我们基于UDP构建了自己专有的传输协议,在整个传输环节上为用户体验提供了更好的保障。在面临实时性的要求和弱网环境的挑战时,有些数据包是可以丢弃的,甚至是采取主动丢帧的策略的。如果要完全准确可靠,那应该采用TCP,TCP是一个面向公平的可靠的传输协议,那样就会牺牲了流媒体传输的实时性。
对于多媒体传输而言,我认为最关键的挑战是要在不可靠的网络上,提供可靠的流媒体实时通信服务,而且要求成本可控。即构科技提供超低延迟的多媒体传输能力,关键体现在超低延迟,超高分辨率,超多人同时在线互动,而且还能保障稳定性和流畅性,更加重要的是,成本还能控制在合理的范围内。
即构科技是一家立足于音视频技术能力、以业务导向的企业。即构科技的核心价值不仅体现在技术的领先性上,更体现在技术能更加贴近应用场景,和业务的需求紧密结合。即构提供的技术服务不仅仅是技术,更加是服务,客户能否通过使用我们的技术获得成功,能否通过使用我们的技术让用户养成享受优异体验的习惯,这些都是即构的核心价值所在。
多媒体传输技术在获得超低延迟和流畅性方面十分关键,同时终端的处理延迟也十分关键,我们要综合起来,把控整个通信链条的各个环节,为客户提供优异的用户体验。
LiveVideoStack:你会拿出哪些干货在LiveVideoStackCon 2019上海分享呢?
冼牛:我演讲的题目是《实时音视频流媒体传输的思考和实践》,将会分享流媒体传输中的关键环节的一些想法和经验,这些关键环节包括调度系统、拥塞控制和信道纠错。调度系统在整个网络资源集合里选出最优的路径,拥塞控制和信道纠错保障网络节点之间或者终端和就近节点之间的流媒体传输的质量最优化。去年在LiveVideoStackCon2018北京的大会上,我已经分享过调度的系统的内容,这一次我会把重点放在拥塞控制和信道纠错上。同时也会把WebRTC的一些公开的做法总结出来,对照我们的一些思考,和大家共同探讨。