导语:
三年时间,从“懵懂少年”到能从容应对客户需求,拥有更加成熟和成体系的业务线,覆盖更多场景的产品线,不仅有音视频的传输,还有实时消息的通讯,以及视频内容的制作。这背后是腾讯云各个团队之间完美配合的结果。在迈向全真互联网的过程中,有一位朋友感受到了其中一些“小小”变化:追求越来越低的传输延时;对虚实结合的运用越来越普遍,以及VR 技术有可能会走出“花瓶”阶段进入稳定的发展期。这位朋友就是来自腾讯云的专家工程师,腾讯云音视频终端研发总经理——常青。
LiveVideoStack:常青老师,您好,作为LiveVideoStack的老朋友了,您在2018年就来参加过我们的活动,和大家聊聊您这三年来的变化吧。
常青:您好,时间过得真快,一转眼三年都快过去了,如果拿上大学来打比方的话,现在应该是刚升级到大四的时候了。我感觉过去的三年也确实像在大学一样,学到了很多很多的东西。
首先是业务上,相比于三年前“刚入学”时的懵懵懂懂,我们现在已经有更加成熟和成体系的业务线,产品线覆盖了更多的场景,不仅仅有音视频的传输,还有实时消息的通讯,以及视频内容的制作。我们的团队也从原来的纯研发小 team 变成了各角色都比较完备的大军团,有经验丰富的售前团队,还有蓄积深厚的产品团队以及兢兢业业的售后团队。
其次是方法上,我们在产品的研发、测试、迭代以及售后方面,都从“大一”时的新生,变成了“大三”阶段的师兄和师姐。在研发思路方面,团队更多地贯彻了持续交付的研发理念;在质量控制方面,团队也采用了更多先进的自动化和场景化测试方案;在需求探索方面,我们优秀的产品团队也通过不断地跟客户学习和交流,让产品的发展方向始终坚持“从客户中来,到客户中去”。
再次是心态上,“大一”的时候,团队里的兄弟姐妹们每天都在“救火”,今天客户A出问题,明天客户B要支持,每天都要解决一个个新问题。但随着三年的不断积累,现在的我们更多了一份从容,少了一份稚嫩,在面对业务压力时,也能更好地平衡项目交付和产品发展之间的平衡。
LiveVideoStack:在LiveVideoStackCon 2021 音视频技术大会 上海站中,大家也了解到了“全真互联网”的概念以及基础网络相关的音视频通信技术。在迈向全真互联网的过程中,目前可以看到哪些落地的场景或创新应用的呈现?
常青:我谈谈个人的一些想法,近年来观察到的一个小变化。
一是追求越来越低的传输延时:最近半年最大的感受就是客户对延时的要求越来越苛刻,比如近期我们推出的在线合唱解决方案,已经将两个用户的声音传输延时压缩到了 70ms 以下,这已经接近了两点之间的网络传输延时。在以往的应用当中,虽然大家对 RTC 的传输延时要求也是比较低的,但没有低到这么苛刻。也正是因为对低延时的诉求,使在线 K 歌这样一个非常依赖歌手声音同步的功能变成了可能。
二是对虚实结合的运用越来越普遍:比如腾讯会议很早就支持了虚拟背景技术,让自己的影像可以跟漂亮的背景图片实现完美的融合。而近期这类技术的运用已经开始变得越来越普遍,伴随着 web assembly技术的普及,相关的推理库以及模型也开始在浏览器上完成了落地,这让只使用 WebRTC 的网页用户,也开始能够享受到这一功能。
三是 VR 技术有可能会走出“花瓶”阶段进入稳定的发展期。前几年 VR 这个话题也曾备受瞩目,但当时几乎没有公司真正的成功。最近,随着技术的成熟,比如 WiFi6 的无线串流方式,以及内置芯片的能力越来越强大,使得 VR 设备的舒适度和可玩性都比之前有了大幅提升,相关的生态也越来越成熟,未来很可能会进入一个用户稳定增长的健康发展阶段。相信 VR 跟音视频的结合可能会成为明年或者后年的一个重要的发展方向。
LiveVideoStack:我们也了解到今年五月份腾讯正式推出了“腾讯云音视频”品牌,整合后的“腾讯云音视频”未来的发展方向是什么?
常青:《圣经-旧约》的创世纪中曾经讲过一个故事,说是人类为了能够触及上帝,要建造一座通天塔,他们拿砖当做石头,拿石漆当做灰泥。年复一年,塔慢慢地地变高,人们也越来越有信心。上帝看到这一切,他担心到“如果人类能做成这件事情,那便没有事情是难得住他们的”。上帝想了一个办法,让人类说着不同的语言,后来人类之间不能相互沟通,塔的建造也就停工了。
放到我们的产品上也是如此,腾讯内部有很多的团队都在做跟音视频相关的项目,但之前相互之间还没有形成合力,无法在战略战术上形成“上下一盘棋”的局面。比如接口的风格、文档的思路、如何相互打通,如何组合出复杂的产品等等。
在整合之前,团队间的合作便会遭遇类似通天塔里的语言不通的问题;而经过整合之后,各产品线之间的融合、各团队之间的协作,也就变得越来越容易和简单,大家开始说同一种语言,能够齐心协力去完成我们心中的那个大目标。
比如 RTC 后台和 CDN 后台的融合,这让我们在很多方案决策和研发方向上都能协同一致,避免出现能力上的重复和接入流程上的冲突,更好的达到协同,更利于服务好客户。
比如最典型的就是 SDK 的融合,如果每个 SDK 内部都有一套自己的编解码库,有自己的一套加解密方案,那么当客户需要多个功能同时使用的时候,就会遭遇体积膨胀和符号冲突的问题。再比如接口定义,不同团队定义的接口风格可能也不一样,导致客户在接入 SDK 的过程中也会感觉好像在跟几家不同公司的产品做对接。这都是我们希望通过整合来彻底解决的问题。
LiveVideoStack:腾讯云音视频在基础网络层面推出“三合一”的RT-ONE™音视频通信基础网络,相较于之前做了哪些优化,有哪些具体特性的变化及优势所在?
常青: 变化和优势主要集中在两个方面。
一是技术的融合更加彻底:比如传统的 CDN 网络在完成融合以后,就吸收了 RTC 的很多技术,推出了“快直播”这样一个兼顾 RTC 低延时和 CDN 高并发两个特点于一身的特色产品。用户即可以享受到更低的延时和卡顿率,又能实现上百万人的高并发观看。再比如 RTC 网络也复用了很多 CDN 网络的高并发组件,吸收了很多先进的分布式设计理念,让腾讯云的 RTC 网络获得了更高的并发能力和更强的稳定性。
二是产品的互通更加自然:比如以往要使用腾讯云的 RTMP 直播就需要开通直播服务,要使用 RTC 连麦就要开通 TRTC 服务,而且两套服务之间的依赖关系又特别别扭。已经在使用直播服务的客户要使用 TRTC 连麦就得重新开始一套新方案的对接,而使用 TRTC 做在线教育的客户要完成视频录制,则必须开启直播的录制服务。伴随着“RT-ONE™”网络的到来,这些令人困扰的问题正在逐步得到解决。比如客户现在可以使用移动直播的 V2 接口,实现 TRTC 和直播服务的无缝切换,TRTC 的录制服务也通过升级工作的完成,实现了更好的用户体验和更加灵活的定制能力。
LiveVideoStack:能否为我们简单介绍一下腾讯云音视频的终端SDK,它的优点是什么?
常青:好的,我们团队一直在腾讯云做音视频相关的 SDK 的研发工作,目标是给我们的客户提供音视频相关的技术组件和云端服务。这其中包括很多维度的能力:
比如视频直播能力,这包括标准协议的直播推流、直播播放等,能力上我们侧重服务的稳定性以及推拉流的质量,卡顿率、秒开时间以及音质、画质都是我们的重点努力方向。
还有实时传输能力,也就是 TRTC 实时音视频,这部分能力主要测试中低延时的互通和多人的线上互动,客户可以使用 TRTC 构建在线课堂、语音通话、视频通话、互动直播等互动性要求很高的音视频功能。
最后还有视频编辑的能力,主要用于做多特效的视频录制和视频编辑,并将处理好的视频发布到腾讯云的点播平台,用于积累和沉淀客户的 UGC 内容。
SDK 目前覆盖iOS、Android、Windows、Mac等客户端平台,以及 Linux 系统的服务端平台。在接口上,都采用了各平台最常用的编程语言,并且还提供了 Web、Flutter 以及 Electron 框架的 SDK,让不同技术栈的开发者都能很容易的使用。
LiveVideoStack:现在,已经有越来越多的AI技术逐渐从云端转移到终端设备上,您觉得未来的AI技术会为终端引擎、终端设备带来哪些帮助?
常青:未来端侧的音频编解码(如Google的Lyra/SoundStream),视频编解码, 还有即时互动游戏,比如体态识别,都是基于AI技术很有想象空间的应用方向; 端侧的AI天生具备低延时特性,也为低延时场景带来了更多可能;但从当前实际情况来说,端侧加速底层设施的分裂,依然需要花费大量的时间去弥补(Android与iOS生态之争,不同Chip厂商的自有加速方案等等);另外多说一点,我们也关注云端一体的方案,这是基于当前务实的考虑,类似LCEVC这样方向,应该也会占有一席之地。
LiveVideoStack:您认为目前我们所处的“后疫情时代”,音视频领域的下一个风口在哪里?
常青:这个问题仁者见仁,很难给出一个标准的答案,我抛出一个粗浅的看法:
当前社会的发展依然面临着很多的挑战,比如碳中和问题、人口的增长放缓,以及在后疫情时代的经济发展和远程协同问题。相信国家在未来很长一段时间的注意力也会聚焦在这些问题上。
腾讯的技术人一直朝着“科技向善”的方向在努力,如果音视频技术在以上某个方向上的应用落地,能够对这些方向形成助力,那么会更容易地成为下一个阶段的风口。
比如:音视频通话对于留守儿童的关怀问题;低延时视频传输在新能源汽车上的远程操控能力;或者更加无缝嵌入到现有协同体系中的办公协同应用等等;以及新能源发电的远程监控和远程排障方向等等。
总之,做有利于社会发展的方向,一定也是最有机会的方向。
LiveVideoStack:好的,常青老师,谢谢您接受采访,非常期待您在10月份北京站大会《新一代音视频终端引擎框架设计和实现》的演讲分享。
腾讯云音视频基于在音视频领域21年的积累,构建了全球领先的RT-ONE™音视频通信基础网络、完整的音视频PaaS平台及终端SDK产品矩阵,10月29日 | 北京,LiveVideoStack联合腾讯云共邀5位技术大牛,将为大家带来全新all in one终端引擎、跨平台能力、海外直播技术、云渲染技术、多媒体处理等技术的最新动向。
活动时间:2021/10/29 14:00-18:00
参与方式:线下参与(免费)
↑ 扫码立即报名 ↑