编辑:Coco Liang
策划:Ant Bao &Coco Liang
“我一直想强调的一点就是,我们做技术的,尤其在应用软件领域,不要迷信黑科技。黑科技没有突破性的进展,大部分都是Hack,是一种黑客技术,就是你通过一些绕弯的迂回的办法,绕过系统的一些控制,但是分分钟都可能被这个平台的供应商杀死”
Photo from pexels
我在信息科技行业已经工作了有二十余年了,期间跨过多种专业领域,在国内和北美从事过电信和数字网络系统、大型支付交易处理系统等研发和技术管理工作。2015年回国,作为首席工程师加入了思科Webex,负责Webex视频会议系统的总体架构工作。目前已经切换到管理领域,主要关注Webex 客户端和各种终端平台上的应用开发。
我们希望给用户提供一种全站式的服务体系以及相应的配套工具,可以让用户在任何场所任何环境中无缝地加入到任何一种协同需要中去,不仅仅是视频会议这么简单,视频会议也只是其中的一种协同形态。
现在大家(国内)都在讲云、都要上云,实际上我们过去几年也是在把产品往云——更现代的云上面去发展。Webex它本身就是云服务,但我们也发现云并不是唯一的解决方案,也不是唯一的一种场景。
从春节到现在是对国家、社会和对普通人都影响特别大的一段时期。除了疫情的重压,如何在这个特殊时期尽快恢复工作(虽然我们团队本身就非常习惯在家工作),实际上还是有很多挑战的。
我自己经常早晨六七点就开始和美国团队开各种会议,但一般中午也会去公司。毕竟文化氛围的培养、关系的建立与团队的紧密合作都离不开直接的、面对面的交流。
因为关注产品和项目,我的心情大部分时候还是比较平稳的。另外,最近几乎全部时间都和家人在一起,也有平常去办公室体会不到的一些日常居家的欢乐。
这次疫情给我带来了一些思考,就是不要总想着说将来要去干些什么。我们受到的教育告诉我们要准备充分再去做一件事,但我想说你要是想做就去做。活在当下可能更重要一些是吧?你想要去看世界,你就看好了。
原图 from E.T. PS by LVS
LiveVideoStack:Webex在B和C端的系统设计以及产品服务分别有什么不同的考量,未来如何计划to B和to C业务的发展?
汪凯:国内很多互联网公司都是to C的业务发展起来的,to B,或者说叫产业互联网,是最近几年才开始有被关注,很多企业也开始想往这方面推进。但是思科 Webex本身,一直都是to B的业务非常强。
to B用户有几个比较大的特点。一个是相对来说,这些用户更多的会考虑企业的合规性要求,因为不同的行业有不同的合规要求。我们的客户除了中国以外,欧美的用户有很多,有一些用户会更加关注隐私、数据保护、安全性以及一些特定环境的隔离。
还有一些企业需要端到端的加密。比如说我们之间的这些对话,所做的这些记录,有且仅有我们两个人知道。虽然所有数据都是在云端的数据中心里,但是任何Webex的开发或者运维人员,都没有办法知晓我们谈话的内容。对于这种端到端的全程加密,实现起来其实也是有很多要求的。
除了云以外,针对to B的业务,还会有很多其它的部署和考量。比如说在一些比较大的企业系统里,他们的分公司遍布全球,就会有提高本地会议质量、沟通质量等各个方面的需求。
我们最近几年认同的概念是Cloud first,but not cloud only。
这样带来的一个好处就是,在to B业务里面能够在本地做非常多的优化。比如说办公室的生态里就完全可以部署我们的on-prem (on premise) 服务。同时通过和云端的级联(cascading),还可以节省带宽。
就是说用户不用通过互联网,通过企业内部建立的私有骨干网或安全通道去连到企业自己的云上面就可以了,简单来说就是you can have meeting or collaboration anytime anywhere。
虽然我们所说的这个Anytime是指任何时间点,但其实视频会议也有它的特殊性,它的流量分布是很特殊的。比如说今天我给你设定一个会议时间,一般来说是不会设置在14:15的,虽然我可以,但是大部分时候大部分人不会这么做,大家基本上都是定在整点或者半点,所以视频会议的峰值流量全部在这些时间发生。这一点给平台带来的挑战是很不一样的。
而Anywhere在技术上对实时性也有非常高的要求。这不像做一单交易,交易是可以不需要实时的,即使当下访问不到网络,也可以延后处理。但视频会议本身只要连上就必须实时,所以它对网络质量是非常敏感的,关键影响因素包括带宽,时延,抖动,和丢包率,所以才会有媒体流resilience, congestion control方面的一些设计和控制,弱网对抗之类,这里面有部分是开源的规范比如WebRTC,也有各厂商的私有协议和实现,包括Webex。
总的来说,我觉得to B和to C非常重要的一点就是,如何满足各个行业或者行政部门的一些合规性的需要,以及企业自身对其商业信誉的考量和对客户的长期承诺。如果你要让用户选择你的产品,那么你必须是一家可信的服务商。
LiveVideoStack:您刚刚提到安全问题,那么就这一点而言,您觉得国内企业或者是个人消费者对视频会议安全性的要求有发生变化吗?
汪凯:根据我回国5年的一些观察,大家对安全的意识这几年是在增强的。让大家开始逐渐有这种意识,可能也是来自于之前曝出的一些互联网提供商关于安全和隐私方面的漏洞。
在这些企业和这些系统里面,有没有做到从第一天就开始考虑用户安全和隐私的问题,这实际上是需要拿来讨论的。
有些安全问题可能是来自于平台的一些“特殊设计”,比如说平台想提高用户加会进会的快速体验,就会在某种程度上放松对安全的要求,所以这里面应该有一个balance。
而我一直想强调的一点就是,我们做技术的,尤其在应用软件领域,不要迷信黑科技。很多所谓的黑科技,没有突破性的进展,大部分都是Hack,是一种黑客技术,就是你通过一些绕弯的迂回的办法,绕过系统的一些控制,但是分分钟都可能被这个平台供应商杀死,尤其是平台的操作系统。
安全性无论是不是所有厂商一开始就有在考虑的,它都变得会越来越重要,尤其是to B的业务。to C的话,业务理论上来说它实际上需要有同等的安全程度,但是因为各种原因:作为普通用户,对技术不了解;作为企业,为了快速成长的发展和更早让大家有很好的用户体验,在安全性方面会有其他的考虑。
有了新的技术,老的技术就要去升级,出现了新的问题你也必须去解决,这些都是基本的要求。思科本身是有security这个产品组合的,这也是by default,我们所有的设计所有的部署都要满足这些要求。
toC的话,我们也要有基本的底线在里面。可能部分新兴的公司在这方面考虑的还不多。
LiveVideoStack:这次疫情把视频会议推到了风口,但其实此前(以后一段时间也同样适用)5G等技术就已经让视频会议平台成为热点,尤其是5G,能具体聊一聊5G技术在Webex未来发展中扮演的角色吗,目前有什么成熟的想法吗?
汪凯:我个人的一个观点是,更重要的不是在于说从技术上解决了什么问题,更重要的是说在原来的很多约束下(比如说网络不可获得、音视频质量差),技术能不能直接落地到一些更广泛的应用场景和行业里面,尤其是来自于这些行业和这些应用场景里对视频直接交流、语音直接交流和交互性的需要。
Photo from Pexels
比如说快递行业,现在既有视频,也可以用微信,但是如果你想有一些垂直的应用,让它能够在5G的覆盖下直接把更高质量的、更交互性的视频和一些更智能化的协作、技术放进去的话,那实际上是可以极大地帮助这些行业提高效率和减少误差的。
所以我认为5G不是赋能了我们的视频技术,而是赋能了我们一些视频场景。赋能这样的一些应用场景反过来会带动市场对音视频会议服务的更广泛的需要,像我们这样的平台就会变得更普遍。
过去几年因为直播的推广,很多民众都被to C教育了,说视频其实很重要。但在视频会议场景里面,它还是更加专业化的存在、面比较窄,当然现在也出现了线上教育这些体系。如果说我们可以随时随地获得更稳定的网络,那这些行业的爆炸式的需求反过来也会影响视频会议提供商的服务能力和服务等级,以及我们刚才谈到的技术上的需要和平台上的促进,它就不再会是那么窄。
纯粹个人观点,但从一个系统的层面看5G,它优先解决的是RAN,也就是Radio Access Network,是无线接入网的问题。它可以提供更高的覆盖,更高频、更密集的基站布置和一些特殊的天线设计,再加上一些控制,但其实它只是解决了无线的接入。
所以从理论上或从实验测试来说,无线网在一切其他条件都具备的时候,确实能够实现带宽提高。但实际上,比如说评估结果是10倍的带宽的提高(相比于4G网络),那它带来的一个最大的好处就是可以有更多更高分辨率的、或者说更高质量的音视频数据包在这个网络上交换。
第二点,它的时延很低。比如说达到了一毫秒这个级别,这对音视频影响是很大的,对整个信令控制的影响也特别大。还有一点就是它比较稳定,抖动也小。
我之前提到过系统的问题,不光要解决无线的问题,后面还要考虑这些数据是不是能有效通过无线基站和后面整体的infrastructure的紧密配合。电信网络也好,数据网络也好,这个系统能够提供这样的带宽和质量的保证吗?所以从设计和实施的角度,还是要遵循系统论的方法去多考虑系统整体的约束和trade-off。
5G有它带来的好处,也有它的一些局限性。拿公共模式来说,它会改善和减少一些今天会发生的问题。同样,它也会因为今天的一些设计模式、协议方式遇到一些问题。
比如说TCP和我刚才提到的信令控制,5G也可能也会碰到同样的问题,不可能所有地方都是可获得的,或者说出现了问题的时候,因为TCP本身面向连接和可靠传输的特点,有时候反而会引起问题。这是我说的一些设计的共性。
在协议方面尤其信令相关的,当出现新的技术之后,应该针对这个技术去做优化、去更新。比如QUIC,这是Google对于如何减少传统的HTTP的一些约束所作的尝试(并且一直在尝试)。哪怕是做HTTP2,有一些基于TCP的约束还是解决不了,像QUIC是在UDP的框架上去解决需要面向连接的一些固有特征和固有问题。
在音视频流的方面,我们也可以考虑codec。比如,AV1在同等质量的情况下,实际上的码流要求会更低。这都是新的技术,我们要乐于、勇于且积极地去使用。随着5G的发展是不是又会有更好的编解码技术呢?我觉得是肯定会出现的,咱们拭目以待。
当把原来的设计原则或设计约束给放得更宽了,很多原来做不到的事情某种程度上其实都可以做到。
但是光靠5G不能解决所有的问题,关键是什么是我们的杀手应用——能够完全的推动音视频的爆发式的增长和质量的整体的提高。
我的看法是它一定要能解决我们随时开会随时想要更优体验的需求,这需要一个生态系统,一个产业链,需要运营商服务提供商来共同解决。
LiveVideoStack:搭建平台级产品是大多数互联网公司的愿望,要做到这种程度并不容易,对此您有什么看法?
汪凯:关于平台,我想说一个词是“迷思”。
Photo by Dima Sholkov from Pinterest
我能看到的一个迷思,就是大家想着,啊我要去建平台,建立平台就有很多人来用,然后我就能建立一个ecosystem,但实际上他们忘了一个最本源的东西(太技术驱动了),那就是为什么需要平台?
如果你从第一天开始就想把它搞成平台,那基本上是做不出来的。所以我觉得纯做平台的厂商不会做得特别大。你可以看到,最后变成平台的都是有终端级应用的。淘宝也好,支付宝也好,或者应该说支付宝也是为了解决淘宝的问题而衍生出来的。
电商交易平台本身最早的型态是阿里自己做的终端应用。他们要推广这个概念,要培养用户习惯,同时它要建立一个可参考的实现,这样才能把用户引导到一些服务体验上来,最后把自己提供终端体验的公共的东西抽象出来,把它平台化,同时提供平台的能力。
除了自己的终端,还要有自己的平台能力,进而才能建立更广的生态系统,让其他的厂商、任何有需要的群体来使用,基本上过去几年都是这样的。
Webex也是一样。
我们有没有平台,我们是不是平台?
答案是肯定的。
但我们是从第一天就在考虑要建平台吗?
答案又是否定的。
我们的用户基础是我们建立、推动平台非常重要的一点,我们自己提供的落地的面向直接终端用户的应用,则是证明我们平台能力非常关键的要素,是证明我们平台能够变成平台的很重要的流量和技术的验证点。
为什么说做一个终端应用体验很重要,因为通过这些你可以抽象出一个平台的能力,并不是所有其他的厂商都有这个能力和资源去投入的。比如说我要了解音视频的东西,我要了解网络体系架构,还有这些信令数据流量怎么控制,我究竟要怎么做?
这些都是很关键的。平台厂商一定要提供基于自己的面向终端用户的应用,抽象出一个可被重用的SDK,其他的厂商才能比较好地去嵌入到他们的这个场景里面去。
LiveVideoStack:Webex未来几年的发展方向是什么,会有哪些关键技术应用到视频会议当中,以什么样的形式呈现?
汪凯:概括来说的话,就是Smarter and More Humanity Empathy。
我想人性化这一点应该已经是行业默认的了,我们现在要努力推广的概念,叫做认知协作(Cognitive Collaboration),就是感知性和认知协作,再加上智能化(Intelligence)。
在用户体验环节,要更多的考虑用户是如何使用我们的服务的,同时注入更智能化的体验,能够自动感知用户的意图。比如用户在什么样的情况下会用UI或UX,他想要进行哪些尝试,他的目标又是什么。
在我们的视频终端上,用户可以直接呼出Webex小助手,可以让它帮自己schedule meeting,同时也可以在桌面和移动端结合语音控制。但我们不会专门去做类似Siri、Alexa这样一些已有的东西,我们会有自己的特点,比如说将会议里人们的发言自动转成字幕。
这也是最初始、最简单的一个应用。做语音识别、字幕抓取以后,用户在开视频会议时就像看电影一样,下面会有一个字幕栏,别人说的话你都能看得见。
同时,字幕中存在很关键、很丰富的信息,它包含了命令和行动。比如说明天要干些什么,或者说后续会议的安排,系统要辨别哪些信息是着重强调的、哪些是被重复过了的,这些都会被自动标记,最后生成一个会议纪要。这样的一些东西某种程度上可以减少很多开会的附加的负担。
在人性化(Human Empathy)方面,假设我们是第1天见面,但在在开会之前,我就想了解你:你是学生呢还是不是学生呢?是哪里人呢?喜欢什么呢?这些对商业会议来说都特别重要。
比如说我要去跟一个客户高层去见面,那我希望能够预先知道对方是什么级别,他的职务以及工作职责。
然后就是对方有什么喜好或者是已经公开的一些个人资料等等,因为人与人之间关系的建立、感情的连结,很多时候就是我们俩今天都看了同一场棒球赛啊、我听说你也很喜欢滑雪啊之类的共同点的发现,这个很重要。
让会议变得生动、让人与人之间的连接更平滑,这是我们希望自己的平台可以提供的服务。
当然,如果你要问它达到我们最理想的状态没有?答案是还没有。因为包括AI、5G这些,也都是过去几年才涌现出来的新技术。
它们还需要成熟,需要更精准地去优化。第一版通常都不会那么精准,因为算法需要不断学习。
比如说我们在会里要翻译、要把字幕抓下来,而印度人说的英语,中国人说的英语,日本人说的英语都不太一样,这就需要一个算法学习的过程。但总体来说我们希望系统能够越来越多地去自我感知,我认为这是接下来非常重大的一个突破方向。
因为只有这样,这个工具才不会让你觉得它只是一个工具,它会变成你的一个助手、一个工作上的伙伴。
Photo from Pinterest
我们想强调认知协作( Cognitive Collaboration)是智能化的,我们更关注的是如何把信息(如果只是从视频会议的角度来说),在会前、会中、会后全部无缝地流通起来,形成一种持续的信息流(continuous information stream)。
比如说我们有一些算法,并且可以无缝、实时、不中断的把信息流给到用户,这是我们的一个目标,是continuous information stream for meetings。
这些会前的协调准备、会中的辅助、会后的总结会让用户的会议体验更好。包括会后的一些录音、归类,建立联系等等,都会无缝地流转,变成一个循环。
这是我们希望去打造的一个平台。
(本文由LiveVideoStack与汪凯的邮件、语音采访整理而成)
相关文章:
“‘疫‘外爆发:没那么简单的视频会议”
“不要随便打扰一个正在开视频会议的人”
“我们请到了声网、亿联和网易云信,来聊聊疫情带来的一些思考”
“聊五分钟未来——视频会议音频技术的下半场”
LiveVideoStackCon 2020 上海/北京/旧金山 讲师招募
2020年LiveVideoStackCon将持续迭代,LiveVideoStackCon将分别在上海(6月13-14日),北京(9月11-12日)和旧金山(11月)举行。欢迎将你的技术实践、踩坑与填坑经历、技术与商业创业的思考分享出来,独乐不如众乐。请将个人资料和话题信息邮件到 speaker@livevideostack.com 或点击【阅读原文】了解成为LiveVideoStackCon讲师的权益与义务,我们会在48小时内回复。
Hey,有关下一代音视频会议的技术和趋势,你还想听我们聊些什么吗,记得评论区留言:)