来源:Live Panel: RTC in the Metaverse 主讲人:Sriram Srinivasan, Mike Arcuri, Cullen Jennings, Paul Boustead 内容整理:郑道涵
目录
- 主讲人介绍
- 元宇宙的概念和思维模型
- 元宇宙中 RTC 扮演的角色
- 元宇宙中可能需要考虑的一些细节问题
- 观众 Q&A 环节
主讲人介绍
Sriram Srinivasan:在 Meta 公司研究下一代音频技术(Next Generation Audio, NGA),前微软工程师 Cullen Jennings:Cisco 公司 CTO,Webex Hologram 发明者,WebRTC 开源代码共同写作者,英属哥伦比亚大学计算机视觉博士 Paul Boustead:Dolby 公司产品副经理 Mike Arcuri:Meta 公司 Horizon 和 Facebook Gaming 云支持平台产品领导
元宇宙的概念和思维模型
Sriram Srinivasan:元宇宙对不同的人来说有着不同的含义,Cullen,对你来说元宇宙意味着什么?
Cullen Jennings:对我来说我们可能在元宇宙中看到的是一个共享的三维空间,它把很多东西、把人们连接在一起,涵盖工作、娱乐、学习,各个方面。为了做到这一点,我们需要把许多不同的应用、不同创作者的创作内容、以及人本身都都放在这同一个空间当中。我最关注的并不是这个纯粹虚拟的空间——像我们经常会考虑的那样,而在于我发现最有趣的使用案例把它们也放在了真实世界的物理空间当中,因此“现实”也同样是元宇宙概念中的应有之义,我们把这些事物和人在现实环境中同样链接在了一起。
Sriram Srinivasan:嗯,把许多不同的使用者、应用和内容在物理世界和虚拟世界两个层面上连接在一起的三维空间。Paul,你对于元宇宙的定义是什么呢?
Paul Boustead:我认为元宇宙是不同虚拟世界网络的互相连接,就像万维网是不同网站的互相连接一样,这些虚拟世界可以让人们上网、玩游戏、工作、社交、分享网络新闻,或者比如,参加音乐会,等等。显然,目前已经存在这样一个虚拟世界了,但是它只是一个个和你与真实世界的互动方式鲜有相同之处的孤岛,在其中你有着不同的身份和朋友关系。所以在我看来,元宇宙可以为使用者创造一种在不同的人和实体创造的世界之间穿梭的无缝体验,同时可以使你的虚拟身份、甚至是数据资产随着你四处移动。随着虚拟世界对于消费者越来越友好、一致性越来越强,我相信我们越来越多的娱乐体验将会在这些虚拟世界中进行,而不是在一个固定的二维场景中。我认为通过元宇宙进行的共享体验目前是元宇宙发展的一个强劲的驱动力,这非常令人兴奋。
Sriram Srinivasan:Mike,你有什么要补充的吗?
Mike Arcuri: 网络上已经出现了很多非常不错的系列文章来讨论元宇宙将会是什么样的、以及组成它的概念,但我认为这个词语对我来说意味着“实体化的互联网”,我所说的“实体化”指的是,就像 Cullen 和 Paul 刚刚说的那样,你将会通过这样一个互联网的空间来回穿梭。就像如今玩一款网络电视游戏一样,你拥有一个虚拟的物理形象——一个 avatar,你通过它来与别人交互,来模拟现实。而“互联网”意味着某种程度上的开放性,很多公司和创作者都参与其中,你可以在这些不同的体验和空间当中无缝地穿梭,所以“实体化的互联网”这个词语对我来说就像北极星一样具有指引意义,它指引着我们该如何去改变如今我们日常生活当中工作、娱乐、以及对于互联网上美好事物的体验。
Sriram Srinivasan:总结一下你们三个的发言:元宇宙是一个共享的三维空间,一种实体化的互联网,涉及现实化的人物形象——就像在游戏中的交互一样。这些观点都非常迷人。
元宇宙中 RTC 扮演的角色
Sriram Srinivasan:现在让我们把话题从元宇宙的概念和思维模型转移到与这次会议更密切的主题上来。通信是元宇宙的核心,就像我们如今经常听到的那样。Cullen,你对元宇宙中 RTC 所扮演的角色持怎样的看法呢?
Cullen Jennings:合作总是很重要的,在元宇宙的语境下,合作有很多种不同形式,其中我最为关注的是那些最为真实的形式,所以我最感兴趣的是视频渲染和真实触觉的模拟会为它带来什么。全息技术可以形成一个非常真实的“我”的版本,如果我像这样拿起一杯水,想要呈现这个过程是一个比较复杂的任务——你要呈现透过水的颜色、水的形状、水表面的流动,等等。我们需要将所有这些信息通过三维全息技术完整呈现出来,当你戴着 AR 或 VR 眼镜时,正是这种体验产生了沉浸感,带来了与传统的通信相比明显更好的体验。因此对实时通信开发者来说,这将是一个非常激动人心的时代。
Sriram Srinivasan:Mike,你有什么要说的吗?
Mike Arcuri:一方面来说,这是对我们现有技术的一种革新和替代——我们不再只是透过一个电脑窗口观看平面化的直播,我们将拥有一个虚拟空间,在那里我们可以实体化。与会成员在一个虚拟的讲台上讲话,而你在台下的观众中倾听,你还可以走向一个虚拟的麦克风来提问——这将是一种完全不同的体验。另一方面,你也可能正处于元宇宙中的某个场景当中,需要和元宇宙外的某个人交流。比如我正在一个虚拟世界中的鬼屋中进行娱乐体验,现在我想要喊我的儿子一起来玩,而他可能正处在元宇宙之外,比如在卧室里打游戏,那么我可能会拿起一个虚拟的手机,并用它拨通我儿子的真实的手机,他在接收到后可以按下某一个按钮,从而来到了元宇宙中的这个鬼屋里加入我。所以我们既有在虚拟世界的实体化场景中相互交流的需求,又有在场景当中与场景之外的人交流的需求。
Sriram Srinivasan:你刚刚提到了在虚拟空间中进行会议和讨论,假设你坐在虚拟空间中我的左边,向我提了一个问题,并希望得到我尽快的回答,而我却因为一些延时和噪声,在一段时间之后才听到你的问题。因为我们在现实中并没有坐在一起,我们只是通过各自不同的电脑连接到了这个场景之中,有着各自不同的背景噪声,而这些都会对讨论的气氛造成破坏,因此这对通信的实时性提出了更高的要求,Paul,你怎么看待这一问题?
Paul Boustead:在虚拟空间中为了获得更真实的体验,我们可能需要根据不同虚拟形象的位置和距离来调整声音的特征。比如离自己近的 avatar 的音量要更大一点,而离自己距离较远的 avatar 说话的音量要更小一些。我们的大脑对这些细节的感知和处理非常敏感,因此如果各自的背景噪声造成干扰,这就会非常容易让人分心。这样一来,使用者就会很难理解周围人所讲的内容,从而对沉浸感造成巨大破坏,让你非常烦躁。所以噪声抑制和声音随距离的衰减非常重要,它们都需要被调整至合适的状态。时延也非常重要,如果时延太大,就会出现不同发言者声音重叠的情况。但有些情况下适当的时延也是必要的,比如在一场音乐会中,乐团演奏的声音会经过较长距离的传播和反射,最终到达听众的耳中。因此我们需要一种智能化的时延处理机制来应对不同的场景。
Cullen Jennings:时延的确非常关键,近年来我们也在降低时延上取得了一些显著的进展,似乎如今网络连接的质量好坏的关键已经不在于带宽是否足够大,而在于时延是否足够小了。我认为时延已经成为一个为元宇宙赋能、使之成为可能的重要部分。
Sriram Srinivasan:对,时延也是我们今天要讨论的重要话题之一,对于虚拟现实的形成和体验感受都十分重要,这其中的挑战同时也蕴含着机遇。这引出了我的下一个问题,就像今天的 RTC 是一种台式机和会议室的混合,在可见的未来人们可能会携带一些装置进入元宇宙之中,比如笔记本电脑和手机,用来进行 AR 和 VR 的交互,Cullen,你认为这些将如何实现呢?
Cullen Jennings:我认为 VR 将是一开始时的体验,然后 AR 眼镜将会扮演更重要的角色,用以将所有人相互连接起来。这其中最具挑战性的地方之一在于,如何在没有高端设备的情况下仍然能够随时加入这种体验当中。
Sriram Srinivasan:Mike,你怎么看待这样一种多功能的混合的设备?
Mike Arcuri:我赞同Cullen的观点。VR 设备一直很有市场,它们的确带来了很好的体验,在可预见的未来 VR、AR 将会继续提供沉浸感更强、更真实的体验。但是元宇宙关乎着数十亿人的未来,我们对待这些可能的技术革新的顺序的重要性要格外小心。在两三年之后,任一时刻都可能有数千万的人们在使用 VR,但是可能会有数十亿的人们在使用实时通信技术进行互动交流。所以我们要让元宇宙技术真正与它所对应的潜力相匹配,令其对于全世界的人们都触手可及,因此,它应当能够在简易便携的设备上实现。比如在任何时候,当你想要使用 VR、或是联系其他人加入其中时,你可能并没有把装置充满电,你还需要寻找一个开阔的空间以使得体验能够成功进行——这些都是我们需要克服的种种限制。
Sriram Srinivasan:你之前举了那个你联系你的儿子进入元宇宙的例子,你希望他可以随时加入,而不是还需要戴上一个眼镜,或是其他有着种种限制条件的装置。
Mike Arcuri:对,我并不希望告诉他,比如,他的叔叔昨天晚上用过了眼镜,结果现在眼镜没电了——我并不希望这种事情发生。
元宇宙中可能需要考虑的一些细节问题
Sriram Srinivasan:我的下一个问题是,怎样才能避免多个平行元宇宙的出现?你们如何看待处于不同元宇宙的人们相互之间如何交流的问题?Mike,我想先听听你的看法。
Mike Arcuri:我们有时候会担心建立这样一个开放的元宇宙会多么困难,但是我们不要忘记,我们有互联网作为基础。互联网是开放的,它建立在一系列开放的协议之上,所以我们已经有了一个关于开放性的很好的基础。元宇宙应当让其开发者、体验者、以及进行娱乐工作等功能开发的第三方公司都能够同时使用,这可以称作“体验的连续性”。我们希望在不同的场景中,比如在迪士尼的娱乐场景中和在zoom会议室中,都拥有同样的 avatar。
Sriram Srinivasan:你讲到的“体验连续性”的概念很吸引人,这在真实的物理世界当中是非常自然的,我们当然想要在虚拟世界中也拥有同样的体验。这是一个重要的领域,还有很多要做的事。Cullen,你怎么看待元宇宙中可能会出现的不同公司的产品不兼容的问题?
Cullen Jennings:这个问题可能比较复杂,但我相信我们可以通过沟通解决。我们需要确定一套标准,通过开源来把这些都整合起来。我想这其中的一个驱动力在于,如果别人创造了一个虚拟空间,而我在使用时把其他的应用和内容携带了进去,这对于这个虚拟空间来说是一种增值。因此这并不是一个零和博弈,而是会使不同公司的人力、物力、资源、甚至是想法与灵感整合在一起,从而提升每一部分的价值,所以我对此持乐观态度。
Sriram Srinivasan:Paul,你有什么要补充的观点吗?
Paul Boustead:我认为我们可以从互联网的建立过程当中借鉴到很多有价值的东西。在元宇宙中,我们或许需要类似的标准和方式。互联网的使用非常便捷,人们用同样的方式进行网址导航、滚动、浏览、点击,在元宇宙中的索引应当是基于类似的一套相互交流和与环境互动的标准。当你从一个场景移动到另一个场景中时,你的实体不应该是完全不同的——这并不是一种好的体验。我赞同 Mike 刚刚所说的,我们不仅仅需要一个一致的 avatar,还需要与之匹配的一致的声线,等等。
Sriram Srinivasan:我们刚刚讨论了这么多话题,这引出了我的下一个问题,Paul,我们在进行一个多人的会议时最大的挑战是什么?
Paul Boustead:对我来说最大的挑战之一在于,元宇宙中实时通信的成功进行在于对现实生活中沟通交流的真实模拟。当你在台上发言时,如果台下的观众只有预设好的固定的表情和动作,那这样的效果就远远比不上真正的现场直播。但是如果你在元宇宙中听一场音乐会时,你能够听到身边朋友们的交谈,能够感受到观众人群的微妙的喧嚣与骚动的气氛时,你可能就会更喜欢这种体验,而不是现场直播。同时,较低的时延也很重要。此外,除了听觉,演讲者和观众的动作姿势、面部表情的流畅性在通信过程中也很关键。
Sriram Srinivasan:对,没有观众互动的干巴巴的演讲确实体验很差。Mike ,你还有什么要补充的吗?
Mike Arcuri:我们刚刚没有提到的一个地方是整个过程中的体验流,我们可能希望在不需要下载的情况下获得迅速实时的体验。
Sriram Srinivasan:最后一个问题:如何看待后疫情时代的这种线上线下混合进行的工作形式?
Cullen Jennings:我认为这其中的一个问题在于体验的不对称性。对于远程参加的观众和在现场的观众来说,体验有很大的差别。因此我们需要通过刚刚我们所讨论的——无论是虚拟场景,还是相配套的技术——来解决这个问题,来减轻这种不对称性,来减小这种体验上的差别。
观众 Q&A 环节
Sriram Srinivasan:下面我们来看看来自观众们的问题。首先第一个,如何解决使用 VR 眼镜时出现的运动性眩晕、恶心的现象?
Cullen Jennings:这个问题其实在于,我们大脑的不同部分对于帧率的敏感程度是不一样的。当有一些关键部分的帧率不正确时,我们的大脑会感知到画面有些地方出了问题,因此会产生眩晕、恶心、想要呕吐的感受,因此我们需要不停地调试,修正 bug,最终解决这个问题。
Sriram Srinivasan:第二个问题,一些远程通信的延时在理论上是有下限的,我们可能无法把延时降低到理想的程度,如何解决这对于实时通信体验的影响?
Mike Arcuri:我可以回答一些。首先我们可以通过一种预测技术,比如在下一信息还没有完全传输过来时预先调整,比如,眼球转动的方向,等等,通过这种预测来弥补延时带来的影响;另一方面,我们可以进一步优化通信网络的拓扑结构,使信息的传输距离进一步缩短。
附上演讲视频:http://mpvideo.qpic.cn/0bc3teaieaaanaadi4ct5vrvbgodqkmqbaqa.f10102.mp4?