音视频技术不断发展,云会议场景在人们生活中也越来越常见。那么如何将云会议场景中的音视频技术不断提升改善?本次分享会我们邀请到了来自腾讯会议的商世东先生,他将与我们分享云视频技术在腾讯会议里面的一些领域使用情况和他们对未来的一些思考。
演讲 /商世东
整理 / LiveVideoStack
大家好,我是腾讯天籁实验室负责人、资深专家研究员商世东。非常荣幸能够在LiveVideoStackCon 2021音视频技术大会上海站现场为大家分享,过去两年我们通过腾讯会议探索音视频技术在云会议场景下的应用所收获的经验与心得,以及音视频技术在腾讯会议中的使用情况。基于此,我们进一步探索音视频技术在云会议场景下的未来。本次分享将从以下五个方面展开:
01腾讯会议介绍
请允许我在此向大家简单介绍一下腾讯会议——相信绝大多数同学在日常的工作、学习过程当中都已成为腾讯会议的用户。
1.1.腾讯会议品牌
2019年12月,腾讯会议1.0正式版发布。相对于现在的产品,当时的腾讯会议功能比较基础和单一,在使用体验上也都略显粗糙;2020年年初,随着疫情的爆发催生线上会议需求井喷,短短245天之内腾讯会议的用户就突破了1亿,成为国内市场最快超过1亿用户的视频会议应用;并且在过去一年,腾讯会议多次荣登App Store免费榜的榜首;2020年11月,腾讯会议在疫情爆发期间协助各个企事业单位、学校复工复产、远程协助,为数字经济发展做出了卓越的贡献;并于2020年在浙江乌镇举办的世界互联网大会上荣获“领先科技成果”大奖,这也是世界互联网大会自2014年举办以来,首次获得该奖项的视频会议产品。
根据北京大学互联网发展研究中心发布的研究报告《在线会议社会价值与未来发展报告》,腾讯会议在短短5个月的时间直接节约社会成本达714亿元,在经济、技术、文化等多个层面为社会做出了卓越贡献。
1.2.依托腾讯云,腾讯会议助力企业协作转型
腾讯会议从速度、跨度、深度、广度等多个维度上,有效助力企业数字化协作转型:
- 在速度上,腾讯会议提供了随时随地接入的视频会议体验;
- 在跨度上,腾讯会议为众多企业在大规模、跨企业、跨地域交流方面提供关键技术与产品支撑;
- 在深度上,腾讯会议提供的众多功能,有效为各大企业平台提供一个可信赖的沉浸式协作环境;
- 在广度上,腾讯会议与业界众多硬件和APP实现了集成,高效连接个人、会议与生态。
1.3.腾讯会议产品全景图
腾讯会议为全行业提供在线会议赋能,深入政府、医疗、教育、金融、制药等行业,为诸多的企事业单位与组织机构提供了远程协作和视频会议服务。
在平台种类上,我们也可以看到,腾讯会议目前覆盖了大家日常使用的8个主流平台,包括PC、移动、会议室以及腾讯会议的硬件终端产品——腾讯会议Rooms。在全场景平台架构上的服务除了提供视频会议和音频会议之外,还提供了协作会议和会议直播。而在底层能力平台方面,除了使用最多的音视频引擎,还提供了IM、在线文档、会议室连接器、智能管理等平台;除此之外,腾讯会议还提供了面对所有开发者的API服务,开发者可以在各自领域和应用硬件中集成腾讯会议的多项能力。
1.4.常见应用场景
图中列举的诸多场景如远程培训、远程会商等,在腾讯会议上也都被广泛使用,因为这些相关场景都涉及到远程协作沟通。
以上是对腾讯会议的简单介绍,希望能够帮助大家对腾讯会议有进一步了解。下一步我将具体分享腾讯会议音视频所具有的黑科技。
02腾讯会议的音视频黑科技
提及腾讯会议的音视频能力,我们首先需要知悉的是腾讯会议音视频的建设目标。
腾讯会议自启动以来,我们一直围绕着更清晰、更流畅、更实时互动的目标进行持续的能力建设,不断提高远程线上会议参与感和交流感。
音视频技术泛泛而言分为三个领域:音频处理、视频处理、弱网抗性增强。今天由于时间限制,不太可能和大家全面回顾这三个领域的相关技术,还是和大家分享下三个领域我们经历的一些有趣故事吧。
2.1.关于音频降噪的故事
我们内部统计到,在所有的线上的会议中,纯语音会议占到会议总数的80%左右,由于纯语音会议不开摄像头和屏幕分享,或者屏幕分享开的时间在整个会议中处于很小的比例。所以语音会议的质量、流畅、纯净、智能互动对于线上会议的体验至关重要。
在现实生活当中,由于开会所处的现实环境非常复杂,包括各种嘈杂的环境。为了提供良好的语音会议体验,卓越的音频降噪技术是不可或缺的。
从腾讯会议开发伊始,音频方案便沿着经典信号处理和深度学习相结合的技术路径进行,我们运用了独特的大数据训练模型覆盖多种常见的平稳噪声和非平稳噪声类型。不单是基于经典的信号处理模型,而是监测并消除了很多日常突发性的非平稳噪声。
腾讯会议支持多平台终端,因此我们的模型也是低复杂度轻量级,保证能够在多个终端平台落地。在具体实现上,从技术细节角度来讲,腾讯会议的音频降噪算法结合了人体的声带与声道的发声模型以及人耳的听觉模型,基于多种神经网络并融合多种损失函数和训练策略,最终在语音的保真度和自然度以及噪声抑制上取得了一个良好的权衡。但这个挑战也是巨大的,尤其是在音频降噪上线以后,也给我们意想不到的挑战。
下面给大家分享一个有趣的故事。
降噪的故事
上图两个波形图所展现的分别是掌声与敲击键盘的声音,可以看到二者波形非常相似。2020年初疫情来临时,许多会议由线下转为线上,当时腾讯会议所采取的降噪算法还处于灰度测试阶段。我们收到的一个比较尴尬的反馈是,公司领导使用腾讯会议开会,讲到最后时刻领导习惯性停下来等待大家鼓掌,此时由于降噪算法的强悍降噪效果,领导能从画面中看到大家鼓掌,但耳朵中却听不到任何掌声,这是由于当时不够成熟的降噪算法将掌声也作为一种背景噪音过滤掉了;此时如果没有开视频画面而只是运用语音开会的话,则领导收不到任何反馈,这样的体验无疑是不自然的。
我们知道算法对于模型来说至关重要。腾讯会议针对非突发噪声的消除采取了多种模型,当时所采取的模型并不需要区分键盘敲击声与掌声。如果仔细观察键盘敲击声与掌声的波形图我们不难发现,掌声波形存在细微的差别,而敲击不同键盘所呈现的声音也会有一定差别,但人耳对二者很难区分。
这无疑对我们实现噪声消除模型带来很大挑战。一方面我们希望噪声消除模型具有很好的泛化性能,不能只针对训练的数据做有效处理;但在一些特殊场景下,模型可能存在失效的情况,错误过滤其他噪声。意识到该问题后,我们对降噪模型进行了创新,也就是在模型中加入了一个独特的可融合帧级信息与语音片断信息的多级别模型,而且还可以多尺度地独立提取不同频带域特征,区分掌声与非掌声的局部特征信息,再对这些特征进行融合从而达到识别全局不同类型噪声的效果。以后我们通过腾讯会议与领导开会,再也不需要担心领导因为听不到掌声而尴尬了。
说完噪声我们再来说语音,因为语音增强和噪声消除是相辅相成的,但语音和噪声有很大差别。上图展示的一段逐渐衰弱的语音波形图,可以看到语音波形图具有一定的谐波特征。但语音在距离远一些时非常容易淹没在背景杂音里,这对语音增强而言,如何将语音从背景噪声中分离并增强显得尤为重要。
刚开始的时候腾讯会议主要在手机、PC等平台部署,不会存在太多人距离麦克风较远的情况;但当大家带上耳机或者使用电脑在空旷会议室开会时,尤其是当多人在会议室里开会,有些成员距离麦克风较近,有些则距离麦克风非常远,这就导致一些远处的人声会被当成噪声而消除。为了避免这样的情况发生,我们对模型做出进一步改进,优化了模型以大幅度改善远处较弱语音的增强与降噪效果,在降低噪音的同时保留远处人声的清晰度。
音频降噪不仅用于PC、手机等终端设备上,一些商业会议场景,尤其是部署在会议室的视频会议产品,当我们在与合作伙伴探讨最佳产品形态的时候发现,市场上的大型会议室设备在远程拾音、降噪、双讲、噪声消除方面往往无法满足行业需求,体验与实用性都不佳,为此腾讯会议技术团队专门进行了技术攻关。
得益于腾讯会议天籁音频团队的努力,我们最近提供了一套性能优异的会议室远场拾音解决方案:我们采用了多个MEMS麦克风板并结合音频处理器,然后通过摄像头上方的结构非常方便地集成于在线会议设备之上,很好地实现了在参会者不方便使用电话或不方便使用扩展麦克风的场景中对远距离人声的拾音问题。下面请大家体验下我们模组强悍的超远距离拾音能力。
此外,该模组除了解决远距离人声拾音的同时,也实现了更为智能的噪声消除效果。例如针对敲击键盘、放水杯,咳嗽声等突发性噪声都具有良好消除性能。除了噪声消除,双讲是视频会议中一个常见的现象,同时也是一项挑战。市场中大屏幕主流产品在处理双讲场景时往往会出现很明显的失真现象或者双讲剪切,这就导致一些交流较为频繁的会议,往往会影响语音的清晰程度。而使用天籁团队所开发的模组,双讲场景即便是多人同时讲话依然能够清晰的听见每个人所说的大部分内容。
2.2.不止于超高清编解码,更有AI视觉加持
除了音频,腾讯会议领先的视频技术也绝不仅仅是一个全高清的视频体验。除了高清H.264编解码、HEVC等之外,为了改善视频会议的参与感,腾讯会议还做了很多与视觉AI相关的工作。如虚拟背景,以及去年疫情开始很多学生使用时很喜欢的美颜功能。
腾讯会议最近还收到来自一些用户的反馈,他们打开摄像头的时候总感觉不自然, 因为日常交流的时候大家都会有眼神接触,但在视频会议的时候,因为摄像头和屏幕与人眼之间的夹角,对方看到人的时候眼睛是向下的;如果你非常激情且投入地参与会议,但是无法于其他参会人有眼神接触,这样的体验不会很好。于是我们决定做一个眼神接触的功能,也就是将眼神偏离的向下的角度给纠正过来;但实际上做眼神接触的时候,需要调整的不仅仅是眼神,还有眼睛上方的睫毛,下方的眼皮区域等等都需要做出相应的改善,才能让面部表情看起来自然。更具有挑战性的是一些戴眼镜的情况,眼镜会有各种各样的形状,更会有反光,这都对建立人脸3D模型以及人脸3D模型生成的数据提出了很大的挑战。我们在开发这个功能采集了数千人的人眼,并且运用人脸3D模型来生成总计超过百万张的人眼数据。
当该功能上线后,大多数客户反映都很正面,但我们也收到了一些意料之外的反馈。很多老师和学生反馈,原来上课的时候老师可以看到学生是否在专注的听讲,结果现在老师发现大家都盯着老师看,一堂课上下来学生都非常的专注,老师就觉得5分钟、10分钟还行,一堂课下来40分钟这么多以前很调皮的学生现在如此专注就不太正常,下来一打听,原来是学生把眼神接触功能都打开了。我们收到这样的反馈以后,也对模型的改善程度重新做了一些调整,当眼神偏离幅度过大的时候,系统不再做眼神纠正了。
2.3.不断挑战“下限”的弱网抗性
因为腾讯会议是在线会议,是基于IP网络的。IP网是没有QoS保证的,这点和PSTN网络不一样。所以保证QoS,保证音视频的流畅性是腾讯会议网络组孜孜不倦的追求目标——如何保证腾讯会议在弱网特别是一些极限网络的情况下的弱网抗性,在极限网络情况下也很好的保证顺利的流畅的会议体验。
在众多的会议里面都出现过发生弱网的条件。深圳北站,处于深圳的北郊,基站的部署不会像市中心那么密集,有地铁通到深圳北站,还有深圳北站的高铁。通过后台大数据监控发现,这个地区网上经常有周期性的大丢包和抖动现象发生,导致会议的流畅度受到很大影响。我们就去深圳北站那栋大楼做实测,结果和预想的一样,由于基站比较少,尤其当地铁和高铁同时进战的时候,会导致网络流量急剧增加,大量的用户连接到基站。并且由于高铁地铁导致电磁干扰,基站分配到每个用户可用的带宽可以低至几十kbps。50kbps以下要进行一个很好的流畅的语音会议技术上是有挑战的。
发现了这个问题以后,我们在网络层做了很多优化和调节,保证在一些极限的条件下——比如地铁里,或者高铁交汇的时候,依然能保证大家在开会的时候有流畅的体验。
03细节决定成败
前面和大家分享了我们的音视频核心技术上面长期积累的点点滴滴的故事,那有些同学可能会问,我们有什么用的机制能够系统和全面的发现这些问题,发现这些badcase,从而进行有针对性的用户体验改善的呢?
3.1.在学术界和企业界做算法的差异
在座许多同学来自学术界。在学术界做算法和工业界还是有很大的差异。学术和工业界做算法的共同点是“知己知彼”,学术界更多的是对如何做得更好,针对一个问题提出改善或提升。工业界除了如何做得更好,还需要知道谁做得不好?什么时候做得不好?哪里做得不好?比如,我们做算法的都知道,其实摄像头和麦克风对采集是有要求的,如果采集效果不好,在这个基础上,本来采集的语音效果就比较差,后续就很难提升,如果摄像头本身只有360P,怎么可能做出高清视频;使情况更糟糕的是深度学习技术对数据的依赖性,比如模型遇到完全没碰见过的数据的时候,它的表现不可测。这就要求我们能从现网中发现各个环节的缺陷,不管是自研的,还是其他厂商的产品,都要做好音视频质量的实时评估和检测,能发现其中算法效果的不足和局限性。
此外还要做更进一步的细分及指标的定义。很多业界朋友交流到音视频本身就是非常主观的事物,如何把它细分指标到各个层面从而提升音视频体验是很困难的,但我们必须这样做。
细节决定成败,细节取决于什么,细节的第一步就取决于细分指标的定义,尤其对于我们做音视频的同学而言都非常头疼的的主观感受指标。
视频可以细分为视频编解码、视频采集帧率、视频接收码率、屏幕分享帧率、屏幕分享接收码率、视频帧率的变化,视频码率的变化这些指标。
对于音频更加主观,处理环节更加多,同一个地方不同音频设备会互相干扰,摄像头间干扰可能性会比较小。所以为了对音频做完整的监控,我们将音频指标分为7大类包括无声、卡顿、漏回声、降噪、啸叫、音质采集、语音/音乐内容分类。这是初步的7个种类,针对每一个种类我们有进一步细致的划分,比如卡顿问题是大家很困扰的,以前最早时卡顿问题我们一般认为是网络不好。网络通过丢包导致卡顿,经过进一步修复分析后,发现并不是这么简单,网络丢包,抖动导致的卡顿、前处理丢帧、播放侧解码失败、3A处理导致的音量忽大忽小都会导致卡顿的发生。我们如果可以把细分指标都完善定义,那么就可以实现对会议音视频体验的一个完整的监控。但是定义出来的指标是一方面,对腾讯会议这样超过一亿用户的平台,很多时候大盘的指标对于个体问题并不敏感。
这就带来了第二个问题,要进行非常严格细致的场景分类。首先是比较基础的根据设备类型、操作系统、软件版本进行分类,如这个版本放音视频没有问题,但可能下一个版本可能就会出现bug。更难的是根据音视频的内容所处场景进行分类,大家在开视频会议时可能在家里,马路上,办公室等不同位置;音频会议场景可能更多,家里、地铁、商场、机场、车里,场景分类做出来后,这些具体指标在各个场景中会有不同的表现,对提高全网的质量有非常大的帮助。举一个例子,啸叫一旦发生,就有灾难性的后果,所以我们的算法是一旦发生啸叫就闭麦,避免啸叫场景的发生。而啸叫检测本身带来误警,这是所有检测都不可避免的,一旦误警关麦时,我们会统计出全网关麦的指标。但只能看到指标是否有波动不知道如何使用是无效的。这时候我们就把场景进行细分,进而发现车载场景中,啸叫指标明显高于其他场景。大家可以分析一下原因,其实当汽车鸣笛的时候,是很有可能是被误判为啸叫的,这只是一个简单的例子,还有其他如回声、降噪都可以进行类似的分析进而发现我们算法的局限性和不足。
多维度分析包括跨纬度,不同设备在不同场景中,进行交叉维度分析,比如看回声的指标的时候,我们会看在各个设备,以及各个声学场景下的效果的上报,这样可以发现很多有价值的信息。
04未来云会议的音视频技术
现在和大家分享未来云会议的整个音视频技术。
讲到未来时,我们常常会思考现在的音视频会议存在什么问题。
我经常开玩笑问朋友,谁最喜欢开线上视频会议,开玩笑地说是项目经理最喜欢,原因是在开项目会议时,他不需要你说太多,只需要回答yes or no,不需要看见你,不需要知道你的心情,不需要知道你在什么样的环境,只要关心项目版本的验证发布及生产效率,对他来说有明确的目标及途经,于是线上会议于项目经理而言是非常好的提升生产力的效果。
谁最不喜欢开线上视频会议呢?我闺女最不喜欢和我开视频会议,每次最多不超过3分钟就跑一边去玩了、经过调研发现类似的情况还有团队中的新同学入职时、每次有重要的事情和老板谈时、BD第一次见客户,你想和老板讨论绩效考核的时。这时候大家往往都会觉得视频会议无法充分表达出想要的真正的意图和目的。
4.1.沟通的目的
在工作中,人们沟通主要由三个目的。第一个是生产率;第二个是当你面对开放性命题需要讨论、思维碰撞时候需要创新性的解决方案的时候;第三是建立和维护人际关系的沟通。对于第二和第三类的沟通,我们现在知道,线上会议和线下会议的体验还是有蛮大的差距。
4.2.沟通的方式
这主要是因为,第二和第三类目的下的会议中的参会者,表达会有多种方式:文字语音带有明确的目的和实施途径,但是对于开放式的话题,更加需要的是面部表情及眼神接触来达到充分的投入和交互,此外还有情感述求,比如寻求他人认同、支持、还需要将情感述求和实际开会场景结合起来,比如线下轻松休闲的会议可以去咖啡馆开,严肃的会议可以去正式的会议室等等,这样的诉求目前在线上会议上都是难以满足的。
4.3.云会议的未来
但是正在蓬勃发展的VR、AR技术也许可以弥补音视频会议中上述的情景的不足,身体语言,面部表情可以通过VR/AR技术来弥补。它们在实时视频会议中的一些作用,比如左图的全息会议可以确保参会者的实时动作出现在全息投影中,弥补实时视频会议中参会者面不和身体语言的的缺失,现在使用手机相机即可实现高质量的全息采集。右图的VR技术,可以使参会者在会议中使用一些有意思的挂件、服装等,更好的构建不同谈话场景,为远程会议增添与会议目的一致的各种环境等等。
由于时间限制,以上是我与大家分享的内容,希望对大家有所帮助,谢谢