先介绍下腾讯游戏多媒体引擎 GME 背后的音频黑科技团队——腾讯会议天籁实验室。这是一群“噪音猎人”,他们沉浸在实验室,也穿梭在菜市场、游荡在马路边、商场等各种生活常见场所。噪音是他们的猎物,被狙击、捕获、并消除。
“猪肉铺的老板开始剁肉末了,走!” 王燕南两眼发光,如同饿虎扑食一般冲过去,一根收音棒伸到了桌子前,听着砍刀和砧板激烈碰撞的声音,王燕南如获珍宝。“小伙子,我看你好几天啦。不来两斤五花肉吗?”肉铺老板调侃道。
王燕南是 AI 降噪团队中的成员,一名来自中科大的博士。从本科到硕士再到博士,多年的音频领域研究让他对声音极其敏感。这只是一个普通工作日的下午,这些天外出他已经捕捉到大量吆喝声、脚步声以及它们交融在一起的声音。但是这些还远远不够,他马上还要去公交站旁捕捉汽车的轰鸣声。
腾讯天籁实验室这群“带薪买菜/等公交/坐地铁/逛商场”的工程师,他们的日常工作就是和噪音打交道,同事戏称他们是“噪音猎人”。
01
为什么要死磕噪音?
“电话早在一百多年前就发明了,但是人类却一直没有解决通话噪音的问题。”王燕南摇着头说道。放眼人类一百多年的语音通话史,其实也是一段对抗噪音的历史。而想要消除噪音,需要识别噪音,再进行主动干预。
这个看似简单的答案困扰了技术人员上百年,其难点在于识别哪些是噪音。天籁实验室找来了 AI 的加持。“我们会采集大量的声音数据,做裁剪和清洗、提取特征,再加入模型训练,如果模型准确率达不到 99%,我们会持续收集,一直做到标准为止。”
这才有了本文开篇,工程师在菜市场捕捉声音、采集样本的画面。项目初期,同事们每天都会看到工程师们拿着收音棒四处游荡。捕捉键盘声、手指敲击屏幕、制造关门碰撞声、来回放杯子的声音、抽纸巾的声音,几乎把生活中能想到的噪音都采集了。
天籁实验室日常测试、实验
通过海量的采集和应用,基于机器学习的 AI 降噪模型,团队将识别率提升到了96.2%,超越了大多数开源模型。基于上千小时的语音噪声数据,通过深度学习和 AI 算法,已经能成功消除 300 多种环境噪声。
02
AI 降噪技术实现
基于深度神经网络的 AI 智能降噪,基于海量语音与噪声训练库,以心理声学的发音和听觉模型为基础,融合感知编码,运用经典语音信号和深度学习技术,在模型特征提取上挖掘多尺度的音频特征信息,在训练步骤上引入多目标的优化函数,对 loss 函数进行综合调节。
在传统的降噪方案中,需要一定时间来估计当前环境的底噪信息,这种方案无法处理非平稳噪声这种突发信号,比如键盘、鼠标声、手指敲击屏幕的声音等。
而针对复杂、嘈杂场景下的海量语音数据训练基于 chimera 的深度神经网络,通过预测混合噪声信号中的有效语音成分信息,提供增强去噪后的音频输出结果,让用户听得清晰。
针对游戏语音场景,GME 针对各类玩家语音通话时常见环境噪声进行降噪处理。GME 采用的降噪技术融合了常规的 DSP 降噪算法以及 AI 降噪算法,能对各种类型的噪声进行抑制,包括稳态噪声(比如空调声等)以及非平稳噪声(手机屏幕敲击/键盘鼠标音等)。保证玩家在游戏开麦时拥有清晰、流畅的高质量语音互动体验。
进一步,我们又将通信升级到了超宽带模式,通过基于心理声学划分的 bark 域而非传统线性子带压缩特征,并使用新的量化策略减小模型尺寸,降噪模型支持的有效频宽从 8kHz 进一步提升到了 16kHz, 从窄带的 4kHz 到超宽到的 16Khz 实现了全覆盖,MOS 提升 0.1-0.5 不等。
天籁实验室的 300 多种环境噪声消除、回声消除、基于声纹的个性化语音增强、实时语音 3D 虚拟化等业界顶尖音频处理技术,都已被应用于 GME 实时语音中,服务于广大游戏行业客户。未来,GME 也将和天籁实验室也将继续努力,为广大玩家打造“听得清、听得真、超沉浸”的极致语音通话体验。
10 月 27 日,GME 背后的黑科技团队「腾讯会议天籁实验室」携前沿的实时音频通信创新技术重磅亮相 ICASSP 2022 大会。作为 IEEE(电气电子工程师学会)主办的全球规模最大、最全面的信号处理及其应用方面的顶级会议,ICASSP 在国际上享有盛誉并具有广泛的学术影响力。
天籁实验室作为腾讯会议旗下的顶尖实时音频处理团队,研究工作覆盖声学干扰、网络质量、终端设备能力参差不齐等不同场景下的声学挑战,在本次 ICASSP 上分享了基于个人移动及远场拾音场景下的前瞻性探索研究。本系列技术分享专栏将持续分享音频通信、实时互动等相关技术干货,欢迎持续关注。