Dialog+ : 基于深度学习的音频对话增强技术

2022-02-18 10:25:11 浏览数 (1)

来源:IBC2021 主讲人:Matteo Torcoli 内容整理:陈梓煜 研究者通过调研发现,现今观众经常会受到听不清音频中人物对话的困扰,为给观众提供个性化的声平衡方案,这篇文章主要提出了一种利用深度学习改善音频中人物对话和环境声相对水平的声平衡方案 Dialog ,并通过线上调研和实地广播测试验证了该方案的有效性。

目录

  • 问题概述
  • Dialog
  • WDR线上调查
  • 实地广播测试
  • 总结

问题概述

本工作解决的主要问题是,如何在音频广播的过程中平衡对话语音的音频水平和其他背景成分的音频水平。这种平衡是非常个性化的,因为不同个体的个人喜好、收音环境、听觉能力等许多方面的差异都会对优解的平衡产生重要影响,不存在可以同时满足所有人的需求的平衡方案。传统广播机制在WDR测试中经常会收到关于对话语音难以听清的负面反馈。

次世代音频(Next Generation Audio,NGA) MPEG-H Audio 为上述问题提供了非常好的解决方案,该语音广播方案为终端设备提供了非常好的个性化选择方案,终端用户可以在不同的环境下自主选择语音广播中对话语音和环境声音的平衡方式。次世代音频有非常好的应用潜力,已经被主流的广播和流媒体应用标准给采用,例如 DVB,ATSC,TTA,SBTVD。

为了得到个性化的语音成分平衡方案,需要处理的核心问题是如何分离一段语音中的对话成分和背景音成分,从而在语音传播的发生、传播、接收等各个阶段,灵活地处理对话成分与背景音成分之间的平衡。与单独分离对话语音问题对应的更宽泛的问题是如何分离一段音频中的各种成分,得到每种成分的属性数据。为了在一段打包了多种成分的音频片段中,准确的分解出次世代音频所需要的各种成分和对应属性,从而为移动端用户提供更好的音频平衡方案,作者提出了 Dialog 。

Dialog

Dialog 利用了深度学习方法的最新进展,考虑到算法的鲁棒性为了得到更好的算法表现,使用到的训练数据是现实世界的广播内容,大部分来自于WDR和BR。工作者对数据进行了仔细的后处理,挑选对算法训练和优化最有帮助的训练数据。

下图展示了 Dialog 的流程框架,该流程的第一步是分离未知的声音源。对输入的立体声混合音频文件进行短时傅里叶变换得到频域下的音频数据,再使用深度卷积网络从频域上的音频数据预测分离的对话音和环境音。作者认为深度卷积网络的结构对从原始数据中分离不同特征的数据更加敏感,作者证明了相比于其他更复杂的网络结构,使用深度卷积神经网络可以获得更好的性能表现。

Dialog 流程框架

Dialog 包含了自动分离对话音和环境声和自动对分离的音频进行混音两部分,可以做到突出对话的内容同时减少因环境声成分降低而引起的听感的不自然。预测得到分离的对话音成分和背景音成分后,用均衡器调节两种成分的频率响应,可以获得与原始输入音频不同的新的混音音频,混音的方式有两种:全局混音和时变混音。全局混音降低背景杂音的相对音量,将对话音量和环境音量稳定在相对的水平不变;时变混音会随着环境生的实际情况自动随着时间调节环境音量和对话音量的相对值,灵活地改变音量平衡的方式。时变混音的好处是,在音频中没有出现对话音的时候,不降低环境声音的比例,不破坏音频中环境声创造的氛围,而当检测到音频中的对话音时,平滑地降低环境声的占比以突出对话的内容。亦可将两种混音方式结合获得更好的平衡效果。

最后,重混音的音频文件以及音频对应的属性数据被自动地生成,这些音频可以直接被应用于次世代音频中,或者在渲染后应用于传统的基于频道的广播频道上,这些音频文件突出了原始音频的对话音。

WDR线上调查

WDR 是为了让观众提供日常可触及的广播服务,并获得他们的反馈和建议。使用 WDR 线上测试和调查的目标是更好地理解和处理广播机制所关注的问题,从用户接受度和满意度两个方面评估 Dialog 。研究者为受测试者提供了三段语音,每段语音分为不做处理的原始版本和用 Dialog 处理后的版本。为了得到更客观的测试调研结果,三段语音涵盖了不同的场景,都是在测试过程经常获得难以听清人物对话这一负面反馈的音频,受测试者在观看所有的视频后,会被问及他们在观看视频时真实感受和观点,并记录在线上问卷中。

受测试者超过2000人,约80%的受测试者年龄在41~80岁,下图展示了受测试者在观看视频时听人物对话存在障碍的频率,所有受测试者中,约68%的测试者认为自己经常或者非常频繁地存在这一问题,年龄超过60岁的受测试者中约有90%认为自己经常或者非常频繁地存在这一问题。研究者者发现,随着受测试者年龄的增长,越来越容易出现听不清视频中人物对话的问题,这说明单个音频不可能可以满足各个年龄段观众的收音感受,能满足年轻观众的声音频道可能会在更年长的观众群体中产生收音障碍,能满足年长观众的音频可能由于过于突出人物对话破坏了环境声创造的氛围感而在年轻的观众群体中产生乏味无趣的情况。

受测试者在观看视频时听人物对话存在障碍的频率

受测试者被问及的主要问题是他们是否更愿意把音平衡切换到 Dialog 模式,调研结果显示大部分观众都愿意将频道切换为 Dialog 模式,即使是从来没有或者很少出现跟不上人物对话情况的听众也倾向于把音平衡切换到 Dialog 模式,受测试者被问及的第二个问题是他们更喜欢哪种类型的声平衡模式,约46%的受测试者更喜欢 Dialog 声平衡模式,年迈的听众更倾向于使用 Dialog 。

受测试者切换到Dialog 的倾向

实地广播测试

基于WDR线上测试的结果,研究者使用两种方式展开了实地广播测试。

  • 基于 DVB 和流媒体频道的 WDR 实地测试:该测试于2020年12月于德国某电视频道展开两天,观众可以在视频选项中选择 Dialog 声平衡模式。
  • 基于 HbbTV2 的 BR 实地测试:HbbTV2 可以基于 DVB 广播常规的视频和语音,同时在网络中可以添加额外的声音版本,研究者在此添加了两种额外的 Dialog 版本音源,一种为对话突出版本,一种为对话突出增强版本,为光中提供了更多的选择使得观众可以根据自己的喜好来选择对话的突出程度。

总结

现今观众经常会受到听不清音频中人物对话的困扰,研究者采访了超过2000名观众,发现随着年龄的提升,受该问题困扰的程度越大。但是现有的广播机制难以提供高度个性化的语音平衡方案以满足不同年龄段观众对于听清音频中人物对话的需求,基于此问题,本工作的研究者提出了 Dialog ,这是一种通过深度学习方法,从原始声音片段中先分离出环境音和人物对话音后,再将增强的人物对话与环境音结合,以达到突出人物对话音目的的音平衡方案,通过线上调研和实际的广播测试,约83%的听众更愿意切换到 Dialog 模式,证明了该方案的有效性。

最后附上演讲视频:

http://mpvideo.qpic.cn/0bc3eeaaaaaauiacbtpnuzqvaiodaaqqaaaa.f10002.mp4?dis_k=299af3f9e691bca560aafddf872d6f5f&dis_t=1645151068&vid=wxv_2237041039578710020&format_id=10002&support_redirect=0&mmversion=false

0 人点赞