一年一度的全球顶级语音大会INTERSPEECH 2020论文评选结果已经揭晓,我们的论文《Phase-aware music super-resolution using generative adversarial networks》(译为基于GAN网络的相位感知的音乐超分辨率)成功被收录其中。这是TME首次参与INTERSPEECH,本文在音乐音质修复领域取得的成果得到了全球专业评委的认可。
欢迎INTERSPEECH的各位参与者关注2020年10月29号周四20:30-21:30,我们于"Speech Enhancement, Bandwidth Extension and Hearing Aids" Session下对本文的线上讲解。
在正文开始前,先给出对比样本,让大家直观收听下“低品质歌曲”在使用我们的音乐超分辨率算法后,生成的“高品质歌曲” :
『音乐超分辨率的意义』
对于高频的缺失的音频,听感上会比较”闷“,音频超分辨率技术可以丰富高频成分,让音频在听感上更加”亮“。音频超分辨率最早应用于语音 (speech) 领域,而我们首次将音频超分辨率使用到音乐 (music) 中来,针对音乐进行频带扩展之后,主观体验上可以清晰的感知到扩展之后的音频响度更大、更加清晰、听感更佳,给用户带来更优音质体验。特别针对曲库中存在一定量频谱高度过低的歌曲,比如年代久远的老歌、手机录制的歌曲等,其频谱高度比较低,音质效果差。音乐超分辨率技术可基于低频带生成高频带信号,使音频包含更多的信号分量,有效提高音质!
『音乐超分辨率的挑战』
音频超分辨率称为Audio Super Resolution或者Audio Bandwidth Extension,起步晚于图像超分辨率技术,业界对音频超分辨率的研究主要专注于时域或者频域,采样率16K,且绝大多数针对语音信号,少有针对音乐。对于通过音乐超分辨生成后的音频,需要满足失真少、听感自然、不引入额外杂音、MOS评分高等要求。
业界研究的音频超分辨率普遍在语音上展开,面向语音通话、VoIP、网络会议等场景。通过下表中语音与音乐音频的差异对比,更能说明针对音乐研发超分辨率技术的挑战。
语音 | 音乐 | |
---|---|---|
组成成分 | 单一 | 各乐器重叠 |
频谱建模难度 | 频谱结构分明,简单 | 频谱结构复杂,难 |
高频能量 | 稀疏 | 能量大 |
听感评价角度 | 可懂度 | 艺术欣赏 |
听者容忍度 | 高 | 低 |
表1:语音与音乐的差异对比
干声的时频谱 | 音乐的时频谱 |
---|---|
表2:干声与音乐在时频谱上的对比
『业界主流方法』
音频超分辨率在引入深度学习技术后,可通过DNN网络学习超分信号前后的相关性,总体来讲业界关于音频超分辨率主要有两种方法:
1. 时域插值 (interpolation): 在时域做“有效”插值,不同于resample;
2. 频域修复 (inpainting): 在频域由低频信息映射得到高频信息。
随着DNN技术的深入发展,按照时域或者频域两个方向,业界对音频超分辨率的研究越来越多,按照时间先后顺序现总结如下:
『相位干扰』
音乐频谱成分比语音相对更复杂,时域方案用在音乐中难以奏效,我们选用频域方案中的GAN [6,7] 作为Baseline,主要学习低频谱模到高频谱模的一种映射关系,然后使用ISTFT得到时域信号。但是针对ISTFT需要的高频相位信息,在目前业界的频谱方案中,普遍采用低频相位翻转的策略得到高频相位 [4,6,7,8]。然而翻转的相位会带来一定的影响,客观上会导致高频能量消减,主观上会引入明显的震铃声。业界对相位的研究比较少,经常被忽视,并且相位杂乱无章,建模预测难度非常大!本论文主要解决高频相位预测的问题。
『我们的解决方案』
本论文的核心就是解决音频超分辨率在频域方案中高频相位缺失的问题,首先关注了相位对音频超分辨率的影响,尤其是在音乐音频领域,创新提出通过改进Griffin-lim算法和Mel-GAN声码器来解决高频相位的缺失,整个系统框图如下:
更多技术细节,可访问arxiv一览我们的英文论文:
♬ https://arxiv.org/pdf/2010.04506
也可到GitHub收听经音乐超分辨率技术处理后的音频样本:
♬ https://github.com/tencentmusic/TME-Audio-Super-Resolution-Samples
欢迎在2020年10月29号周四20:30-21:30到"Speech Enhancement, Bandwidth Extension and Hearing Aids" Session观看我们的线上presentation:
♬ http://www.interspeech2020.org/Program/Technical_Program
参考文献:
[1] Kuleshov, Volodymyr, S. Zayd Enam, and Stefano Ermon. "Audio super resolution using neural networks." arXiv preprint arXiv:1708.00853 (2017).
[2] Gupta, Archit, et al. "Speech bandwidth extension with wavenet." 2019 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA). IEEE, 2019.
[3] Wang, Heming, and Deliang Wang. "Time-Frequency Loss for CNN Based Speech Super-Resolution." ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020.
[4] Li, Kehuang, and Chin-Hui Lee. "A deep neural network approach to speech bandwidth expansion." 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2015.
[5] Lim, Teck Yian, et al. "Time-frequency networks for audio super-resolution." 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
[6] Eskimez, Sefik Emre, and Kazuhito Koishida. "Speech super resolution generative adversarial network." ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019.
[7] Eskimez, Sefik Emre, Kazuhito Koishida, and Zhiyao Duan. "Adversarial training for speech super-resolution." IEEE Journal of Selected Topics in Signal Processing 13.2 (2019): 347-358.
[8] Li, Xinyu, et al. "Speech Audio Super-Resolution for Speech Recognition." INTERSPEECH. 2019.
[9] Kumar, Kundan, et al. "Melgan: Generative adversarial networks for conditional waveform synthesis." Advances in Neural Information Processing Systems. 2019.
点击下方阅读原文可直接浏览论文PDF
腾讯音乐QQ音乐/全民k歌招聘客户端、web前端、后台开发、音频检索算法研究员,点击查看原文投递简历!或邮箱联系: godjliu@tencent.com