近日,国际声学、语音与信号处理领域顶级会议ICASSP举办的 2022 ADD挑战赛落下帷幕,贝壳人工智能技术中心语音团队从全球百余支队伍中脱颖而出,在“语音攻防对抗”赛道“生成”和“检测”两项任务中均斩获桂冠。
ICASSP(International Conference on Acoustics, Speech and Signal Processing)是由IEEE主办的信号处理及其应用方面的顶级会议,在全球具有广泛而权威的学术影响力。其中,语音深度合成鉴别挑战赛(The First Audio Deep Synthesis Detection Challenge, ADD 2022),是首个针对语音合成鉴别问题的国际挑战赛,由中科院自动化所陶建华研究员与新加坡国立大学李海洲教授联合发起,来自中国、美国、俄罗斯等15个国家的120余支知名AI研究队伍参赛。
本次ADD挑战赛分为低质量虚假语音检测(Low-quality fake audio detection, LF)、部分虚假语音检测(Partially fake audio detection, PF)和语音攻防对抗(Audio fake game, FG)三个赛道,贝壳AI语音团队参与了“语音攻防对抗”赛道,该赛道分为生成和检测两项子任务,其中,生成任务的主要目标是生成虚假音频对检测系统进行攻击,检测任务则是尽可能的从语音数据中检测出虚假语音。
在生成任务中,贝壳AI语音团队提出了一种时域对抗的语音转换系统。整个系统包括语音转换(VC)模块和时域对抗后处理模块。语音转换系统主要基于fastspeech-vc实现。训练阶段,原始音频通过瓶颈特征提取器(BNF)得到去掉说话人信息的瓶颈特征,该特征作为VC模型的输入,输出为梅尔谱特征,说话人信息用于控制模型生成特定音色。最后,HiFiGAN声码器将梅尔谱特征映射为时域信号。
时域对抗后处理模块主要包括残差生成网络和目标说话人声纹检测(ASV-TS)模型。残差生成网络输入为音色转换后的时域音频,通过对预训练好的ASV-TS模型进行白盒攻击生成残差扰动信号,该扰动与转换音频叠加即得到处理后的音频。结果表明,该方法生成的音频,欺骗能力显著提升。
自动说话人验证系统(Automatic Speaker Verification, ASV)已应用于各类场景,同时语音生成、语音转换以及录音回放等手段对ASV系统造成严重威胁,鉴伪系统主要用于判别对ASV的攻击行为。
在检测任务中,贝壳AI语音团队以创新性的神经网络拼接方案来搭建音频鉴伪系统,该系统主要基于Resnet-34、 Multi-Head Self-Attentive (MHSA)池化层和两层分类网络实现,在两层分类网络中使用MISH激活函数替代了传统的RELU激活函数,模型结构如下图所示:
训练阶段,采用频谱扰动,音频编码转换,谱增强等方法对数据进行处理后,提取80维LFCC特征作为模型输入。推理阶段,模型使用泛化性更好的第一层全连接层的输出作为分类特征,使用神经网络缝合的方式将第一层全连接层与分类层连接,最终输出预测结果。结果表明,鉴伪模型在各类伪造音频中具有更好的鲁棒性。
此外,贝壳AI语音团队提出的基于多模态语音交互的多系统联合唤醒方法还在ICASSP举办的“基于多模态信息的语音处理(MISP)”国际挑战赛的第一赛道——基于多模态信息的语音唤醒任务中取得第三名的佳绩。在两项挑战赛中,贝壳的三篇比赛论文均被ICASSP 2022认可与收录,将在ICASSP2022大会期间与全世界的科研工作者分享和交流技术方案,进一步促进学界中的理论发展。
贝壳AI语音团队是贝壳人工智能技术中心专注于智能语音技术的产研团队,研究范围覆盖语音识别、语音合成、语音唤醒、声纹识别、声音事件检测、语音分析等语音相关技术。目前已在智能家居、智能客服、服务管控等多个业务场景实现技术突破与落地。