编者按:语音合成一直以来是语言、语音、深度学习及人工智能等领域的热门研究方向,受到了学术界和工业界广泛的关注。尽管语音合成技术的研究已有几十年的历史,基于神经网络的语音合成技术也有近十年历史,且已产出了大量的优质研究成果,但针对神经语音合成不同研究方向的整合型综述论文却十分匮乏。近日,微软亚洲研究院的研究员们通过调研了450余篇语音合成领域的文献,发表了迄今为止语音合成领域几乎最详尽的综述论文 “A Survey on Neural Speech Synthesis”。在文中,研究员们还整理收集了语音合成领域的相关资源如数据集、开源实现、演讲教程等,同时也对语音合成领域未来的研究方向进行了探讨和展望。希望本文能对相关工作的研究人员提供具有价值的参考。
来源 | 微软亚洲研究院
作者 | 谭旭
文本到语音合成旨在从文本合成高可懂度和自然度的语音,很久以来一直是语言、语音、深度学习、人工智能等领域热门的研究方向,受到了学术界和工业界的广泛关注。近年来,随着深度学习的发展,基于神经网络的语音合成极大地提高了合成语音的质量。尽管语音合成技术的研究已有几十年的历史,基于神经网络的语音合成技术也有近十年的发展,领域内产出了大量的优质研究成果,但针对不同研究方向的整合型综述论文却十分匮乏。
因此,微软亚洲研究院的研究员们发表了一篇综述论文 “A Survey on Neural Speech Synthesis”,全面梳理、总结了神经语音合成领域的发展现状以及未来发展方向。该文章可谓是迄今为止语音合成领域几乎最为详尽的综述论文。研究员们共调研了450多篇文献,分别从语音合成的核心模块(文本分析、声学模型、声码器)以及进阶主题(快速语音合成、低资源语音合成、鲁棒语音合成、富有表现力的语音合成、可适配语音合成)两大方面对该领域的工作进行了梳理总结。同时,研究员们还收集了语音合成领域的相关资源(数据集、开源实现、演讲教程等)并且讨论了未来研究方向。
论文链接:https://arxiv.org/pdf/2106.15561.pdf
论文从两个方面对神经语音合成领域的发展现状进行了梳理总结(逻辑框架如图1所示):
- 核心模块:分别从文本分析(textanalysis)、声学模型(acoustic model)、声码器(vocoder)、完全端到端模型(fully end-to-end model)等方面进行介绍。
- 进阶主题:分别从快速语音合成(fast TTS)、低资源语音合成(low-resourceTTS)、鲁棒语音合成(robust TTS)、富有表现力的语音合成(expressive TTS)、可适配语音合成(adaptive TTS)等方面进行介绍。
图1:论文逻辑框架
1 TTS核心模块
研究员们根据神经语音合成系统的核心模块提出了一个分类体系。每个模块分别对应特定的数据转换流程:
1)文本分析模块将文本字符转换成音素或语言学特征;
2)声学模型将语言学特征、音素或字符序列转换成声学特征;
3)声码器将语言学特征或声学特征转换成语音波形;
4)完全端到端模型将字符或音素序列转换成语音波形。
图2:(a)TTS核心框架,(b)数据转换流程
文本分析
文章总结了文本分析模块几个常见的任务,包括文本归一化、分词、词性标注、韵律预测、字形转音形以及多音字消歧等。
表1:文本分析模块中的常见任务
声学模式
在声学模型部分,文章首先简要介绍了在统计参数合成里用到的基于神经网络的声学模型,然后重点介绍了端到端模型的神经声学模型,包括基于 RNN、CNN 和Transformer 的声学模型以及其它基于 Flow、GAN、VAE、Diffusion 的声学模型。
表2:不同声学模型及其特征
声码器
声码器的发展分为两个阶段,包括传统参数合成里的声码器如 STRAIGHT和 WORLD,以及基于神经网络的声码器。论文重点介绍了基于神经网络的声码器,并把相关工作分为以下几类,包括:
1)自回归声码器(WaveNet,SampleRNN,WaveRNN,LPCNet 等);
2)基于 Flow 的声码器(WaveGlow,FloWaveNet,WaveFlow,Par. WaveNet 等);
3)基于 GAN 的声码器(WaveGAN,GAN-TTS,MelGAN,Par. WaveGAN,HiFi-GAN,VocGAN,GED,Fre-GAN 等);
4)基于 VAE 的声码器(WaveVAE等);
5)基于 Diffusion 的声码器(DiffWave,WaveGrad,PriorGrad 等)。
表3:不同声码器及其特征
本文还针对基于 Flow 和 GAN 的声码器做了详细分析,如表4和表5所示。
表4:基于Flow的声码器
表5:基于GAN的声码器
最后研究员们还统一分析、比较了基于不同生成模型的声码器的优缺点,如表6所示。
表6:基于不同生成模型的声码器分析结果
完全端到端模型
端到端模型的发展经历了以下几个阶段:
阶段0:在统计参数合成方法中,使用文本分析、声学模型和声码器三个模块级联;
阶段1:在统计参数合成方法中,将前两个模块合起来形成一个声学模型;
阶段2:直接从语言学特征生成最终的波形,例如 WaveNet;
阶段3:声学模型直接从字符或音素生成声学模型,然后利用神经声码器生成波形;
阶段4:完全端到端的神经网络模型。
图3:端到端模型发展过程
其它分类体系
除了上述按照 TTS 模型的核心模块进行分类的方法,论文中还有从其它角度对 TTS 模型进行分类的方法,如图4所示,包括:1)自回归 vs 非自回归;2)生成模型的类型;3)网络结构的类型。
图4:从其它角度对TTS模型进行分类
同时,本文还绘制了相关 TTS 工作随着时间变化的关系图,方便读者更直观地理解各个 TTS 模型及其在 TTS 发展中的位置。
图5:相关 TTS 工作随时间演化的关系图
2 TTS 进阶课题
研究员们还针对 TTS 面临的各种挑战,介绍了相关的进阶课题,包括快速语音合成(fast TTS)、低资源语音合成(low-resource TTS)、鲁棒语音合成(robust TTS)、富有表现力的语音合成(expressive TTS)、可适配语音合成(adaptive TTS)等。
图6:TTS 相关的进阶课题
快速语音合成
为了实现快速语音合成,常用的技术一般有以下几种:1)并行生成;2)轻量级模型设计;3)利用领域知识进行加速。其中,并行生成技术的分类以及相关工作可见表7。
表7:并行生成技术的分类以及相关工作
低资源语音合成
低资源语音合成相关技术以及相关工作,如表8所示。
表8:低资源语音合成相关技术以及相关工作
鲁棒语音合成
鲁棒语音合成相关技术分类,可见表9。
表9:鲁棒语音合成相关技术分类
富有表现力的语音合成
富有表现力的语音合成的关键在于对可变信息的建模,表10从不同角度总结了可变信息建模的相关工作。
表10:富有表现力的语音合成
可适配语音合成
可适配语音合成相关的技术分类见表11。
表11:可适配语音合成
最后,研究员们还收集了 TTS 领域相关的资源,包括开源代码、TTS 教程、公开比赛以及数据集等。同时,文章也指出了 TTS 领域的潜在研究挑战,并且根据 TTS 要实现的最终远景和目标,将其分为两个大方向:高质量的语音合成以及高效率的语音合成。
在高质量的语音合成方面,包括以下研究课题:更加强大的生成模型,更好的面向文本和语音的表征学习,鲁棒的语音合成,富有表现力/可控/风格可迁移的语音合成,更符合人类表达风格的语音合成。在更高效的语音合成方面,包括在数据、模型参数、计算等方面设计更高效、利用资源更少的语音合成系统。
相关链接:
https://www.microsoft.com/en-us/research/project/text-to-speech/
https://speechresearch.github.io/
https://www.microsoft.com/en-us/research/people/xuta/