Attention,Tacotron,WaveNet和LPCNet声码器等前沿方法详解

2021-06-09 19:13:25 浏览数 (1)

作为语音交互的出口,语音合成是语音助手、车载导航、智能音箱、智能玩具、机器人等应用的必备功能,其效果直接影响人机交互的体验。此外,语音合成在AI音频内容创作与生成上也具有巨大的应用潜力:AI听书、AI电台、虚拟主播等均需要自然流畅、多样化、表现力、个性化的语音合成技术。

(语音合成应用)

尽管语音合成的技术应用越来越广泛,市场越来越大,但是鲜有能够掌握语音合成原理,并能很好地应用在实际开发中的人才,这是什么原因呢?!

1. 传统的语音合成技术落地困难,中小型企业玩不起!

传统语音合成是基于拼接和参数合成技术,在实现上对复杂流水线具有很强的依赖。比如以文本分析为前端的语言模型、语音持续时间模型、声学特征预测模型、将频谱恢复成时域波形的声码器(vocoder),这些组件都是基于大量领域专业知识,设计上很艰难,需要投入大量工程努力,对于手头资源有限的中小型玩家来说,这种“高大上”的技术似乎有些玩不起。更何况效果上同真人语音的自然度尚有一定差距!

不过,随着技术的发展迭代,端到端的语音合成技术逐渐出现了。

DeepMind团队提出了WaveNet合成系统,使用dilated causal convolution技术来增加CNN的receptive field,从而提升了模型建模long dependency的能力;Google提出了Tacotron系统,目前已成为最流行的基于深度学习的端到端语音合成模型,合成语音效果能够接近真人发音的水平。

Tacotron模型结构

技术的更迭越来越快,Attention,Self-Attention,Transformer,Fastspeech及基于Flow/GAN的Neural Vocoder等等新的算法的融合、新技术的应用,层出不穷!

伴随而来的学习问题,也成了缺少语音合成技术人才的重要原因之一。

2. 学习资料不系统,很难掌握扎实

虽然端到端技术能让中小型玩家入局语音合成,但有志向想在语音合成领域深耕的伙伴在入门学习的时候可能就已经被绊倒了!

很多伙伴在学习语音合成技术时,更多的是通过查阅资料了解前沿技术,而通过论文及博客文章的点式学习,无法构成完整的知识面;同时目前系统性学习语音合成的教程又极为匮乏,系统性讲解动手实践内容的资料更为少见,系统学懂原理极为困难;即使懂了理论原理,由于缺乏系统理解,在实践过程中也不知道从哪里入手,真正落地更是难上加难!

基于此,深蓝学院推出『语音合成:基础与前沿』课程,课程以系统全面的知识讲解和精心设计的动手实践,让语音合成学习者掌握扎实系统的专业知识,同时培养良好的工程实战能力。

讲师团队

课程大纲

(点击查看大图)

实践项目

(点击查看大图)

学后收获

1. 掌握传统语音合成系统中文本正则化、分词、注音、韵律预测等前端子模块的作用以及基于BLSTM CRF的方法;

2. 掌握传统语音合成系统中主流后端算法,包括基于HMM/NN的统计参数模型,以及基于单元拼接的方法;

3. 领悟基于Attention的序列到序列算法的思想,掌握Tacotron模型的细节;

4. 深入了解更适合语音任务的Attention机制及其应用;

5. 熟悉基于WaveNet的神经网络声码器以及WaveRNN和LPCNet声码器的原理。

还能收获

1. 优质的学习圈子

伙伴们大多是来自985、211及海外院校硕博,在这里大家一起学习、进行讨论与研究。独一无二的优质圈子将是你未来学习与就业的宝贵资源。

(学员院校/企业展示)

2. 企业认可的证书

学完课程后将有机会收获优秀学员证书、毕业证书,为你的简历加分添彩。

0 人点赞