一
报告导读
本次报告涉及虚拟人多模态合成技术的进展,主要对研发的DurIAN模型中的一些关键问题进行了解析,最后对虚拟人技术的应用前景进行了展望。
二
专家介绍
俞栋,IEEE Fellow,现任腾讯AI LAB(人工智能实验室)副主任、杰出科学家,语音处理和深度学习领域的专家深度学习开源软件 CNTK 的发起人和主要作者之一。目前已出版两本专著,发表两百多篇论文,引用超过25K次。他在语音处理上的两项开创性工作分别荣获了2013年和2016年IEEE 信号处理协会最佳论文奖。主要从事语音识别和深度学习等领域的研究。
三
报告内容
今天报告介绍的内容就是怎么样实现一个虚拟人,他能够代替主持人。多模态交互里面主要是三个组成部分:一个是多模态的输入,一个是多模态的输出,一个是多模态的推理和决策过程,今天主要介绍多模态的合成技术。
一般来讲,在合成过程中,首先拿到的是文本信息,经过文本分析之后,可以得到很多的推演出来的信息。比如需要什么样子的激动态度,需要什么地方有一定的停顿,需要用什么样的表情和动作,这些信息就通过后续的模型,同步合成语音、动作、表情、口形,展示给大家的就像刚才解释的是真人的多模态的输出。如果你愿意使用卡通的,就会是一个卡通的多模态输出。
今天主要介绍一下最近开发的用于多模态合成的技术DurIAN。最近几年里,语音合成技术也有很大的发展,很多模型在业界引起很大的轰动,它们一个重大的特点是合成非常自然的语音。但是这些模型都有一些弱点,比如有的非常慢,有的经常出现漏词、重复的现象。我们这个模型最主要的创新点,结合传统的语音合成技术和基于神经网络的语音合成技术,使用DurIAN模型来替换原有的模型。一个是保证原有模型里面高自然度的合成效果,同时能够完美解决漏词和重复的问题。另外,还能通过比较好的技术做配合,使之在系统里面进行实时展现。
如果仅仅是把模型替换,还是有跟其它端到端模型的类似问题,就是在训练比较接近的合成词里面,效果比较好。但是一旦让它合成原有种类不太一样的句子,效果就很差,它的鲁棒性就有一定问题。要提高系统的鲁棒性和泛化能力,需要充分利用语料里面获取的语言学知识。最常见的,比如词的边界,韵律词短语的边界等,把这些信息结合到系统里面,我们开发一条新的技术叫做“skip input”,基本做法就是把底层的知识逐层传上去,但是边界信息只是一个时间点,不具有时间长度的信息,所以最后输出的时候再把那一层去掉,可以充分结合从文本里获取语言信息和模拟本身的高质量合成能力,使之具有很好的鲁棒性和泛化能力。
DurIAN发音的自然度会比传统的虽然也是神经网络的但是没有利用架构的系统有很大提升,在鲁棒性和泛化能力上比原来的模型有很大提升。
在很多实用系统里面,除了能够直接合成高质量度的语音之外,还希望有很大的控制能力。比如在一些对话的系统里面,就希望在不同的时候用不同的方式讲话,然后在视频解说的过程中,可能会根据环境,比如比赛的激烈程度,可能有不同激烈程度的解说,这都需要有一定的控制能力。我们就开发一种比较简单的做法,由于在标注语调里面非常难直接标注不同程度的激动,所以我们在技术上面采用的方法,使得在标注的时候,只需要标注是正常还是激动,系统就能够学习激动相对应的方向矢量,方向矢量上做增益,就可以有效控制它的精细合成。
这里有两个例子,左边这个是对激动程度乘上不同的系数,使之平稳控制激动程度。先请点击一下左边的圆圈,可以非常精细地控制它的精细程度,合成效果上有很大好处右边这个是在语料里面的训练只有正常跟一般的激动,但是通过这个方法可以合成非常激动的语料。它的激动成为远远超过在平常语调中能够获得的激动程度。
另外为了使这样的系统能够使用,后端是个非常重要的东西,如果选不好的话音质会受到影响。最近又提出了一些新的技术,比如WaveRNN,就是比较好的质量和速度的技术,但是还不够快。所以这里就提出一种新的做法,把语音的信号先分频段,然后再合成的过程中,用同一个神经网络,同步合成多个频段,然后再把合成的频段在后端用信号处理的方式拼回去,就可以有很大的速度提升。在不做任何的工程优化,直接用浮点运算,经过八段可以实时RTF的值从0.3做到0.4,工程优化可以从0.3做到0.1,使速度达到10倍的实时。
DurIAN模型的多模态合成,由于它的信息是在音频和视频里面共享,我们就能比较容易做到音视频同步,在口形表情和动作上就有很大的作用。后端可以接卡通形象的口形驱动,也可以接真人的口形驱动。
后面是我一出场的时候介绍我自己的两维的真人的虚拟人的技术,基本的做法是把人头部的主要部分建模,然后合成里面需要跟语音同步的部分,比如口形、表情,再跟背景,包括头发、衣服、动作做融合,就能够以比较少的计算量实时合成真人的虚拟人的表情动作。
总结一下,我刚才介绍了我们在虚拟人里面多模态合成的进展,DurIAN这个模型有比较好的自然度和鲁棒性,比较强的泛化能力,同时能够比较好的控制合成效果,合成速度能够达到非常实时。像这样的技术是有广泛使用场景的,最常见的虚拟偶像,刚才展示的是虚拟解说,可以有虚拟前台、虚拟教师,有非常广阔的应用场景。