随着未来 5G 移动互联网网络的飞速发展,语音交互将有可能取代键盘和触摸成为语音输入的主导方式。但生成的语音是否逼真自然,又如何进行评价呢?传统的评价方法往往局限于单独语句,而无法对整段生成语音的效果进行全面系统的评价。近日,谷歌研究人员对评价多行文本生成语音的几种方法做了对比,并给出了不同语音呈现方法下的平均意见得分(MOS)结果。
自动生成的语音无处不在,从驾驶中的人声导航,到手机上的虚拟助手,还有家中的智能扬声器设备。虽然为了使生成语音更加逼真而进行了大量研究与实验,例如为低资源语言(low-resource language,LRL)生成语音以及使用 Tacotron 2 创建模仿人类的语音,但如何评价生成的语音呢?找出答案的最好方法是询问那些能分辨出声音是否「以假乱真」的专业人士。
在语音生成领域,受试者常被要求听生成语音的样本并对其进行评分。然而截止目前,对生成语音效果的评价一直是基于单独的语句。但人们往往更想知道某一段生成语音的效果,例如新闻报道中的段落或一段对话。这就有趣了,因为有很多方法可以用来评价以自然语序呈现的句子,并且令人惊讶的是,这些不同的方法之间尚未进行过严格的比较。这反过来又会阻碍依赖生成语音的产品的研究进展。
为了应对这一挑战,谷歌在 SSW10 上发表了名为《Evaluating Long-form Text-to-Speech: Comparing the Ratings of Sentences and Paragraphs》的论文。研究人员在论文中对比了评价多行文本生成语音的几种方法。研究发现,当一个句子被评定为包含多个句子的长文本的一部分时,音频样本呈现给评价者的方式会对评价结果产生影响。例如,当句子单独出现时,人们给出的评级通常与他们在某些情境下听同一句话时所给出的评级大不相同(上下文不需要进行评级)。
论文地址:https://ai.google/research/pubs/pub48349
评价自动生成的语音
确定语音信号质量的通常做法是,让几个评价者对某一样本给出 1 到 5 的评级。该样本既可以是自动生成的,也可以是自然语音(即真人大声念出的句子)。对评价特定语音样本的所有人员给出的分数求平均值,然后得出 MOS。
截止目前,MOS 评级通常是逐句进行的,即评价者在听取独立的句子后给出他们的意见。研究人员提出以三种不同的方式将语音样本呈现给评价者——有上下文和无上下文——证明每种方法都会产生不同的结果。
- 第一种方法是单独呈现句子,这是该领域通常采用的默认方法;
- 另一种方法是为句子提供完整的上下文,即包括句子所属的整个段落,并对整体进行评级;
- 最后一种方法是提供一个上下文激励对。此时不提供完整的上下文,仅提供部分上下文,例如来自最初段落的前一句话。
有趣的是,即使在评价自然语音时,这三种不同的语音呈现方法也会产生不同的结果。
具体结果如下图所示,三种颜色分别代表使用三种不同方法评价自然语音样本的 MOS 分数。尽管接受评级的句子相同,但由于上下文的不同,相应得分也有所不同。
新闻报道 MOS 结果来自新闻数据集中的自然语音。虽然差异不大,但不同条件下的差异还是很重要(系数α= 0.05 的双尾 t 检验)。
从上图可以看出,即使是录制的真实人声,评价者也很少给出最高分(5 分)。然而,这是在句子评价研究中会出现的典型结果,这可能与一种常见的行为模式有关,即无论任务或设置怎样,人们往往避免给出极端评价。
在评价生成语音时,差异更明显。
同一新闻报道数据集的生成语音 MOS 结果。除非另有说明,否则以上均为生成语音。
为了查看上下文的呈现方式是否对评价结果产生影响,研究人员尝试了几种不同的方法:在要评价的句子前添加一至两个作为生成或真实语音的句子。当添加上下文时,分数变得更高(上图左侧四个蓝色条);若呈现的上下文是真实语音,则分数下降(上图最右侧蓝色条)。研究人员假设这与锚定效应(anchoring effect)有关——如果上下文非常好(真实语音),则生成语音相比之下就不太自然。
预测段落得分
当播放完整的生成语音段落(上图黄色条)时,会被认为较其他语音设定不自然。研究人员最初假设存在一个最薄弱的关联论证——评级结果可能与该段中最差的句子保持一致。如果是这种情况,应该很容易通过参照其中单个句子的评级来预测整个段落的评级,也许只采用最小值即可得到段落评级。然而事实证明,这种方法行不通。
最薄弱关联假设的失败可能是因为使用这种简单方法难以梳理更细节的因素。为了验证这一点,研究人员还训练了机器学习算法来基于单个句子预测段落得分。但是,这种方法也无法成功预测段落得分。
结论
当涉及多个句子时,生成语音的评价并不容易。单独评定句子的传统方法并不能给出全面的解读,并且在提供上下文的情况下评价者应注意锚定效应。因此,对完整段落进行评价可能是最保守的方法。研究人员希望他们的研究结果有助于推进长篇语音生成领域未来的研究,例如有声读物和会话智能体。