“惊蛰春雷响,农夫闲转忙”,搬砖的小伙伴们也忙起来吧~~
引言
本文“Face-To-Face Translation”是指的要建立这么一个系统:它能够自动地将说a语言的人的视频翻译成目标语言B,并实现唇同步。简单来说就是:视频中有一个人说话,将这个人说的英语实时的翻译成中文并且将说英语的嘴型也通过图像的方法翻译成中文的嘴型。
其实这篇文章主要的就是把各个应用模型(ASR模型、NMT模型、TTS模型、嘴型生成模型)结合到一块,最终完成嘴型到嘴型的翻译。(真是翻译一条龙~~)。不过有点遗憾的就是没有中文的,但作者把源码开放了,感兴趣的小伙伴可以下载下来玩一玩。
最后,最后,最后,喜欢的话给作者个在看吧,谢谢~~
正文开始
1
First Blood
TILE: Towards Automatic Face-to-Face Translation.
Contributor : IIIT-H(印度有名研究机构)
Paper:https://arxiv.org/pdf/2003.00418v1.pdf
Code:https://github.com/Rudrabha/LipGAN
Video:https://github.com/Rudrabha/LipGAN
文章摘要
在这项工作中,我们为这个问题创建了一个自动管道,并演示了它在多个实际应用程序中的影响。首先,我们将语音和语言的多个现有模块整合在一起,构建了一个可工作的语音到语音的翻译系统。然后,通过结合一个新颖的视觉模块LipGAN,从翻译的音频中生成真实的说话面孔,朝着“Face-To-Face Translation”的方向发展。在标准LRW测试集上对LipGAN的定量评估表明,它在所有标准度量上都显著优于现有方法。我们还对我们的面对面翻译管道进行了多次人工评估,结果表明,它可以显著改善跨语言使用和与多模态内容交互的整体用户体验。
文章背景介绍
近年来NMT系统的成功不仅影响了纯文本到文本的翻译,而且在语音到语音的翻译系统中起着举足轻重的作用。但是当我们与他人交流的时候很大一部分是口头的。通过级联语音识别、神经机器翻译和语音合成模块,当前的系统可以为给定的语音输入源生成翻译后的语音输出。在本文进一步扩展这条研究线至视觉模块,它可以大大拓宽范围和加强现有的语音翻译系统的用户体验。
当今的大多数信息流正日益成为视听化的。现有的系统只能在语音到语音的级别上翻译这些视听内容,因此存在一些主要的限制。首先,翻译后的声音听起来与原声非常不同。但更重要的是,生成的语音直接叠加在原始视频上产生不同步的嘴唇运动,导致不良的用户体验。因此,本文在语音对语音翻译系统的基础上,提出了一种管道,它可以拍摄一个人用源语言说话的视频,并输出同一个说话人用目标语言说话的视频,这样语音风格和唇动就可以证明目标语言是正确的。通过这样做,翻译系统变得整体化,并且如我们在本文中的人工评估所示,显著改善了用户在创建和消费翻译的视听内容方面的体验。
本文管道的主要工作模式是:首先将LA(语言A)语音通过语音识别转换成文本,然后通过NMT将文本转换成LB(语言B)文本,然后再利用语音合成模块将LB转换成语音。最后,本文设计了一个新的生成性对抗网络LipGAN,在这个网络中,我们使用了一个对手来测量由生成器生成的帧中嘴唇同步的程度。此外,我们的系统能够处理随机姿态下的人脸,而无需重新对准模板姿态。本文方法可以从任何不依赖语言的音频中生成逼真的人脸视频。
文章主要内容
(1)首次设计并训练了一个处理流水,以解决“Face-To-Face Translation”问题。我们的系统可以自动地将一张会说话的人脸翻译成一种给定的目标语言,并具有逼真的嘴唇同步。
(2)提出了一个新的模型LipGAN,它可以生成任何语言中基于音频的真实说话面孔。我们的模型在定量和基于人的评估方面都优于现有的方法。
(3)在创建“Face-To-Face Translation”管道的过程中,结合了该领域的最新进展,实现印地语-英语语言对中最先进的神经机器翻译结果。
语音到语音翻译流程介绍
语言A(LA)语音识别:使用公共可用的最先进的ASR系统来生成语言LA中的文本。使用Deep Speech 2的公共可用的预训练模型被用于英语语音识别。一旦我们有了源语言识别文本,我们就使用NMT模型将其翻译成目标语言。
LA文本翻译成LB文本:为了实现将LA的文本转换成LB的文本(这里LA为英语,LA为印地语),创建一个对印地语和英语都适用的nmt系统,我们通过训练一个多路模型来实现最大化学习。
语言B(LB)语音的生成:对于我们的印地语文本-语音模型(TTS),采用了Ping等人提出的DeepVoice 3模型重新实现。由于印度语缺乏大规模的公共数据集,我们通过从抓取的新闻文章中记录印地语句子来管理一个类似于LJSpeech的数据集。我们采用了DeepVoice 3的nyanko-build 5实现来训练我们的印地语TTS模型。
个性化的发言人:说话者的声音是她的声学身份的关键因素之一。由于我们的TTS模型仅在单个语音中生成音频样本,因此我们对该语音进行个性化处理以匹配不同目标扬声器的语音。由于为同一说话者收集跨语言的并行训练数据是不可行的,因此我们采用CycleGAN体系结构来解决这个问题。。
会说话的人脸生成(LipGAN)
给定一个包含主题身份的人脸图像I和一个被分成一系列语音片段的语音
,想要设计一个模型G,它生成一系列的帧
包含面部说话音频A与适当的唇同步。
我们在一个直观的GAN设置中训练我们的LipGAN网络。该生成器根据音频输入生成人脸图像。鉴别器检查生成的帧和输入的音频是否同步。在训练鉴别器的同时,还提供额外的原始真实同步/不同步样本,以提高鉴别器嘴型同步检查能力。
实验结果(LipGAN)
当不同的模型试图说出最后一行中显示的单词的特定片段时,所生成的面孔的视觉比较。
与这些词片段相对应的音频片段从引导视频中提取出来,并输入到上述比较的每个模型中。从上到下:(a) Zhou等人,(b) Chung等人,我们的LipGAN模型。
实验结果(整个流程结果分析)
结果提出了三个主要的结论。首先,我们发现语音到语音自动翻译系统的每个模块都有很大的改进空间。未来语音和文本翻译系统的改进将提高用户的学习分数。其次,再次通过人工配音后的唇同步来提高用户的分数,验证了LipGAN模型的有效性。最后,请注意,添加我们的每个自动模块都会增加用户体验得分,并强调对每个模块的需求。我们完整的提议系统在很大程度上改善了传统的基于文本和基于语音的翻译系统的整体用户体验。