论文地址: http://arxiv.org/pdf/2001.04463v1.pdf
代码: 公众号回复:09000322946
来源: 卡耐基梅隆大学,北京大学
论文名称:Unsupervised Any-to-Many Audiovisual Synthesis via Exemplar Autoencoders
原文作者:Kangle Deng
内容提要
我们提出了一种无监督的方法,使我们能够将任何一个人的语音输入转换为可能无限多的扬声器的输出集,也就是说,一个人可以站在麦克风前,并能够让他们喜欢的名人说同样的话。我们的方法建立在简单的自动编码器上,它将样本外的数据投影到训练集的分布(由PCA/线性自动编码器驱动)。我们使用一个范例自动编码器来学习目标演讲者的声音和特定风格(情感和氛围)。与现有的方法相比,所提出的方法可以很容易地在很短的时间内扩展到任意数量的扬声器,只需要使用来自扬声器的2 - 3分钟的音频数据。我们还展示了我们的方法从音频信号生成视频的有效性,反之亦然。
主要框架及实验结果
声明:文章来自于网络,仅用于学习分享,版权归原作者所有,侵权请联系删除。