新智元编译
来源:thenextweb.com
翻译:肖琴
【新智元导读】Facebook人工智能实验室(FAIR)的研究人员近日发布了一个能够将音乐从一种风格、流派或乐器转换成另一种的神经网络,其表现非常优异,所创作的音乐足以骗过人类。这是第一个利用神经网络,用无监督学习的方法重建高保真音乐的AI。
论文地址:
https://arxiv.org/pdf/1805.07848.pdf
Facebook人工智能实验室(FAIR)的研究人员近日发布了一个能够将音乐从一种风格、流派或乐器转换成另一种的神经网络。很快,你可以不用自己吹圆号,你可以直接吹口哨给AI,它会把你的口哨歌变成你理想中的交响乐或舞曲。
AI需要一个输入,比如将一首交响乐团演奏的巴赫作为输入 ,然后将其转换为其他风格,例如,贝多芬风格的钢琴演奏的同一首曲子。
下面的音频展示了多个不同音乐流派的转换,不看字幕,你能听出来哪些是原版音乐,哪些是AI生成的吗?
FAIR是第一个利用神经网络,用无监督学习的方法重建高保真音乐的AI研究团队。
研究团队在论文中写道:
据我们所知,我们的结果的表现是前所未闻的。当被要求将一种乐器转换成另一种乐器时,我们的网络的表现与专业的音乐家不相上下或略逊一筹。很多时候,人们很难分辨哪个是原始音频文件,那个是AI模拟另一种的乐器的输出。
这样令人难以置信的逼真度是通过教一个神经网络如何自动编码音频实现的。就AI而言,它只是将一堆噪音变成听起来不同的另一堆噪音——但不要称之为风格迁移。
图1:网络架构
研究团队说:“我们将这个工作与风格迁移区分开来,并且不尝试使用风格迁移的方法,因为我们认为,钢琴演奏的旋律与合唱团所唱的旋律不同,除了音质上的不同之外。这个映射必须在更高层级进行,并且修改也不是简单的局部修改。”
AI转换音乐风格的结果质量评估
FAIR使用的方法是一种复杂的自动编码方法,它能让网络处理来自训练中从未处理过的输入音频。 它不是尝试匹配音高,或记忆音色,而是一种无监督的学习方法,使用高级语义解释。
可以说这是过去几年里关于“人工智能能做到多好”的另一个例子。其他音乐AI的例子更像是制造噪音,它们制造的大多更像是抽象的声音,可以被合理地解释为音乐,但离真正的音乐仍然很远。我们认为,这是第一个可能被误认为是真人演奏的音乐AI。