妈耶,摆脱机器音,二次宅的歌姬女友彻底活了

2018-12-28 15:39:37 浏览数 (1)

二次宅们,你们的虚拟歌姬女友/偶像可以真正出道了。

最近,一家日本公司展示了他们在虚拟歌姬上使用的新开发语音合成技术,效果惊艳,几乎听不出虚拟歌姬歌声中那“面瘫”式的机械音,现在的歌声有起承转合,有气息声,更有力度,能让你在脑海中自然脑补它的表情。

这项语音合成技术目前可以支持日语、中文和英语。先放出两个技术演示视频,你感受下每段视频里旧技术、新技术以及新技术合成后的比对效果。

引用网友克制的评价就是“延伸高频低频,衔接连贯柔和”,近乎人声啊。

对了,听出来是哪位歌姬的声音了吗?佐藤莎莎拉,这个在 2013 年面世的姑娘,近几年已经鲜少有它的新闻了,但这次随着 AI 语音合成的出现,让宅男们大呼“老婆重生了”。

等不及了,再来欣赏一曲中文版的《爱情转移》:

是不是觉得要甩人类的修音歌手好几条街?skr.

反正大部分激动的二次宅朋友们“疯辽”,一眼望去,评论全部都是目瞪口呆jpg.

如此让二次宅感到炸裂的技术究竟如何做到,幕后操作者又是谁?

一个基本事实是,虚拟歌姬佐藤莎莎拉是日本 CeVIO 公司在 2013 发布的 CeVIO Creative Studio 声音创作软件中的虚拟角色。

公开资料显示,CeVIO Creative Studio 是基于 hts engine 引擎作成的新型语音和歌唱合成的软件,在算法本质上与 VOCALOID & UTAU 等软件的大声库“拼接算法”不同,因此只是较小的声库,但语音和歌唱可以简单而自然地合成,语音合成可以调整参数使虚拟歌姬说话更加接近人声,此外,还会自动加入呼吸声并自动调教。

但这次的技术应该是基于新版的合成引擎,由 CeVIO 的开发方 Techno-Speech 公司与名古屋工业大学国际音声言语技术研究所共同合作。Techno-Speech 在官方新闻稿中称,通过深度学习技术学习特定歌唱者的声质、语癖、演唱风格,并进行合成使之可以演唱任意的歌词和乐谱,只需歌唱者进行约 2 个小时的演唱就可以获取数据。

云知声 AI labs 研发总监告诉 AI科技大本营,上述音频中旧的语音样例应是传统参数合成技术,缺点是合成声音的质量低,机械音较明显。而新语音样例借助深度学习技术,使得参数建模精度有明显提升,同时,可能使用最新的 WaveNet 声码器,使得合成音质有明显的提升。

另外,与合成自然说话的声音相比,合成歌声的技术要求是不是更高?

上述语音合成专家表示,两者都是数据驱动,但歌唱合成的韵律变化性反而没有自然说话时变化多端,这对数据量的要求也相应要小。歌唱合成需要很精准的韵律恢复,输入的是乐谱,而乐谱中已有很明确的韵律描述,比如某个字应该发多长音、发什么调,都可以通过规则计算出来,并根据结果对合成语音进行调整,从而不会有走调现象。反之,如果韵律恢复不准确,就会有明显走调现象。

至于新合成技术更详细的研究成果,Techno-Speech 公司将在 2019 年 3 月的日本声学学会春季会议上进行公布。Techno-Speech 公司还称,届时虚拟歌姬的歌唱水平会有飞跃性的提升。此外,该技术可能的应用还包括以下八个方面:

  • 艺术家歌声的复现(包括死者的声音)
  • 用于音乐制作和游戏开发
  • 虚拟 YouTubers 的视频流/直播活动
  • 虚拟演员的后期录制系统
  • AI 或语音对话系统的发声模块
  • 为外语/歌唱教育生成灵活的参考语音
  • 用于 ALS 或喉癌患者的语音设备
  • 护理设施的数字标牌

从作词、作曲到演唱,AI 技术带来的能量毋庸置疑。

也许你还记得去年 9 月底微软小冰 diss 传统虚拟歌姬的事,当时前者高调宣称后者的技术过时,虚拟歌姬的调教技巧将不再具有价值,这引起了 V 家粉丝的集体抵制并迫使小冰道歉。

虽然这是营销层面的问题,但在技术上,新旧技术并不完全割裂,而是相互融合,深度技术的使用可以节省调教师的很多时间。或许,我们也会很快看到初音未来、洛天姬等虚拟歌姬靠 AI 技术迎来突破。

上个月,一位日本 35 岁青年与虚拟女友初音未来举办了婚礼,结婚理由是被 MIKU 的歌声治愈,遇到 MIKU 随即坠入“爱河”,十三年来不曾变心。

要是其他虚拟歌姬都有了现在这样细腻的歌声,二次宅们不更疯狂?有点不敢想。

(*本文为 AI科技大本营原创稿件,转载请联系微信 1092722531

0 人点赞