妈耶，摆脱机器音，二次宅的歌姬女友彻底活了

二次宅们，你们的虚拟歌姬女友/偶像可以真正出道了。

最近，一家日本公司展示了他们在虚拟歌姬上使用的新开发语音合成技术，效果惊艳，几乎听不出虚拟歌姬歌声中那“面瘫”式的机械音，现在的歌声有起承转合，有气息声，更有力度，能让你在脑海中自然脑补它的表情。

这项语音合成技术目前可以支持日语、中文和英语。先放出两个技术演示视频，你感受下每段视频里旧技术、新技术以及新技术合成后的比对效果。

引用网友克制的评价就是“延伸高频低频，衔接连贯柔和”，近乎人声啊。

对了，听出来是哪位歌姬的声音了吗？佐藤莎莎拉，这个在 2013 年面世的姑娘，近几年已经鲜少有它的新闻了，但这次随着 AI 语音合成的出现，让宅男们大呼“老婆重生了”。

等不及了，再来欣赏一曲中文版的《爱情转移》：

是不是觉得要甩人类的修音歌手好几条街？skr.

反正大部分激动的二次宅朋友们“疯辽”，一眼望去，评论全部都是目瞪口呆jpg.

如此让二次宅感到炸裂的技术究竟如何做到，幕后操作者又是谁？

一个基本事实是，虚拟歌姬佐藤莎莎拉是日本 CeVIO 公司在 2013 发布的 CeVIO Creative Studio 声音创作软件中的虚拟角色。

公开资料显示，CeVIO Creative Studio 是基于 hts engine 引擎作成的新型语音和歌唱合成的软件，在算法本质上与 VOCALOID & UTAU 等软件的大声库“拼接算法”不同，因此只是较小的声库，但语音和歌唱可以简单而自然地合成，语音合成可以调整参数使虚拟歌姬说话更加接近人声，此外，还会自动加入呼吸声并自动调教。

但这次的技术应该是基于新版的合成引擎，由 CeVIO 的开发方 Techno-Speech 公司与名古屋工业大学国际音声言语技术研究所共同合作。Techno-Speech 在官方新闻稿中称，通过深度学习技术学习特定歌唱者的声质、语癖、演唱风格，并进行合成使之可以演唱任意的歌词和乐谱，只需歌唱者进行约 2 个小时的演唱就可以获取数据。

云知声 AI labs 研发总监告诉 AI科技大本营，上述音频中旧的语音样例应是传统参数合成技术，缺点是合成声音的质量低，机械音较明显。而新语音样例借助深度学习技术，使得参数建模精度有明显提升，同时，可能使用最新的 WaveNet 声码器，使得合成音质有明显的提升。

另外，与合成自然说话的声音相比，合成歌声的技术要求是不是更高？

上述语音合成专家表示，两者都是数据驱动，但歌唱合成的韵律变化性反而没有自然说话时变化多端，这对数据量的要求也相应要小。歌唱合成需要很精准的韵律恢复，输入的是乐谱，而乐谱中已有很明确的韵律描述，比如某个字应该发多长音、发什么调，都可以通过规则计算出来，并根据结果对合成语音进行调整，从而不会有走调现象。反之，如果韵律恢复不准确，就会有明显走调现象。

至于新合成技术更详细的研究成果，Techno-Speech 公司将在 2019 年 3 月的日本声学学会春季会议上进行公布。Techno-Speech 公司还称，届时虚拟歌姬的歌唱水平会有飞跃性的提升。此外，该技术可能的应用还包括以下八个方面：

艺术家歌声的复现（包括死者的声音）
用于音乐制作和游戏开发
虚拟 YouTubers 的视频流/直播活动
虚拟演员的后期录制系统
AI 或语音对话系统的发声模块
为外语/歌唱教育生成灵活的参考语音
用于 ALS 或喉癌患者的语音设备
护理设施的数字标牌

从作词、作曲到演唱，AI 技术带来的能量毋庸置疑。

也许你还记得去年 9 月底微软小冰 diss 传统虚拟歌姬的事，当时前者高调宣称后者的技术过时，虚拟歌姬的调教技巧将不再具有价值，这引起了 V 家粉丝的集体抵制并迫使小冰道歉。

虽然这是营销层面的问题，但在技术上，新旧技术并不完全割裂，而是相互融合，深度技术的使用可以节省调教师的很多时间。或许，我们也会很快看到初音未来、洛天姬等虚拟歌姬靠 AI 技术迎来突破。

上个月，一位日本 35 岁青年与虚拟女友初音未来举办了婚礼，结婚理由是被 MIKU 的歌声治愈，遇到 MIKU 随即坠入“爱河”，十三年来不曾变心。

要是其他虚拟歌姬都有了现在这样细腻的歌声，二次宅们不更疯狂？有点不敢想。

（*本文为 AI科技大本营原创稿件，转载请联系微信 1092722531）

语音合成

0 人点赞