下一个「洛天依」的打造任务，交给你了

机器之心原创

作者：张倩

虚拟歌手越来越出圈的今天，自己开发一个 APP 合成歌声已经不是什么难事了。

对于虚拟歌手洛天依的粉丝来说，2022 年 7 月 12 日是一个大日子。这一天，他们聚集在世界各地的屏幕前，陪自己的偶像度过了诞生十周年纪念日。这场历时 3 个多小时的直播演唱会人气直破千万。

图源：https://b23.tv/v290sOn

历时十年经久不衰，这是很多人类歌手都很难做到的事情，但虚拟偶像洛天依做到了。与此同时，很多新生代虚拟歌手也在陆续出道，征服着越来越多二次元以外的人。

很多粉丝留言说，无论从外形还是声音来看，洛天依都越来越精致了，尤其是声音越来越接近真人。这些粉丝的感觉没有错。虚拟歌手的经久不衰，背后的支撑其实是技术的迭代，尤其是歌声合成技术。

虚拟歌手与歌声合成

从技术上来说，歌声合成是语音合成的子领域。但与常规的语音合成任务相比，歌声合成存在一些独特之处 [1]，比如：

输入特征比较多（除了音素、声调、韵律边界等文本特征，还有音符、节拍、连音符等乐谱信息），而且这些额外的特征稀疏性很大；
对时长的对齐要求特别严格，节拍要唱准，比如不能将四分音符唱成二分音符；
对音高要求特别严格，旋律要唱准，比如不能把中央 C 唱成中央 D；
要有一定的自然度和情感，涉及倚音、滑音等技巧，音符之间的跳变要有一定的缓冲感；
对采样率等一些语音编码属性有一定的要求；

近几十年来，人们一直在努力解决这些问题，其间经历了基于单元拼接的合成、统计参数合成、基于深度学习的合成等技术路线的迭代和融合。

拼接合成指的是在事先录制好的采样声库中寻找对应的采样并最终拼接成完整歌曲的方法。统计参数合成则是先产生一些合成音频必要的声学参数，然后再利用这些参数合成音频，中间要用到声码器 [2]。

利用这些传统方法，人们很早就做出了一些比较受欢迎的软件，比如雅马哈开发的 VOCALOID。它的早期合成结果可以在一些大火的虚拟歌手中听到，比如初音未来。

然而，仅靠这些传统的方法通常难以细粒度地刻画声音的变化（比如没有换气声、吐字不连贯），与真实的人声仍有差距。随着深度学习的兴起，基于深度学习或融合了深度学习的合成技术渐渐成熟，生成的歌声往往更真实、更细腻 [3]。有人甚至在 AI 合成的歌曲下评论：「AI 比我更像人」。

图源：https://b23.tv/hDiGxuK

可以用于歌声合成的深度学习模型有许多种，包括卷积神经网络、具有长短期记忆（LSTM）的循环神经网络、生成对抗网络等。此外，也有研究者利用歌声合成与语音合成（TTS）的相似性，提出了一些自回归 Seq2Seq 模型。

当然，当前效果更好的一些深度学习架构（如 Transformer）也被用到了歌声合成领域，诞生了 XiaoiceSing、HifiSinger 和扩散去噪概率模型 DiffSinger 等。然而，这些效果较好的深度学习大模型通常需要消耗海量的数据和算力，不是普通开发者或小型创业公司能玩得转的。

不过，普通开发者和小型创业公司可以不用自己动手开发，因为国内已经有一些平台开始提供相应的能力，比如能提供端、云开放能力的华为 HMS Core。开发者只需要简单的几步，就能将这项能力运用到自己的 APP 上（详情见参考链接 [5]）。

可以观察到，最近几年，AI 歌声合成这一赛道正变得越来越出圈，也有越来越多的投资人开始看到这一领域的价值。比如去年，结合 AI 进行歌声合成的移动端软件 ACE 虚拟歌姬就获得了数百万美元 Pre-A 轮融资。

为什么大家愿意花这么大精力去投资、打磨歌声合成？在投资人看来，和有深度学习加持的视频剪辑软件一样，这是一种用算力来解放创造力的方式。音乐作为最普世的娱乐内容，但创作还集中在极少数人手上，创作的门槛亟待降低 [6]。

另外，在代表着未来的「元宇宙」中，如果我们想让虚拟人、虚拟演唱会给人更真实、更沉浸的体验，歌声合成也是必须要过的一关。

当然，如果我们想在元宇宙中打造更加沉浸的虚拟演唱会，仅发力打磨歌声合成是不够的，其他技术，比如音源分离、空间音频渲染等也很重要。

如何办一场富有「空间感」的虚拟演唱会？

人类的两只耳朵可以分辨声源的位置，因为从声源传递到两只耳朵的声音存在细微的差异，包括到达时间、接收到的能量以及相位差等信息，这就给人带来了空间感。为了还原这种感觉，空间音频技术使用信号处理的方法对到达两耳的声音信号进行模拟，将声场还原为三维空间，更接近真实世界。

理想的空间音频效果对虚拟演唱会的沉浸感非常重要。我们可以想象一下戴着 VR 头显欣赏邓丽君虚拟演唱会的情景，现场不止有邓丽君的歌声，还有钢琴等乐器的声音，这些声音给我们的感觉不应该是从我们的耳机中发出的，而是我们周围的一片区域，乐器们也各有其位置。

一些传统的 3D 音频制作技术可以达到或接近这种效果，但制作过程比较繁琐，需要获取原始的分轨素材（如录制的人声、钢琴声等），并使用专业的数字音频工作站（DAW）和 3D 混音插件手工制作，因此制作周期长、生产效率低、成本高、门槛高。此外，开发者由于没有歌曲的原始分轨，因此通过传统方法将 2D 音频转成 3D 难度也很大。

深度学习同样可以在这一问题中发挥作用。

通过对大量的音乐进行深度学习建模，并结合传统信号处理能力，我们可以实现音源分离。不过，为了确保每一个乐器都能尽可能地分离完整且干净，我们可能还需要针对不同的乐器音色特点专门设计过程中要用到的变换矩阵和网络结构，这就有一定的技术门槛了。

分离之后的空间音频渲染也存在一些难题，比如要解决因头型、肩宽等人体体征的差异带来的 HRTF（头相关传递函数）因人而异的难题，还要营造空间中声音的反射、散射、干涉等物理现象。

不过，这些问题也已经有了现成的解决方案，而且在上面提到的华为 HMS Core 音频编辑服务（Audio Editor Kit）中都能找到，其独有的变换矩阵、网络结构和一系列的声源滤波技术都已经向开发者开放。开发者仅需输入立体声，就能快速生成 3D 音频内容（详情见参考链接 [7]）。

HMS Core音频编辑服务3D音频生成示意图

普通立体声与HMS Core提供的3D音频效果对比

普通开发者如何入局？

在 AI 所支持的各种产业中，音频编辑是被低估的一个，尤其是在当前虚拟人产品井喷、元宇宙被寄予厚望的背景下。

iMedia Research（艾媒咨询）调研数据显示，接近七成用户喜欢虚拟人形象的外形 / 声音，其次喜欢虚拟人的作品 [8]。他们的数据还显示，2020 年中国虚拟偶像核心市场规模为 34.6 亿元，预计 2022 年将达到 120.8 亿元；2020 年虚拟偶像带动周边市场规模为 645.6 亿元，预计 2022 年为 1866.1 亿元，破圈效应渐显 [9]。这样的市场规模对于产品开发的需求不言而喻。

如果你也想自己构建一个「AI 音频编辑」APP，或者在自己的 APP 中加入歌声合成、3D 音频等功能，接入华为 HMS Core 等开放能力平台不失为一个便捷的选择，因为这个平台不仅提供了现成的技术能力，还有相应的技术文档、解决方案示例、技术解读课程、互动社区等作为辅助。

官方最近的一次技术解读（HMS Core Discovery 直播第 17 期）便是聚焦 HMS Core 音频编辑服务，展示歌声合成、空间音频渲染、音源分离等能力的新玩法，更有知名的弹唱音乐社区唱鸭 App 加盟，一起探讨影音娱乐应用如何构筑差异化竞争力、打造「声」临其境的听觉盛宴。感兴趣的开发者可以扫码，关注明晚 7 点的直播间。