鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI
日常想给家里的蠢猫拍个视频配个音,需要几步?
不不不,现在有了AI的加持,只需打开App,输入文本,秒秒钟就能搞定。
不只是四川话配音,东北老妹音也可以整起来:
△快手@大天666
再也不怕隔壁工位东北小哥嘲笑我的台湾腔东北话了
。
甚至,日常做饭小视频,也可以配出高级感:
△快手@xcpangdahai
是不是有点《舌尖上的中国》内味了?
实现如此功能的,就是快手快影最新上线的AI黑科技——智能配音。
输入文字,AI配音
所谓智能配音,就是用户只需输入文字,软件就能自动将之转化为高质量的视频配音。
使用方法非常简单。
首先,打开快影,导入视频素材。
「智能配音」的入口,就在App底部功能区的「音效」中。
点击「智能配音」,在弹出的输入框中输入想要配音的文字。
然后,选定一个「发音人」,也就是想要的音色、口音,再点击生成配音。
配音音频就秒速生成了。
另外,通过「字幕」→「加字幕」,完成字幕输入后,同样会出现「智能配音」的入口。操作相当方便。
目前,智能配音功能中一共有9位「发音人」可以pick。
标准播音腔,由「小姐姐」、「小哥哥」两位播音员提供。
在方言区,除了前文提及的「川妹子」和「东北老妹」,还有一位说粤语的「广东靓妹」24小时在线配音。
想要可爱卡通音,可以选择「小猪佩奇」、「蜡笔小新」。
而「舌尖同款」则提供了一个更加贴近真实的音色,纪录片范儿十足。
此前在快手直播间里出现过的小快机器人的音色,也被移植了过来。如果你是一位快手用户,选择「童真」,熟悉的声音就能出现在你的个人创作中啦。
技术不够,AI来凑。这下,给记录生活的小视频增色,就不用担心自己的声音不好听、剪辑水平不过硬了。
但别看此功能人人都能轻松上手,背后的技术挑战却也着实不小。
关键技术解析
文字转语音,其实并不是什么新鲜事。
不过,在此之前,此类语音合成技术主要面向B端用户,应用场景主要是资讯播报、订单播报、朗读听书等。
而对于C端用户,特别是有视频配音需求的用户而言,AI配音只有更生动、更自然、更具韵律,才能真正满足他们的需求。
另外,面向B端的产品,可以对文本的规律、意义进行限定。面向C端用户时,则无法预测用户的输入情况。
这就给快影这类剪辑软件的智能配音功能提出了更高的技术要求:
- 高表现力,要让用户觉得合成的语音接近自然语音,不做作;
- 高音质,要求输出的语音干净清晰,能最大程度还原配音角色的音色;
- 极低响应时间,为了优化用户的使用体验,合成引擎的首字响应时间要求低于100ms。
为此,快影的智能语音配音采用了端到端的深度神经网络语音参数生成算法。
端到端深度神经网络语音参数生成算法
传统的参数语音合成算法存在一个问题,那就是很难保留配音音色的说话风格特点,造成配音比较呆板、风格趋同。
而端到端的深度神经网络语音参数生成算法,可以让生成的语音参数连续性和稳定性得到较大幅度的提升,体现在听感上会使得语音更加真实和自然。
同时,为了能够最大限度保留配音角色的说话韵律风格,在生成算法中还加入了风格控制自回归编码网络,使得每一个配音音色的说话韵律特点都能体现出来。
高表现力深度网络声码器
另外,为了能最大程度还原智能配音角色的声音特点,快影智能配音还采用了基于深度神经网络的声码器进行语音生成。
在语音合成技术方面,业界常用的采样率是16kHz。
但对于儿童音色、卡通音色这样基频比较高的音色而言,这一采样率会对其明亮清澈的特点造成较大的损失。
快手的工程师因此选择了24kHz采样率。
不过,由于模型需要建模更多采样点之间的依赖关系,以及更多的高频信息,这时如果继续照搬16kHz采样率的技术方案,不仅合成速度慢,而且合成音频还会出现“毛刺”噪音。
为此快手的工程师对神经网络声码器进行了深度优化:
采用多子带并行建模预测方法。首先将音频分割为多个sub-band音频,然后在建模过程中针对每个子带选择不同的训练方式和采样参数,并且降低模型输出混合分布数量。
实验证明这样做可以有效地提升声码器的合成效率,并保证合成效果稳定。
增强输入输出特征的信息描述能力。将输入的声学特征维度升至更高的维度,便于更为细致描述频谱细节。同时,将声码器的输出精度采用10bit muLaw压缩,用于提升采样精度。
实验证明,该方法能够让合成的音频听感更加真实和饱满。
如此一来,快影智能配音就在将合成速度提高2.5倍的同时,还能提升生成语音的真实感和饱满度。
此外,工程师们还针对用户等待时间进行了优化,每100字合成只需10s。并且对于用户输入的超长句,采取分段处理的方法,以优化用户等候处理时的产品体验。
「从创作者的需求出发」
为什么会在产品中上线这样的多音色智能配音功能?
其实,对于快手的工程师们来说,就是从快手用户的实际需求出发:
有些快手的创作者觉得自己的视频不够好玩,或是自己的声音不够好听,但又希望通过配音的方式去创作。 所以我们希望制作一款操作更便捷,并且听感上更有趣、更丰富的配音功能,来帮助用户制作更有趣的音视频。
此前,快手在语音合成技术方面的积累,已经在直播间语音机器人上有所体现。
不过,对于智能配音技术团队而言,这一次的任务依然充满挑战。
首先,是时间紧,任务重。
「智能配音」这项功能基本是在1个月内完成开发集成,并在2个月内实现全量上线的。
虽然此前已经有面向B端的语音合成技术的积累,但在将其运用到C端上时,由于「使用场景」和「技术要求」均不同,技术团队还是需要作出很多细节上的调整。
这个4人组成的团队需要进行高强度实验,把数据分为不同的组合,再对每个组合进行测试,对特征进行重组。每个实验都存在很多种可能性,相当耗费时间。
单单1种音色,就需要将这个过程重复10-20次。最后呈现出的9种不同音色背后,就有100 实验。
另一个让研发人员印象深刻的难题,是中英混读问题。
用户在实际使用过程中,很可能会出现中文、英文混合使用的情况,但这就给音源的采集带来了困难。
举个例子,蜡笔小新的音色,主要是通过动画片来进行采集,提取其韵律和表现力的。但是,蜡笔小新他并不会说英语啊。
为此,技术团队想出的解决方案是,首先在发音单元的设计上,将中英文因素进行共享设计,减少因素集合以降低模型的不稳定性。
其次,在中文发音人音库训练过程中,加入非本发音人的纯英文音库进行混合训练。
并且,在训练中,加入可以描述发音人特点的embedding,对不同发音人的发音风格和发音特点进行解耦,让模型可以从纯中文和纯英文的语音数据中,学习到中文和英文的发音知识。
这样一来,即使没有经过英文音源的训练,模型也同样能让发音人读出英文句子。
目前已有4位「发音人」可以进行中英混读,其余几位的英文能力也预计在8月内上线。
接下来,技术团队将继续挑战自己,根据不同的视频场景,对视频内容进行基于多模态的理解,对每个发音人的发音风格进行场景适配。
这一功能实现后,智能配音的节奏、情绪就会更贴合视频内容,让视频效果更加出彩。
另外,智能配音团队也计划上线更多音色,比如明星音色、热门电视剧配音、具有科技感的机械音等等。
接地气,还看黑科技
智能配音这样的AI黑科技,无疑给老铁们带来了船新的玩法,引领了一波短视频新热潮。
其实,这已经不是快手第一次贴合用户需求,在产品里融入AI黑科技了。
比如此前在快手直播间跟柳岩、大鹏欢乐互动的智能宠物「小快」,就融合了语音唤醒、语音识别、自然语言理解、对话管理、语音合成等多种技术,给主播们提供了既能适应复杂硬件条件,又不占用太多计算资源的语音的智能语音服务。
值得一提的是,对于性能相对低端的手机机型,快手技术团队往往会有针对性地进行性能降级适配,不断优化性能与效果的平衡点,以期用户能以最低门槛,享受最新技术。
以此番上线的智能配音功能为例,量子位用2015年搭载联发科HelioX20的一款手机进行了测试,也能顺利合成配音。
这也展示了快手在CV技术之外,在智能语音领域的厚积薄发。
实际上,快手的语音技术早有布局,四年前就成立了语音交互、音频内容理解的技术团队,成员主要来自清华、中科院、哈工大、西工大的语音实验室,以及微软、三星、BAT这些大厂。目前主要技术方向包括语音识别、语音合成、音乐理解与生成、音频事件检测等。
产品功能的快速落地,离不开一篇篇论文、一项项基础研究的积累,离不开技术工程师们的努力。
在此背后,也是快手价值观的反映:重视技术,重视基础科研,希望每个人都能享受到时代最前沿的技术。
所以下一波音视频新风潮会是什么?
接地气,还看黑科技。