真国风 AI 虚拟人!腾讯艾灵学会作诗书法新技能,以假乱真的那种

2021-07-02 14:42:45 浏览数 (1)

AI 科技评论报道

编辑 | 刘冰一

5月21日,腾讯AI虚拟人艾灵再秀出新技能,首次展示AI作诗、AI书法等国风才艺,并与青年歌手白举纲跨次元合作,共同演唱国风新歌《百川千仞》。

AI“艾灵”诞生于腾讯AI Lab,来自实验性、探索性技术项目“多模态虚拟人”。机器学习、计算机视觉、自然语言处理等多种核心AI能力融合,让艾灵能“歌”善“言”,饱读“诗书”。

此次最新发布的艾灵写诗技能,来自于文本创作模型SongNet,针对任意关键词,艾灵都能快速“作出”藏头、藏中的诗词。而依托腾讯AI Lab的前沿图像生成技术,艾灵得以拜颜真卿、柳宗元、米芾、苏轼等中国书法大家为师,运用最新的图像生成对抗网络,“写下”神形兼备的书法字体。在2021年春节,她运用这项技能为上千万人写下寓意美满的春联。

目前,团队已经通过公开论文发表了 DurIAN 和 SongNet 的核心技术细节,SongNet 代码也已开源(见文末)。未来,腾讯AI Lab将把该项技术能力开放给业界,共同探索AI数字人与数字内容生成和教育等现实场景的结合,携手更多创作者一起传承中华优秀文化。

1 谁是“艾灵”?

传统虚拟偶像一般是通过对真人演员的“动作捕捉 配音”来实现的,但让艾灵这样的AI虚拟人能够动起来、与真人对话,技术难度更大、也对技术的协同性提出了更高的要求。

艾灵背后由一套腾讯AI Lab自研的复杂系统支撑,系统首先要从文本中提取不同信息,包括动作、表情、情感、重音位置、和激动程度等;之后,这些信息被输入到模型中,生成动作和表情,再同步生成语音、口型和表情参数,最终才有了艾灵自然生动的表现。

腾讯「多模态虚拟人」项目希望把计算机视觉、语音/歌声合成和转换、图像/视频合成和迁移、自然语言理解等多模态的AI能力和技术融为一体,生成清晰、流畅、高质的可交互内容,推进AI在虚拟偶像、虚拟助理、在线教育、数字内容生成等领域的应用。

相较于传统方法,应用多模态合成技术打造的虚拟人,无论是在自然度、鲁棒性、可控性、泛化能力以及实时性等方面都取得了更好的效果。

2 深度学习:秒学才艺的魔法

艾灵所具备的唱歌、表情、作词、书法等多项才艺,均来自于对海量数据的深度学习,这帮助她快速掌握更多技能,向全能AI不断接近。

“气贯长虹”、“充满未来之感”的歌声,来源于腾讯AI Lab研发的DurIAN声学模型。不同于其他虚拟歌姬的“机器合成 人工调教”模式,给艾灵输入一段曲谱,无需人工调教,她就可以合成非常自然和拟真的歌声。

首先,研究者以音素为基本发音单元将任意歌曲描述为一连串音素的序列;然后通过分析歌谱,从文字、旋律、节奏等多个维度分别提取和预测词曲中每个音素的发音、时长、停顿、音高、风格和演唱技巧等特征;最后使用由真人(中国网络声优龟娘)演唱的歌声训练得到的深度神经网络声学模型和声码器模型,合成出与真人声线高度相似歌声音频。

不同于“初音未来”等虚拟歌姬的“机器合成 人工调教”模式,使用了基于DurIAN声学模型的AI艾灵无须经过人工调教就能得到非常自然和拟真的歌声。

DurIAN-singing synthesis的声学模型结构

研究者在端到端语音合成模型DurIAN的基础上进行修改,加入基频信息、说话人信息和语言信息来进行歌声合成的声学模型建模。该模型不仅可以从人的说话数据直接训练出唱歌模型,还可以实现跨语种歌声合成,比如用英文说话人的声音合成中文歌声。声学模型的编码器采用音素序列作为输入,编码器的输出经过一个对抗训练的说话人分类器以减少输入文本与说话人的相关度,提高最终合成音频的说话人相似度。

与此同时,编码器的输出根据输入的唱腔时长信息沿时间轴展开,与输入的基频、说话人向量、语言向量进行拼接,作为解码器的输入,精准控制合成歌声的韵律、音调和音色。解码器采用自回归模型预测梅尔频谱。多频段同步式 WaveRNN 模型用作声码器从生成的梅尔频谱合成音频。这项技术已经可以在适当的硬件成本下实现实时歌曲合成。在互动中,AI艾灵可以快速地为千万用户输入的歌谱合成出对应的歌声。

多频段同步式 WaveRNN:首先把语音信息分频段,每一步用同一个声码器模型同时预测多个频段的值,如果分成 4 个频段,则每一步可以计算 4 个值,计算次数就是原来的四分之一。在合成过程中,声码器预测多频段的值后,通过上采样和专门的滤波器设计就能保证恢复没有失真的原始信号。

艾灵为嘉宾们写藏头诗的能力,来自文本创作模型SongNet。

SongNet 模型框架

模型的基本骨架是一个自回归语言模型,腾讯 AI Lab 研究员针对格式、韵律、句子完整性设计了特殊的符号来进行标识和建模。词粒度和句粒度的掩码训练策略可以增强模型给定上下文补全缺失内容的能力。借助于经典的预训练和精调模式,可以进一步提升模型生成诗词的质量。

书法则是艾灵最近掌握的新技能。腾讯AI Lab依托前沿的图像生成技术,通过训练AI书法学习模型,模仿书法的形体及神韵。实验室投入了大量精力,运用最新的AI图像生成对抗网络,同时训练了两个“学徒”——AI书法学徒和AI鉴定学徒来帮助艾灵学习。

首先,AI书法学徒通过提取字形结构等基本信息,捕捉并融入书法的风格韵味;而AI鉴定学徒则学习成为一个书法鉴定师,在对字帖真迹和AI模拟生成的字体进行比较分析之后,反馈两者的差别及“AI模拟字”的不完善之处,从而进一步鞭策书法学徒完善模仿能力。

“我是一个喜欢中国文化的国风AI……目前还在努力学习,立志点亮更多技能,成为全能AI,把中华文明的美好传递给更多观众!”

正如艾灵的自我介绍,腾讯AI Lab打造的“AI艾灵”,正是希望用科技与二次元的结合,做好传统文化的“传承者”,让更多青年人爱上中华文化。

腾讯AI Lab研究员表示,随着不断学习,后续艾灵还将学会很多新技能,比如在唱歌方面,团队正在努力让艾灵掌握不同的腔调,还可以学习传统戏曲、不同方言等更多歌唱方式。


DurIAN论文(投稿于INTERSPEECH 2020):https://tencent-ailab.github.io/durian

SongNet论文(已被 ACL 2020 接收):https://arxiv.org/abs/2004.08022

SongNet代码:http://github.com/lipiji/SongNet

0 人点赞