【犀牛鸟·视野】SIGGRAPH ASIA 2018: Siren AI - 高保真可交互虚拟人

2018-12-21 23:52:56 浏览数 (1)

★导语★

英国演员Alexa Lee通过动捕设备实时驱动数字人Siren,这标志着实时高保真数字人技术迈向了一个新的高度。技术的进步为Siren赋予了逼真的3D形象,我们能否进而为她赋予精致的“灵魂”呢?腾讯互娱NEXT技术中心和AI Lab的研究团队携手进行了一次尝试,让Siren在没有真人驱动的情况下,自主和人类交互。虽然,该技术尚处于试验阶段,我们已经可以看到“高保真可交互虚拟人”这一领域的美好前景。值得一提的是,本次Siren AI参加SIGGRAPH Asia2018,是其首次亮相国际舞台,第一次海外展示Live Demo,向大家分享阶段性成果。

Siren AI意味着什么?

传统动捕技术通过视觉或惯性传感器捕捉演员的表情/动作(如图1),再映射到角色模型上,生成角色动画,然后经过动画师清理精修,形成最终产品质量的动画。Siren更是采用了高精度的实时动捕技术,实现了虚拟角色的Live表演。然而,传统动捕技术虽然对影视、游戏、虚拟偶像等行业有着重要意义,但是精度较高的动捕设备普遍笨重,需要复杂的校准和特制的空间,需要演员来驱动。

图1  传统动捕设备:CubicMotion、Vicon、Optitrack

近两年,语音助手、聊天机器人逐渐走进我们的生活,这些设备的输出通常是语音或文字,如果能为它们配上虚拟形象,用户将会获得更加生动的交互体验。如图2,AI设备/服务输出语音/文字,语音/文字驱动面部Rig,然后进入渲染引擎,驱动虚拟人。Siren AI就是要为虚拟人装上AI的大脑,让虚拟人能听会道。

图2  语音/文字 驱动虚拟人

为Siren植入“大脑”

基于虚拟人的语音交互是一个复杂的过程(如图3),涉及多个AI研究和工程领域:语音激活检测(VAD),语音识别(ASR),自然语言处理(NLP),语音合成(TTS),语音驱动面部动画(ADFA)。所幸,除了ADFA,腾讯AI Lab已经有相应的解决方案。所以工作难点主要集中在ADFA。由于人类对于自身的行为瑕疵非常敏感,虚拟人Siren已经做到照片级还原,用动捕设备实时驱动数字人已不是易事,更不用说声音或文字驱动,NEXT和AI Lab语音识别中心的研究团队开始尝试解决这个问题。

图3  Siren AI 数据流

研究团队尝试用基于深度学习,端到端的方法来解这个问题:模型的输入是语音或文字,输出是执行面部变形控制的Rig参数。熟悉DL的同学都知道,数据对于端到端训练十分关键,考虑到Siren具有精巧的Rig系统,将低维的Rig Controls参数映射到数千维的脸部Rig Elements参数。这个基于规则的映射,将语音驱动模型输出抽象到较低的维度,降低了模型规模和训练难度。如图4所示,研究团队在面部动捕的同时采集音视频数据和Rig Controls序列数据,然后离线处理成一一对应的训练数据。

图4  训练数据采集

有了数据之后,我们第一步尝试的是语音驱动,但是很快发现,由于训练数据集里的语音来自演员,模型的泛化性非常弱,对于语音合成声的测试结果很糟糕,尽管通过数据加噪等方法提升了模型的泛化性,但是TTS(Text to Speech)语音的测试效果始终不理想。随即,改为通过与文字对应的音素序列(Phonetic Sequence)来驱动面部Rig。经过训练,测试结果达到了接近演员语音驱动的效果,同时收获了Speaker无关的特性。

图5 可交互虚拟人系统集成方案

如图5所示,Siren AI的前端整合了VAD功能和UE4,主要负责对话者的音频采集和虚拟人渲染;后端两台Server,一台部署了AILab的多套服务,另一台作为中转服务器,负责前后台数据的转发以及部分控制逻辑。在图5中可以看到,除了语音交互,系统还支持文本输入,直接送到TTS模块生成语音和驱动面部的Rig Control参数,应用在需要用文本直接驱动虚拟人的场合。

Siren AI at SIGGRAPH ASIA 2018

2018年12月Siren AI在东京举办的SIGGRAPH ASIA 会议上首次进行Live Demo的海外展示。Siren AI吸引了大量与会者参与体验,不少数字人领域的研究者专门来展台切磋数字人和AI交叉研究中的关键问题。

图6 大会现场盛况

众多研究者参加了Exhibitor Talk环节,并在主题演讲后留下继续进行深入探讨。

图7 Exhibitor Talk环节现场

END

0 人点赞