虚实之间03 | 有这些技术,你就是让数字人活起来的“神笔马良”

2022-07-15 12:16:09 浏览数 (1)

《虚实之间》是广东人工智能与先进计算研究院推出的关于虚拟数字人的专栏。研究院提供虚拟数字人从设计建模到驱动渲染智能交互全流程高效、高质量技术服务。如有需求可联系我们。 上一期我们介绍了如何构建一个虚拟数字人形象。本期我们来说说如何让虚拟数字人动起来,更严格的说法是,如何驱动虚拟数字人。

还记得“神笔马良”的故事吗?马良拿着神笔画出一只鸟,鸟就能腾空翱翔,画出一只鱼,鱼就能欢快畅游。这本是童话里遥不可及的幻想,在数字世界中,却有可能成真。比方说,你按照我们上一期说的,已经“画”出了一个形象,只要你让它动起来,毫无疑问,你就是数字世界的神笔马良。

但怎样让一个数字人动起来,而且还得做出合理的动作呢?答案是把人的动作采集下来,迁移到数字人身上,核心技术是动作捕捉。下面我们来重点介绍肢体动作驱动及面部表情驱动。

一、 肢体动作生成

动作捕捉技术按照实现方式的不同,可分为光学式、惯性式、电磁式及基于计算机视觉的动作捕捉等。现阶段,光学式和惯性式动作捕捉占据主导地位,基于计算机视觉的动作捕捉成为聚焦热点。

1. 捕捉方式

光学动作捕捉通过对目标上特定光点的监视和跟踪来完成运动捕捉的任务。最常用的是基于 Marker(马克点)的光学动作捕捉,即在演员身上粘贴能够反射红外光的马克点,通过摄像头对反光马克点的追踪,来对演员的动作进行捕捉。这种方式对动作的捕捉精度高,但对环境要求也高,并且造价高昂。

转载自“简书-截流的鱼”转载自“简书-截流的鱼”

惯性动作捕捉主要是基于惯性测量单元(Inertial Measurement Unit,IMU)来完成对人体动作的捕捉,即把集成了加速度计、陀螺仪和磁力计的IMU 绑在人体的特定骨骼节点上,通过算法对测量数值进行计算,从而完成动作捕捉。这种惯性动作捕捉方案价格相对低廉,但精度不够高,会随着连续使用时间的增加产生累积误差,发生位置漂移。

基于计算机视觉的动作捕捉主要是通过采集及计算深度信息来完成对动作的捕捉,这种视觉动捕方式因其简单、易用、低价,成为使用频率较高的动作捕捉方案。

转载自“普象网-阳光的三界之外”转载自“普象网-阳光的三界之外”

三种主流方案对比:

2. 自研惯性动捕硬件设备

广东人工智能与先进计算研究院自研全套可穿戴动作捕捉设备与系统,采用模块化的兼容性设计,可对手指、手臂及全身动作进行姿态捕捉。该产品搭载了多片九轴惯性测量单元,可满足不同应用领域的专业动作捕捉需求。产品具有精确定位能力,最多支持采集人体47个关节的动作数据,精确至每个手指关节,提供多种产品配置方案,可单独捕捉手部、手臂、腿部、上半身等,也可进行融合使用,满足多种场景使用需求。

该产品具有有线和无线两种通信方案,可支持室内 / 室外不同场景,不受影棚环境、光线或者遮挡的影响。产品提供多种场景开发SDK,对动捕设备的数据获取、校准等基本功能进行封装,并在此基础上实现一些常用的物体交互功能,如手势识别、碰撞状态、常用物体交互功能、通过手势触发的传送功能等。

基于该产品,研究院团队搭建人脸-人体实时驱动系统,采用基于线性混合蒙皮的实时驱动技术和基于次表面三色和的实时渲染技术,实现多种角色的实时驱动。目前已经支持unity、steam等多种平台。

该产品还可应用于仿真训练、运动康复、影视游戏、虚拟直播、机器人遥操作等场景。

【影视游戏】该产品可实现实时动画,毫秒级输出。满足影视、游戏等虚拟内容制作需要。

【虚拟直播】该产品提供低成本、消费级虚拟直播解决方案,通过动作捕捉设备获取真人动作表情,将数据同步到虚拟角色,实现动态逼真的直播效果。

【仿真训练】针对现实生活中存在的高危险、高成本、不可及或不可逆的培训项目,该产品通过搭建虚拟场景,借助定位器和可穿戴动作捕捉设备实时提取人手及手臂位置信息和动作信息,帮助完成专业技能培训。

【运动康复】该产品可进行精准数据采集和智能数据分析(健康、运动数据),从多角度更直观地分析使用者的身体数据,制定专属的训练方案,提高效率;也可通过分析动态运动数据找出优劣,实现科学训练。

【机器人遥操作】该产品利用姿态同步的特性,实现人机远程协同操作,可代替人员进入高温、黑暗、缺氧、有毒浓烟、易燃易爆炸等危险环境,有效解决人员的人身安全问题。

二、 面部驱动

面部表情捕捉技术通过摄像机记录人类面部表情,从而得到高精度的表情数据,广泛应用于CG影视作品和3A大作的制作。根据录制方式,大致可分为有标记点和无标记点两大类。

基于标记点的面部表情捕捉系统常见于影视行业,面部标记点可以是绘制到演员脸上,也可以是粘贴上去,数量可达数百个。

图片引自搜狐七维科技《面部动作捕捉技术都采用哪些方式》图片引自搜狐七维科技《面部动作捕捉技术都采用哪些方式》

无标记点的面部动作捕捉系统一般用于那些对面部表情还原精度要求不高的项目作品,通过计算机图像处理技术识别面部的五官,生成虚拟标记点,基于深度人工神经网络的计算,能够准确地跟踪那些虚拟标记点的运动轨迹。

图片引自搜狐七维科技《面部动作捕捉技术都采用哪些方式》图片引自搜狐七维科技《面部动作捕捉技术都采用哪些方式》

接下来我们简单地介绍无标记点的面部表情捕捉系统的技术如何实现。

1. 硬件设备

无标记点的面部动作捕捉的设备门槛并不高,只需一个普通摄像头就可以实现。当然,使用带有深度摄像头的iPhone性价比更高。

转载自“微博-大豫出书网墨香悠悠 ”转载自“微博-大豫出书网墨香悠悠 ”

2. 标记点跟踪

跟踪虚拟标记点就需要人工智能技术支持。通过深度学习实现人脸关键点定位,定位出面部关键特征点,输出如眼睛、鼻尖、嘴巴以及眉毛等各部位的标记点。通常来说,需要演员在录制表情时要尽可能地正对摄像头,从而提升人脸关键点定位的准确度。

转载自“术之多-迈克老狼2012”转载自“术之多-迈克老狼2012”

对表情视频每一帧进行自动跟踪训练之后,遍历每一帧,假如发现某些自动跟踪的标记点存在偏差,需要手动调整标记点位置,重新跟踪训练。

经过多次的手动纠正,训练模型的输出将会越来越符合预期结果。

当表情视频的所有标记点确定之后,需要提取表情,输出表情库。目前自动提取表情的方法未能用于生产,更多的还是手动提取。对所有目标表情的关键帧进行标记,生成表情库,那些非表情关键帧的其它帧可以当作是前后两个表情的混合表情。

图出自iClone Faceware实时面部Mocap系统演示视频图出自iClone Faceware实时面部Mocap系统演示视频

这时可以得到表情库数据,以及混合表情的曲线数据。

4. 绑定目标模型面部

将输出的表情数据绑定到目标模型面部有两种途径——BlendShape和骨骼控制器。

以骨骼控制器为例,对于已经做好面部控制器的目标模型,每个控制点可以控制一些骨骼,从而影响到对应区域的网格顶点。

遍历表情库的每个表情,需要操控骨骼控制器变形模型面部网格顶点,直至两者表情一致,记录下骨骼控制器的变换数值。非表情关键帧的其它帧则是通过插值方式映射控制目标模型的骨骼控制器的变换数值。

至此,我们完成了演员与目标模型面部驱动的绑定,由于生成了演员表情库,还支持实时面部驱动。

我们会持续更新关于虚拟数字人的更多内容!

0 人点赞