6月5日—6日,2021全球人工智能技术大会(GAITC 2021)在杭州成功举办。本次大会,旨在汇聚中国科创智慧与活力的同时,与世界建立互通共享的沟通桥梁,在交流中探索共建美好智能时代的合作方案和发展共识,同时以最前沿的国际视野推动人工智能高速、有序、安全发展,造福人类生活。
近年来,人脸3D技术在各个行业和领域得到了越来越广泛的应用,大会上,腾讯优图实验室研究员葛彦昊以《优图3D重建与渲染技术研究与应用》为主题,重点分享了优图3D技术在人脸领域的研究与应用相关内容,阐述了对于人脸3D技术的探索心得。以下为内容精要:
01
人脸3D技术简介
人脸3D技术研究作为计算机视觉领域的核心研究课题之一,多年来始终维持极高的研究热度,与此同时和人脸3D相关的产业应用也十分广泛,在社交、游戏、影视等行业均涌现出丰富的人脸3D类产品和应用,优图在人脸3D技术方面主要包括两个重点研究方向:一是关于人脸3D重建,二是关于人脸3D的驱动与渲染。
人脸3D重建
人脸3D重建是指通过人脸2D的图像有效还原人脸的3D信息,包括人脸几何重建与纹理重建等。其评价标准主要包括两个角度:定量与定性。
人脸几何重建:从定量角度来看,可以通过3D扫描采集的数据来对比毫米精度的重建误差;从定性角度来看,可以通过直观感受,即不依赖任何纹理信息的辅助情况下,看能否通过几何信息判断被重建人员的身份。同时,我们也可以针对局部,看局部几何的表达是否与输入的图片精准对应。
人脸纹理重建:目标是有效还原人脸真实的3D纹理信息,包括Diffuse、Specular以及光照参数等。从定量角度来看,可以通过光场采集的数据来面向人脸像素的误差;从定性角度来看,可以通过去除光照之后的人脸纹理,在清晰度、自然度、均匀度方面是否达到“照片级”还原,以及人脸纹理信息相关分量是否被正确解耦来评价效果。
人脸3D驱动与渲染
人脸3D驱动与渲染,是指基于已重建的3D人脸信息去驱动特定的3D模型,并在指定光照和参数后投影2D平面呈现出对应的光影实效(即渲染)的过程。它们的评价标准依然可以通过定量与定性两个角度进行。
人脸3D驱动:从定量角度来看,可以通过多项级阵列的采集来对比毫米的精度、重建的误差来评价驱动效果;从定性角度来看,可以通过被驱动3D模型的姿态表情是否与驱动的人脸精准对应,并且整体保持良好的自然度来进行评价。
人脸3D渲染:从定量角度来看,可以通过定量光场来进行评价;从定性角度来看,可以通过渲染的光影视效是否足够真实,是否尽可能符合完整的物理学定律来进行评价。
研究趋势
关于人脸3D重建、人脸3D驱动与渲染目前的研究趋势,主要有两大方向:
一是面向模型学习过程的深度学习化,通过深度神经网络训练引入更多约束和先验知识辅助来获得更优的重建结果,例如将更多图像像素信息纳入重建过程的参考,同时结合同ID多张人脸信息进行联合重建等。
二是结合自监督模式的图形学习方法,以往的人脸3D重建与驱动方法往往仅依赖人脸关键点或像素视觉特征,而近年来更多前沿研究引入了人脸固有的几何属性特征例如对称性、五官几何分布一致性等,并取得了明显的重建效果提升。在未来,基于自监督图形学习的重建方法不仅具有获得更高重建精度的潜力,同时也将使模型拥有更强的通用性和泛化能力。
优图近年在人脸3D的重建以及驱动具体研究工作中,也是围绕着这样的趋势来进行深入研究。
02
人脸3D重建技术研究
优图关于人脸3D重建技术相关的研究工作,主要包括人脸的几何重建和人脸的纹理重建两个核心任务。
人脸几何重建
人脸的几何重建大致可以分为两个方向:
方向一是通过参数化的人脸3D图片,即经典的人脸3DMM优化方法,通过一些3D先验知识的辅助去重建出人脸几何形状;近期的一些方法是基于3DMM人脸基底,去训练对应的深度学习网络,学习对应的3D参数来进行拟合。
目前,优图在方向一(参数化人脸3D重建)有着较多积累,从0到1构建了属于自己的一套人脸3DMM基底,以参数的形式表达了人脸的形状和表情,用于支撑3DMM的人脸重建算法,基底中涵盖了超过3450个ID以及52种面部的表情和表达,覆盖了多人种及不同年龄段。基底可以分为形状维度的基底和表情维度的基底。从原始的裸3D采集,到处理成降维之后的基底表达,以一套非常完整的、具有统一拓扑结构的3DMM基底支撑上层的3D重建任务。
有了基底之后,接下来的问题是如何合将这个基底应用于网络训练并获得比较好的3D重建拟合结果。优图自研了一套优图参数化的人脸3D重建网络,结合可微分渲染的模块,让重建结果不依赖纹理辅助也可明显判断出被重建人的ID。这个3D模型可支撑多种应用,例如把表情维度的每一个基底,改变参数来获得基底表情动画;或者以另外一张人脸来驱动已经重建好的3D模型,从而进行表情迁移。
方向二是关于非参数化的人脸3D重建——摆脱对人脸3DMM参数化的依赖,直接通过输入一张人脸图像,估计出对应这张人脸图像的深度信息,从而获得3D几何效果,同时也考虑了一些多视角联合的非参数化重建问题。
在方向二(非参数化人脸3D重建)方面,优图近期也尝试了很多任务研究,如无监督多视角重建,完全通过自监督的方式实现人脸3D的非参数化重建。但这个方法的重建尺度只能维持到64x64,没有办法融合更多人脸有效的3D信息进行联合重建。
如果单纯提升输入输出的尺度,输出3D重建的结果会变得模糊,很多细节无法重建的很好。针对这个问题,我们做了一些有针对性的先期实验,先通过从ID到不同视角的图像,联合学习一张这个人正脸自然表情下的纹理和深度;之后再结合特定视角的图像,获得与这个人特定视角下的形状和纹理。通过这种方式,可以很好的将重建尺度和精度提升一个台阶。以上方法对应我们中稿CVPR 2021 Oral的论文《Learning to Aggregate and Personalize 3D Face from In-the-Wild Photo Collection》(简称“LAP”)
值得一提的是,在运用“LAP”这套pipeline的时候其实有一个要求,输入人脸的尺度必须需要保持较高的清晰度或者尺度,但实际上人脸图像可能是低清或者低质的,想获得相对高清的人脸3D重建结果在已有框架下无法满足。我们的解决方案是先通过生成网络的一些知识辅助,还原一张低清人脸的高清纹理,然后再将这个高清纹理配合原有的输入去网络学习,获得高质量、高清晰度的深度重建结果与纹理表达。
人脸纹理重建
人脸纹理重建与人脸几何重建有很强的关联性,人们最终看到的人脸图像是几何与纹理共同作用的结果,其中依托一个很重要的模块——可微分渲染。
在以前的纹理重建任务中,没有办法去判断这个像素哪些分量是由纹理带来的,哪些分量是由外界光照带来的,哪些分量是由几何因素带来。近年来随着可微分渲染技术的推出,我们可以将一张input的图片理解为一个基于人脸几何形状,配合纹理、光照参数等共同渲染的过程,然后尝试将这个过程反过来去进行梯度反传,进而解耦人脸纹理相关的各个本征分量。
人脸纹理重建结果的优劣一般可借由Relighting任务来进行评估,良好的人脸纹理重建结果将获得自然且真实的人脸Relighting效果。在人脸Relighting任务中,通常比较直接且有效的方案是基于光场相机采集的数据学习,首先搭建一个完整的光场系统,然后将人置于光场内进行数据采集——由于光场内的光源参数是已知的,因此可以获得固定的光源相关参数,再将已采集人脸的图像与这些光的参数进行融合构建样本对,最终训练相应的深度学习模型获得人脸的本征纹理表达。
以上方法的主要缺点是搭建光场系统并邀请大量真人进行光场数据采集过程需要耗费大量的人力物力成本。同时由于以上方法所采集的数据均在室内理想光源场景,因此在开放场景的泛化性存在局限。
为解决光场相机采集方法的诸多局限,近年来另一种人脸纹理重建思路是基于可生成对抗网络(GAN)进行人脸纹理与光照学习。该方法将人脸纹理重建过程理解为端到端的生成任务,利用GAN网络直接学习人脸图像光照改变之后的光影图像,或称为关于人脸的光照属性编辑,亦或对人脸在不同光照条件下的阴影图像进行生成学习,最终将已学习的阴影图像叠加回输入原图,实现人脸纹理重建的目的。然而基于GAN的人脸纹理重建方法仍然存在不足,即由于整套纹理本征提取过程被隐式Encode进网络中,因此无法严格确保在对人脸纹理进行Relighting过程保持高度的一致性,与此同时容易在光照条件相对极端时产生噪点或Artifacts。
为有效解决以上两种方案各自的不足,优图针对性提出了自研的无监督物理本征学习方法,该方法通过可微分渲染技术有效对任意输入的人脸图像完成基于物理的本征分解,获得了符合物理渲染规律的人脸Diffuse、Specular以及Roughness等本征分量。这一方法通过课程学习思路,首先借由人脸几何与纹理参数化模型进行初步估计,然后进行像素级别Refinement,最终不依赖任何光场采集数据即可实现面向in-the-wild人脸图像的逼真Relighting效果。与此同时相比其他无监督学习方法仅可支持理想球协光照模型,优图自研方法可实现对任意环境光贴图(Irradiance Map)进行Relighitng,大幅提升了人脸纹理重建的解耦程度,支持基于更加复杂光照模型的物理Relighting。
综上可见,关于人脸3D重建的相关研究依然面临诸多问题与挑战,在未来,优图实验室关于人脸3D方向的研究将着重从以下几个方面展开:
01
面向人脸3D几何与纹理的无监督多视角联合学习,获得更精准、更清晰的重建结果;
02
面向人脸几何ID、表情与姿态,人脸本征纹理与光照更好地解耦表达;
03
面向更高性能、更低功耗的人脸3D计算与优化;
044
面向更深入的CV与CG技术跨领域结合,提升重建算法在开放场景下的泛化能力。
03
人脸3D方向技术应用
优图人脸3D相关技术已在多个业务场景获得应用,各类3D能力有效提升用户体验。具体能力包括人脸3D美型、真实感3D特效以及人脸3D美妆等面向直播短视频以及视频会议场景的3D特效能力。与此同时,优图与游戏天涯明月刀合作研发的游戏照片3D捏脸“黑科技”也已经顺利应用落地,用户依靠照片即可一键创建出与照片人脸一致的游戏3D形象。
04
后记
随着人工智能技术的不断发展,人脸技术伴随产业发展与各行各业全面渗透,并在越来越多领域被广泛应用。作为腾讯CSIG旗下的顶级人工智能实验室,优图专注于在CV的领域,包括人脸人体、图像识别、OCR等视觉领域的前沿技术研究和应用落地,为To B场景提供行业解决方案,同时为腾讯内部产品提供底层AI技术支撑,以科技助力全新的未来生活。