AI科技评论报道
编辑 | 陈大鑫
随着人脸识别技术的广泛落地,为了提高识别的准确率,针对人脸重建的技术也在不断迭代升级,重建精度越来越高。
然而,通过目前普通的低维参数化模型虽然降低了建模的难度,但是构建低维参数化模型的方法不具有普适性,而针对不同人种进行模型训练又要耗费极大的精力和成本。
基于此,本文介绍的卢深视联合中国科技大学的研究者们共同提出的一种基于多种不同数据源来构建低维参数化三维人脸表示模型的方法。相比已有的参数化模型,可以得到更高精度的人脸几何形状。
目前该论文发表于图像处理领域顶级期刊IEEE Transactions On ImageProcessing(简称TIP)。
论文链接:https://arxiv.org/pdf/1808.05323.pdf
1 现状:普通低维参数化模型难以做到普适性
相较于刚性物体,人脸几何细节相当复杂,因而要对眼睛、鼻子、嘴唇等进行高精度几何细节建模,需要包含较多顶点的网格模型。然而,越多的顶点就会导致建模难度越大,例如五千个顶点就包含了一万五千个自由度。
为了降低难度,通常采用的方法是提取采集好的三维人脸几何形状数据集主成分,建立三维人脸几何形状的低维参数化模型,将一万多个自由度降低到了一百多个。给定任意三维人脸形状,即可通过这个低维参数化模型的一百多个系数逼近,进行建模,极大地降低了几何建模的难度。
目前,大多数三维人脸建模方法都基于类似的低维参数化模型,构建此低维参数化模型的方法将直接影响后续的几何建模精度。
例如,基于欧美三维人脸数据库构建的低维参数化模型就不太适用于东亚人脸。构建适合于中国人的低维参数化三维人脸模型,最直接的方式是采集不同性别、年龄、民族等的一百个人的面部信息,并采用高精度扫描仪得到每个人的每个表情的高精度几何模型。但是该方式所需要投入的精力与成本较高。
这就引出文章关注的问题:如何针对应用快速构建一个合适的低维参数化三维人脸模型。
2 解决办法:基于多模态数据源构建低维参数化模型
为了解决以上问题,的卢深视与中国科学技术大学的研究者们共同提出一种基于多种不同数据源来构建低维参数化三维人脸表示模型的方法。
具体来说,通过采集到的少量高精度三维人脸几何形状,用iPhone X采集到的多人、任意表情的RGB-D序列,以及大量公开的彩色图像一起作为输入对象。
以已有的低维参数化模型为基础,采用神经网络方法对已有模型进行优化,以更好地拟合所输入的扫描数据、RGB-D数据、彩色数据。
将该模型训练好之后,再给定测试图片。
视频演示
可以看出,相比已有的参数化模型,采用本文方法所训练得到的模型可以更好地拟合,因而得到更高精度的人脸几何形状。
具体算法流程如下:
图1:论文提出的方法流程示意图
通过这一方法,我们所训练得到的模型可以支持图片、RGB-D图像,以及扫描模型作为输入,都可以得到较好的重建结果。
图2:图片、RGB-D图像,以及扫描模型作为输入的重建结果
不仅如此,采用本文所训练得到的方法,相比已有的参数化模型来说,重建精度更高,以下为几种输入方式的重建结果对比。
图3:基于RGB-D输入的重建结果对比
图4:基于人脸数据库图片输入的重建结果对比
图5:基于RGB方法的重建结果对比
可以看出,通过该方法可以提升低维参数化模型构建精度,相较于原有低维参数化模型,多模态数据输入都可得到重建精度更高的结果。
更多方法细节可以阅读原论文。
基于多种不同数据源来构建低维参数化三维人脸表示模型的方法所输出的更高精度三维重建结果,势必会提升三维机器视觉技术迭代、技术应用落地的效率,真正迎来三维视觉世界。
目前,三维机器视觉主要应用在边检安防等高安全等级需求的场景,而随着三维技术的提升,高安全性、高准确性、高性价比等优势,将革新现有的人机交互体验。且伴随着5G、新基建的不断深入,更多利民场景下三维视觉技术也将大展拳脚,让人工智能实现真正的普惠。