秒杀Deepfake！微软北大提出AI换脸工具FaceShifter和假脸检测工具Face X-Ray

新智元报道

来源：venturebeat、arxiv

编辑：向学、大明

【新智元导读】人脸识别的“利矛与坚盾”同时出炉！微软亚洲研究院和北京大学最近联合发表2篇重量级学术论文，提出了FaceShifter和FaceX-Ray——前者是一种高保真、能够感知遮挡的AI“换脸工具”，后者则是针对伪造人脸图像的通用检测工具，在取得业界领先的性能的同时，所需数据量也少得多。戳右边链接上新智元小程序了解更多！

最先进的AI和机器学习算法不仅可以生成栩栩如生的位置和物体的图像，还擅长将人脸头像从一个人换成另一个人的。另一方面，研究人员也在不断开发能够检测deepfake假图像的识别工具。这场在机器学习图像识别领域的“矛与盾”之争愈演愈烈。

最近，微软研究院和北京大学的研究团队就同时造出了一对“利矛”和“坚盾”，他们发表的两篇论文分别提出了FaceShifter和Face X-Ray——前者是一种高保真度、可识别遮挡的换脸工具，后者则是能够检测伪造人脸图像的工具。

研究人员表示，与多个现行基线方法相比，这两种方法都能在不牺牲性能的情况下取得业界领先的结果，而且所需的数据比以前的方法少得多。

利矛：高保真度换脸工具FaceShifter

这个新工具采用两层框架结构。过去换脸应用的主要困难在于提取面部特征，然后将两张图的特征和属性组合在一张图中，最近基于GAN的工作取得了明显进步，但仍然在合成高精度、真实图像结果上面临挑战。

研究人员提出了一个新的两部分架构，称为FaceShifter，可以实现高精度和遮挡条件下的换脸。第一部分通过充分，自适应对目标属性进行挖掘和集成，生成高清换脸图片。使用新的属性编码器，提取多级目标的人脸属性，利用自适应注意力非正规化（AAD）层的新生成器整合人脸合成图片的特征和属性。

架构的第二部分主要解决面部遮挡问题，这部分包括一个新的启发式错误确认细化网络（HEAR-Net）。训练后，可以以自监督的方式恢复图像的异常区域，无需任何手动注释。在新面部图像上进行的大量实验表明，与其他方法相比，本文模型生成的换脸图片结果不仅在感观上更真实、更具吸引力，而且还保留了原图像更多的特征。

第一阶段的AEI-Net结构。AEI-Net由身份编码器，多级属性编码器和AAD生成器组成。AAD生成器使用在AAD层上构建的级联AAD ResBlk，可在多个功能级别中集成图像特征和属性的信息

第二阶段的HEAR-Net和生成效果

与FaceSwap、Nirkin、FaceForensics 、DeepFake、IPGAN 等模型生成效果的比较。我们的模型更好地保留了源图像的脸部形状，也更忠实于目标属性（照明，图像分辨率）

与现有其他换脸模型的性能效果对比

坚盾：面部假图像检测工具Face X-ray

典型的换脸合成方法包括三个阶段：1）检测面部区域；2）合成期望的目标面部 3）将目标面部融合到原始图像中。现有的对面部合成图像检测通常面向第二阶段，并基于数据集训练有监督的每帧二进制分类器。这种方法可以测试数据集上实现近乎完美的检测精度，如果遇见训练时没见过的假图像，性能会出现明显下降。

与现有方法不同的是，Face X-Ray不需要事先知道操作方法或人工监督，而是生成灰度图像，显示给定的输入图像是否可以分解为来自不同来源的两个图像的混合。研究人员声称，这种方法是可行的，因为大多数方法在将已改变的面部混合到现有背景图像的过程中，有一个步骤是相同的。每个图像都会从硬件（如传感器和镜头）或软件（如压缩和合成算法）中引入的自己独特的标记，并且这些标记在整个图像中趋向于类似呈现。

Face X-Ray不需要依赖于与特定人脸操作技术相关的伪影知识，并且支持它的算法可以在不使用任何方法生成假图像的情况下进行训练。

在一系列实验中，研究人员在Face Forensics （一个包含1000多个用四种最先进的面部操作方法操作的原始剪辑的大型视频语料库）和另一个包含由真实图像构建的混合图像的训练数据集上训练了Face X-Ray。他们评估了FaceX-Ray使用四个数据集进行概括的能力：

上述FaceForensics 语料库的一个子集；Google发布的数千个视觉deepfake视频集合，deepfake检测挑战赛的图像；以及Celeb-DF，一个包含408个真实视频和795个合成视频且视觉伪影减少的语料库。

研究结果表明，Face X-Ray 能有效地识别出未被发现的假图像，并能可靠地预测混合区域。研究人员指出，这个方法依赖于一个混合步骤，因此可能不适用于完全合成图像，可能被对抗性样本骗过。不过，这确实是迈向通用化面部伪造图像检测工具的有希望的一步。

作者介绍

这两篇文章的作者来自微软亚洲研究院（MSRA）视觉计算团队，团队成员大部分毕业于中科大、北大等国内名校，也都有过在MSRA的实习经历，多人获得Fellowship奖。下面以网上公开信息为基础，介绍一下这两篇文章的作者。

李凌志

北京大学硕士研究生，北京交通大学工商管理学士。过去一年在MSRA视觉计算团队研究实习生。研究兴趣是计算机视觉、机器学习和深度学习。对生成模型和Deepfake检测领域特别感兴趣。

鲍建敏

MSRA视觉计算团队研究员。此前于2014年和2019年获中国科学技术大学理学学士、博士学位，师从罗杰波教授和李厚强教授。研究兴趣是计算机视觉，机器学习。对人脸检测，识别，合成以及GAN领域特别感兴趣。

Zhang Ting

MSRA视觉计算团队高级研究员。在2017年7月加入MSRA之前，分别于2012年和2017年获中国科学技术大学学士、博士学位。2013年至2017年在MSRA实习，并于2015年获得了MSRA Fellowship奖。目前研究兴趣集中在计算机视觉的深度学习上。

杨昊

2017年末加入MSRA视觉计算团队。此前在清华大学软件学院获学士、博士学位。研究兴趣包括但不限于对面孔，肖像和3D图像的理解和合成。

陈栋

2015年7月加入MSRA视觉计算团队。此前分别于2010年和2015年获中国科学技术大学学士、博士学位。2010年至2015年在MSRA实习，并于2013年获得MSRA Fellowship奖。

Wen Fang

MSRA视觉计算团队首席研究员。

郭百宁

微软亚洲研究院常务副院长，负责图形图像领域的研究工作。郭博士拥有美国康乃尔大学硕士和博士学位，北京大学学士学位。他还是电气电子工程师学会会士（IEEE Fellow）和美国计算机协会会士（ACM Fellow）。研究兴趣包括计算机图形学、计算机可视化、自然用户界面以及统计学习。在纹理映射建模、实时渲染以及几何模型等领域取得的研究成果尤为突出。

参考链接：

https://venturebeat.com/2020/01/06/microsoft-researchers-propose-face-swapping-ai-and-face-forgery-detector/

论文链接：

https://arxiv.org/pdf/1912.13457.pdf

https://arxiv.org/pdf/1912.13458.pdf

图像处理检测工具机器学习神经网络

0 人点赞