近期,国际计算机视觉与模式识别会议CVPR 2022在美国新奥尔良举行,并同步进行线上会议。由王君乐博士带领的腾讯Turing Lab实验室提交的论文《High-resolution Face Swapping via Latent Semantics Disentanglement》(基于隐语义解耦的高分辨率换脸)成功入选。
论文由腾讯Turing Lab与华南理工大学、卡迪夫大学及香港大学合作完成。接下来,我们将为大家解读论文的核心成果,一起来学习计算机视觉领域的最前沿研究吧!
CVPR
基于隐语义解耦的高分辨率换脸
High-resolution Face Swapping via Latent Semantics Disentanglement
在换脸任务中,我们需要针对给定的源脸和目标脸,将源脸的身份信息迁移至目标脸上,并同时保持目标脸的属性信息。该技术近年来获得大量关注的,并在互动娱乐、广电、安全与隐私保护等领域均展现出较大的应用潜力。
这篇论文提出了一种新的、基于预训练GAN模型中内在先验知识的换脸方法,实现了高分辨率(1024X1024)换脸。该方法除了能保持目标脸的常见属性信息,如表情、姿态、光照、背景等之外,还可以更好地保持目标脸的妆容信息。
在这个工作中,我们利用生成对抗模型隐空间的解耦特性,将不同性质的属性分别迁移。具体来说,表情、姿态等是与结构相关的属性,而光照、风格等是与外观相关的属性。这两类属性由隐编码的不同层分别控制:一张图片隐编码的前半部分控制结构信息,而后半部分控制外观信息。
我们先分别将源脸和目标脸反转到StyleGAN的隐空间内。同时将源脸和目标脸关键点的热图送入关键点编码器,得到一个结构属性转移向量,这个向量作用在源脸的隐编码上,即可实现结构属性的迁移。
同时,我们用目标脸隐编码的后半部分代替源脸隐编码的后半部分,这样即可实现外观属性的迁移。将处理之后的隐编码送入预训练好的StyleGAN中,即可得到初步的换脸结果。
此外,为了实现目标脸背景的迁移,我们将目标脸直接送入目标编码器,得到不同分辨率的特征,并和StyleGAN中间过程中产生的特征在解码器中进行融合。这样我们就获得了最终的结果y。实验结果表明,我们的方法在图片和视频换脸任务中,许多方面的效果均超过了多SOTA方法。
注:图片只用作学术研究,不用于商业用途。
// 关于CVPR
CVPR 全称 IEEE 国际计算机视觉与模式识别会议(IEEE Conference on Computer Vision and Pattern Recognition),该会议始于 1983 年,是计算机视觉和模式识别领域的顶级会议。今年大会共收到来自全球各大高校、科研机构与科技公司共8186篇投稿,最终接收的论文几乎都代表了年度计算机视觉领域最新、最高科研水平以及未来发展趋势。
此次论文入选,也是对腾讯Turing Lab实验室现阶段科研及创新能力的认可。未来,腾讯Turing Lab将继续努力,为大家在计算机视觉领域带来更多可能。
// 腾讯Turing Lab负责人
王君乐
腾讯专家研究员
腾讯Turing Lab实验室负责人
拥有十余年计算机视觉、多媒体、机器学习领域研究经验,在人体姿态估计与重建、图像质量评价、计算摄影学、沉浸式多媒体等领域有较深的了解及实战经验,并在这些领域带领团队进行探索与落地的工作。
曾主导腾讯CenseoQoE画质评价方案的建设与社区开源,主导腾讯先锋云游戏云端虚实互动技术的研发。此外,在包括CVPR、NeurIPS、TIP、TMM等顶级会议及期刊上发表多篇论文,并为多个会议及期刊担任审稿人及组织者。
关于腾讯WeTest
腾讯WeTest是由腾讯官方推出的一站式质量云平台。十余年品质管理经验,致力于质量标准建设、产品质量提升。腾讯WeTest为移动开发者提供兼容性测试、云真机、性能测试、安全防护等优秀研发工具,为百余行业提供解决方案,覆盖产品在研发、运营各阶段的测试需求,历经千款产品磨砺。金牌专家团队,通过5大维度,41项指标,360度保障您的产品质量。