CVPR2022 | 曾经火爆全网的算法！升级版来袭，支持卡通形象！

大家好，我是阿潘之前 ”蚂蚁呀嘿“ 的算法火的不行。今年的CVPR 2022 ，又有一个新算法，效果更加炸裂！相比之前，现在对于动漫头像的驱动效果也可以做到非常的逼真！

按照惯例，先看效果视频：

http://mpvideo.qpic.cn/0bc3giaacaaa4aaj4pf54rrfamwdaezaaaia.f10002.mp4?

论文：Depth-Aware Generative Adversarial Network for Talking Head Video Generation

资料汇总：

https://arxiv.org/pdf/2203.06605.pdf https://github.com/harlanhong/CVPR2022-DaGAN https://harlanhong.github.io/publications/dagan.html

摘要

talking head 视频生成旨在生成合成人脸视频，其中包含分别来自给定源图像和驱动视频的身份和姿势信息。这项任务的现有工作严重依赖从输入图像中学习的 2D 表示（例如外观和运动）。然而，密集的 3D 面部几何（例如像素深度）对于这项任务非常重要，因为它对我们从本质上生成准确的 3D 面部结构并将噪声信息与可能杂乱的背景区分开来特别有益。然而，密集的 3D 几何标注对于视频来说成本高得令人望而却步，并且通常不适用于此视频生成任务。在本文中，我们首先介绍了一种自监督几何学习方法，可以自动从人脸视频中恢复密集的 3D 几何（即深度），而不需要任何昂贵的 3D 标注数据。基于学习到的密集深度图，我们进一步建议利用它们来估计捕捉人头关键运动的稀疏面部关键点。以更密集的方式，深度还用于学习 3D 感知的跨模态（即外观和深度）注意力，以指导生成运动场以扭曲源图像表示。所有这些贡献构成了一个新颖的深度感知生成对抗网络（DaGAN），用于talking head 生成。进行的大量实验表明，我们提出的方法可以生成高度逼真的人脸，并在看不见的人脸上取得显着效果

Talking Head Generation 是什么

Talking Head Generation 的目的是合成一个人脸视频，这个合成视频的身份和姿态信息分别来源一个给定的source图片和驱动视频

相关方法

Xface

FOMM（目前最流行的方法，之前爆火）

Face-vid2vid 等等