SIGGRAPH 2023 | Live 3D Portrait: 用于单图像肖像视图合成的实时辐射场

来源：SIGGRAPH 2023 论文题目：Live 3D Portrait: Real-Time Radiance Fields for Single-Image Portrait View Synthesis 论文链接：https://research.nvidia.com/labs/nxp/lp3d/ 论文作者：Alex Trevithick 等人 内容整理: 林宗灏本文提出了从单张图像实时推理渲染照片级 3D 表示的单样本方法，该方法给定单张 RGB 输入图像后，编码器直接预测神经辐射场的规范化三平面表示，从而通过体渲染实现 3D 感知的新视图合成。该方法仅使用合成数据进行训练，通过结合基于 Transformer 的编码器和数据增强策略，可以处理现实世界中具有挑战性的输入图像，并且无需任何特殊处理即可逐帧应用于视频。

引言

图 1：给定单张 RGB 输入图像，我们的方法可实时生成物体的 3D 感知图像和几何，而最先进的 3D GAN 反演在经过 20 分钟的微调后仍无法生成令人满意的结果。我们的方法也可应用于视频的逐帧合成。LT 指的是我们模型的轻量级快速版本，其质量与完整的模型几乎相同。

从单张图像中以数字方式再现物体的 3D 外观是计算机图形学和视觉的一个长期目标。EG3D 提出了一种高效的三平面 3D 表示法，结合基于 NeRF 的表示和 GAN，展现了实时 3D 感知图像渲染，其质量可与 2D GAN 相媲美。3D GAN 生成器训练完成后，可通过 GAN 反演和测试阶段微调用于单图像 3D 重建任务。然而，目前基于 3D GAN 反演的方法面临着一些挑战：（1）由于 NeRF 的多视图性质，在单视图设置中训练需要细致的优化目标和额外的 3D 先验，以避免在新视图下出现不理想的结果；（2）测试阶段的优化需要精确的相机姿态作为输入或进行联合优化；（3）对每幅图像进行上述优化非常耗时，限制了该技术在实时视频应用中的应用。

在这项工作中，我们提出了一种从单张图像（如人脸肖像）实时（消费级硬件上 24fps）推理渲染照片级 3D 表示的单样本方法。给定单张 RGB 输入图像，我们的图像编码器直接预测神经辐射场的规范化三平面表示，从而通过体渲染实现 3D 感知的新视图合成。我们仅使用合成数据训练我们的三平面编码器管线，并展示了如何将预训练 3D GAN 的知识蒸馏至前馈编码器中。通过结合基于 Transformer 的编码器和数据增强策略，我们的方法可以处理现实世界中具有挑战性的输入图像，与需要在测试阶段微调的强 GAN 反演基线相比，能够生成更高质量的结果，并且无需任何特殊处理即可逐帧应用于视频。本文的主要贡献总结如下：

我们提出了一个前馈编码器模型，从单张输入图像直接推理三平面表示，且无需在测试阶段优化。
我们提出了一种新的训练策略，仅使用从预训练 3D 感知图像生成器生成的合成数据来训练用于 3D 反演的前馈三平面编码器。
实验证明，我们的方法能在给定单张图像的情况下实时推理照片级 3D 表示。结合基于 Transformer 的编码器和即时增强策略，我们的方法能够鲁棒地处理具有挑战性的侧视图和遮挡图像。

方法

图 2：推理和训练管线。在推理阶段，我们以单张图像作为输入，使用 DeepLabV3 提取低分辨率特征。这些特征经过 ViT 和卷积输出，与高分辨率特征串联，再通过 ViT 和卷积解码为三平面表示，从而为体渲染过程提供条件，生成深度、特征、颜色和超分辨率图像。在训练阶段，我们从 EG3D 中采样一个身份，渲染两个监督视图。第一个视图作为编码器输入，预测三平面，然后根据这两个视角进行体渲染，并将渲染结果与 EG3D 的结果进行比较优化。

我们的目标是将训练好的 EG3D 生成模型知识蒸馏至前馈编码管线，该管线只需一次前馈网络传播即可将单张图像直接映射为规范的三平面 3D 表示，同时允许对输入在自由视角下进行实时渲染。我们的贡献集中于图像到三平面编码器和相关的合成数据训练方法。我们使用 EG3D 中的 MLP 体渲染器和超分辨率架构，并对所有组件进行端到端的训练。

三平面编码器

从任意 RGB 图像中推理规范化的 3D 表示，同时从输入中合成精确的主体特定细节是一项非常棘手的任务。我们将这一挑战分为两个目标：1）从图像中生成主体的规范化 3D 表示；2）渲染高频率的主体特定细节。我们开发并训练了一种混合卷积-Transformer 编码器，将一张 RGB 图像映射到规范的三平面表示。

如图 2 的上半部分所示，我们的编码器架构先使用 DeepLabV3 提取鲁棒的低分辨率特征

F_{low}

。然后，这些特征被送入 ViT（和 CNN）来对中间输出特征进行全局归纳偏置，即

F=Conv(ViT(F_{low})) quad (1)

其中，Conv 使用了 CNN，ViT 使用了 Segformer 来将输入快速映射到类似于三平面的高分辨率输出空间，高效的自注意力机制允许使用高分辨率的中间特征映射，从而使所有的信息都能从输入流向三平面。我们认为 ViT 特征足以成功创建主体的规范化 3D 表示（完成了第一个目标），并在实验中发现这种浅层的编码器足以合理地规范化主体，但还无法表示例如头发丝、胎记等重要的高频或主体特定的细节。

为了同时实现第二个目标（增加高频细节），我们对高分辨率特征进行了整合。我们使用编码器

E_{high}

对输入图像进行一次降采样的卷积编码，得到特征

F_{high}

。这些特征与提取的全局特征

串联，送入另一个 ViT 中，最后卷积解码为三平面，即

T=E(I)=Conv(ViT(F oplus F_{high})) quad (2)

其中，

oplus

表示沿通道维度串联。

训练

如图 2 下半部分所示，我们使用合成数据训练三平面编码器。我们首先采样一个隐向量并送入 EG3D 生成器得到对应的三平面

，这样即可在给定相机参数

的情况下通过冻结的 EG3D 生成器和三平面

渲染任意视角的图像。在每个梯度传播步下，我们从一个参考相机

P_{ref}

和另一个用于多视角监督的相机

P_{mv}

合成两组相同身份的图像，每组包含四张图像：特征图

I_f

、原始图像

I_{128}

、最终图像

I_{512}

、稠密深度图

I_D

。我们将由参考相机

P_{ref}

渲染的高分辨率图像

I_{512}

送入编码器

编码得到三平面

bar{T}

。然后，我们使用

bar{T}

在相机

P_{ref}

和

P_{mv}

下渲染得到另外两组图像，记为

bar{I}_f

、

bar{I}_{128}

、

bar{I}_{512}

、

bar{I}_D

。我们的损失函数包含 EG3D 和我们的编码器的合成结果比较与对抗生成目标：

L=L_{tri} L_{col} L_{LPIPS} L_{feat} lambda_1 L_{adv} lambda_2 L_{cate} quad (3)

其中，

L_{tri}

是

和

bar{T}

之间的 L1 损失；

L_{col}

是两组数据对

(I_{128},bar{I}_{128})

和

(I_{512},bar{I}_{512})

之间的平均 L1 损失；

L_{LPIPS}

是两组数据对

(I_{128},bar{I}_{128})

和

(I_{512},bar{I}_{512})

之间的 LPIPS 感知损失；

L_{feat}

是数据对

(I_f,bar{I}_f)

之间的平均 L1 损失；

L_{adv}

是使用 EG3D 中预训练的双重判别器计算的对抗损失，该判别器在训练过程中进行了微调；

lambda_1

对参考图像取

0.1

，对多视角图像取

0.025

；

L_{cate}

是可选的种类特定损失，对于人脸使用 ArcFace 的人脸身份特征并设定

lambda_2

取

，对于猫脸

lambda_2

取

。

我们的目标优化是端到端的，渲染、上采样和双重判别器模块根据预训练的 EG3D 进行微调。不同之处在于，我们的双重判别器通过训练以区分编码器模型渲染的图像和冻结的 EG3D 渲染的图像，不依赖于任何真实数据。

即时增强

简单地优化上述目标将产生一个在合成数据上表现几乎完美的模型，但缺乏了对真实图像的泛化能力。为了弥补这一缺陷，我们对标准 EG3D 方法进行了增强。我们从随机分布中采样相机的翻滚角、焦距、主点和距离来选择相机参数

P_{ref}

，

P_{mv}

则与 EG3D 一样选择固定值。对于

P_{ref}

，我们从相对正脸

pm 26^circ

俯仰角和

pm 49^circ

偏航角范围内对相机进行采样；对于

P_{mv}

，则从相对正脸

pm 26^circ

俯仰角和

pm 36^circ

偏航角范围内对相机进行采样。这样，我们的模型就可以在相机姿态变化较大的情况下进行监督，迫使模型学会有效规范化与推理具有挑战性的图像。

实验

定量结果

表 1：在单个 RTX 3090 GPU 上将输入图像编码和渲染所需的时间。我们的模型与轻量级模型的端到端运行时间明显快于基线方法。

表 2：在 500 张 FFHQ 图像上使用 LPIPS、DISTS、SSIM、姿态准确性（Pose）和身份一致性（ID）的定量评估。

表 3：使用 H3DS 数据集中的真值几何进行尺度和平移不变的深度评估。

定性结果

图 3：定性结果显示了我们的模型与 HeadNeRF、ROME 和 EG3D-PTI 等基线方法关于图像质量（左）和重建几何（右）的对比。当输入为侧视图时，EG3D-PTI 偶尔会出现受损的 3D 几何，表明仅靠学习到的 3D 先验数据不足以确保重建的鲁棒性。

图 4：H3DS 数据集上的几何与验证视图比较。由于 H3DS 真值数据存在不一致的光照，因此验证视图中的光照差异也在预料之中。

图 5：在不同俯仰角下与基线的比较。

图 6：在不同偏航角下与基线的比较。

图 7：由我们的模型（左）和轻量级模型（右）生成的 FFHQ 和 AFHQ 定性结果。我们展示了重建的输入视图、新视图以及学习到的几何。我们的模型能够在有遮挡的情形下推理出与输入一致的结构。

图 8：定性结果显示了我们的模型将域外的由 StyleGAN2 生成的画像提升至 3D 的能力，展现了我们模型的通用性。

消融实验

表 4：关于相机增强和 Transformer 模块的消融实验。去除增强，模型会像自编码器一样将真实图像映射到与输入图像相似的任意 3D 表示（高 ID 评分），但实际上并非 3D（低 Pose 评分）。去除 Transformer，编码器能对输入图像进行规范化 3D 表示（高 Pose评分），但无法表现输入图像中的细节（低 ID 评分）。我们的完整方法既能达到较好的 Pose 和 ID 得分，又能获得较高的重建质量。

表 5：关于判别器的消融实验。

图 9：关于 Transformer 模块的消融实验对比。无 Transformer 模块的模型使用参数量相似、分辨率一致的残差 CNN 替代。

图 10：关于相机增强的消融实验对比。我们对输入图像进行了非中心旋转和裁剪。在没有增强的情况下，我们的结果和 EG3D-PTI 均出现了伪影。

图 11：关于判别器的消融实验对比。不使用判别器进行训练将导致图像模糊。

渲染 live 模型数据优化

0 人点赞