SIGGRAPH Asia 2023 | 利用形状引导扩散进行单张图像的3D人体数字化

2023-11-29 13:59:09 浏览数 (1)

作者:Badour AlBahar 等 论文题目:Single-Image 3D Human Digitization with Shape-Guided Diffusion 来源:SIGGRAPH Asia 2023 论文链接:https://arxiv.org/abs/2311.09221 内容整理:王怡闻 本文提出了一种方法,能够从单一输入图像中生成360°的3D高分辨率RGB人体图。NeRF及其变种通常需要来自不同视点的视频或图像。大多数现有方法使用单眼输入,要么依赖于地面真实的3D扫描进行监督,要么缺乏3D一致性。尽管最近的3D生成模型展现了在3D一致的人体数字化方面的潜力,但这些方法在适应各种服装外观方面表现不佳,而且结果缺乏逼真感。与现有工作不同,本文利用事先针对通用图像合成任务进行预训练的高容量2D扩散模型作为着装人体外观的先验。为了在保留输入身份的同时实现更好的3D一致性,我通过基于轮廓和表面法线的形状引导扩散,逐步合成输入图像中人物的多个视图,并修复缺失区域。然后,通过反向渲染将这些合成的多视图图像融合,得到给定人物的完全贴图的高分辨率3D网格。实验证明,该方法优于先前的方法,并实现了对来自单一图像的各种着装人体的逼真360度合成,包括复杂纹理。

  • 引言
  • 方法
    • 背景视图合成
    • 多视图可见纹理聚合
    • 形状引导扩散修补
    • 多视图融合
  • 实验
    • 定量比较
    • 定性比较
    • 消融实验
    • 主要局限性
  • 结论

引言

图 1

现有方法的生成外观,特别是在遮挡区域,逼真性很差。我们认为现有方法的性能不佳是由于训练数据的有限多样性导致的。然而,扩展现有的2D服装人类数据集还需要大量的人工注释。为了解决这个限制,我们提出了一种简单而有效的算法,可以从单一图像中创建一个3D一致纹理的人类,而无需依赖经过策划的2D服装人类数据集进行外观合成。

我们的关键思想是利用在极大的图像语料库上训练的强大的2D生成模型作为人类外观的先验。具体来说,我们使用扩散模型,它使我们能够合成多样化和逼真的图像。与最近利用2D扩散模型从文本输入生成3D对象的工作不同,我们使用扩散模型以3D一致的方式重建输入图像中真实人物的360度视图。我们首先使用一种现成的工具重建人物的3D几何形状,然后使用2D单一图像的人物重定位方法生成输入图像的背景,以确保完成的视图与输入视图一致。接下来,我们通过渐进地修补新视图,利用预训练的修补扩散模型,并由法线和轮廓引导,合成3D结构。为了生成新视图,我们通过基于重要性的RGB颜色混合所有其他视图。与先前的工作相似,我们使用这些视图的可见像素与感兴趣的当前视图之间的角度差异以及它们到最近缺失像素的距离来确定混合过程中每个视图的适当权重。这确保了生成的多视图图像彼此一致。最后,我们通过考虑合成的多视图图像中的轻微不对齐来执行多视图融合,以获得完全贴图的高分辨率3D人体网格。我们的实验表明,所提出的方法比先前的方法更详细、更准确地合成了穿着服装的人体,而不需要高质量的3D扫描或策划的大规模服装人类数据集。我们的贡献包括:

  • 我们首次证明,用于一般图像合成的2D扩散模型可以用于从单一图像中进行3D纹理人类数字化。
  • 我们的方法通过使用法线图和轮廓图来指导扩散模型,保留了底层3D结构的形状和结构细节。
  • 通过将合成的多视图图像融合到共享的UV纹理映射中,我们实现了3D一致的纹理重建。

方法

图 2

背景视图合成

前视图和背景视图之间存在强烈的语义关联,例如T恤的背面很可能是具有相似纹理的T恤,而轮廓提供了结构性的指导。因此,在合成其他视图之前,首先合成了人物的背景视图作为指导。

具体而言,论文提到了使用先进的2D人体合成方法(AlBahar et al. 2021)与推断的密集姿势预测来生成人物的背景视图。为了生成与输入图像精确对齐的密集姿势预测,首先从与输入视图相反的视角渲染形状

0 人点赞