近年来,从单张图像中进行三维物体重建的研究主要集中于提高物体形状的准确性。然而,这些技术往往无法准确捕捉物体、地面和相机之间的相互关系。 因此,当将重建的物体放置在平坦表面上时,它们常常看起来像是漂浮的或倾斜的。这种局限性对诸如阴影渲染和物体姿态操作的具有3D意识的图像编辑应用产生了重大影响。 为了解决这个问题,作者提出了ORG(结合地面的物体重建)这一新颖任务,旨在同时重建三维物体几何和地面表面。作者的方法使用两种紧凑的像素级表示来描述相机、物体和地面之间的关系。 实验表明,所提出的ORG模型能够有效地在未见数据上重建物体-地面几何,与传统的单图像三维重建技术相比,显著提高了阴影生成和姿态操作的质量。
1 Introduction
在联合物理可行地面的物体重建任务虽然尚未广泛探索,但其重要性不容忽视。这在图像编辑应用领域尤为相关,因为它影响着诸如可控阴影/反射合成和物体视图操作等关键方面。在这项工作中,作者旨在从单一图像中预测物体在3D空间中准确且基于地面的表示,特别是在不受限制的相机条件下。最近的单视图方法在处理物体重建方面显示出巨大潜力。然而,由于缺乏集成的物体-地面建模,使用这些方法重建的物体在放置在平坦表面上时常常显得“悬浮”或“倾斜”,这极大地阻碍了真实感的渲染。
更具体地说,近期关于单目深度估计的工作表现出色的性能。它们通过直接估计像素级深度值,从单视图图像中恢复物体的3D信息。它们的模型在大规模数据集上进行训练,因此能够很好地泛化到野生图像上。然而,正如[60]所指出的,将深度图投影到3D点云需要额外的相机参数。在某些情况下,现成的估计器可以提供这些参数的粗略估计,但这种做法限制了在不受控环境中的物体重建的灵活性和有效性。此外,深度或视差图中的未知偏移会导致3D重建失真(见图2顶部行)。没有明确建模物体-地面关系,恢复的3D物体很难放置在平坦的支持平面上(见图2底部行)。这些挑战也出现在最近的按类别特定的2D到3D方法中,这些方法从潜在嵌入空间恢复3D形状以及零样本新视图合成方法中,它们常常仅假设简单的正交相机模型,或者假设相机参数作为输入以避免问题过度复杂化,这在另一方面限制了它们在不受限场景中的应用。
为了应对这些挑战,作者提出了ORG(与地面联合的物体重建),这是一种用于表示物体与地面关系的新方法。给定单一图像,作者的目标是同时推理物体的3D形状、相对于地面平面的位置以及相机参数。
作者将作者的方法与三种现有研究主线进行了比较:深度估计、潜在嵌入重建以及基于扩散的新视图合成,以及多视图重建技术,具体见表1。现有的单视图方法常常无法保持物体-地面关系,通常预设已知的相机参数或依赖于过于简化的相机模型,导致在诸如高效阴影生成等任务上的性能次优。与之形成鲜明对比的是,作者模型的输出支持物体、地面和相机之间的复杂相互作用(见图1),从而实现了卓越的阴影生成和姿态感知几何重建。为此,作者将物体建模为包括其前(可见)和后表面,并预测物体与地面之间的两个像素级高度图[41],以及一个密集的相机参数描述符[16]。作者的结果表明,这种简化的物体表示不仅足以生成3D真实阴影,还能为广泛遇到的物体提供令人信服的重建。
作者从_Objaverse_[10]创建作者的训练数据,为每个物体渲染六张具有不同焦距和相机视角的图像。作者在两个未见过的数据集上评估了作者的方法,包括物体和人,并在随机的未见过的网络图像上展示了定性结果。作者的方法在各种场景中在准确性、鲁棒性和效率方面优于现有方法。结果显示,作者的方法取得了卓越的性能,并为单视图物体几何估计的挑战提供了更全面、更轻量级的解决方案。
总之,作者的主要贡献如下:
- 一种名为ORG的新框架,用于野生单视图物体-地面3D几何估计。据作者所知,这是首次从单一图像中联合建模物体、相机和地面平面的方法。
- 作者提出了一种由透视场引导的像素高度重投影模块,以有效地将作者的估计表示转换为常见的深度图和点云。
- ORG在未见过的真实世界图像上实现了卓越的阴影生成和重建性能,展示了强大的鲁棒性和泛化能力。
2 Related Work
单视图深度估计。近年来,在单目深度估计方面已取得显著进展。在给出度量深度监督的情况下,一些研究直接训练其模型以回归深度目标。尽管这些方法在各种数据集上取得了优异性能,但获取度量 GT 深度难度限制了直接深度监督的使用。相反,另一项研究依赖于排序损失,评估相对深度[6, 53],或用于监督的比例和移位不变损失[34, 44]。后者方法在不进行大量标注努力的情况下,产生了特别稳健的深度预测,但这些模型无法推理物体与地面的关系,并且在使用深度图进行下游图像编辑任务时,常常产生不真实的结果。鉴于此,最近的一项工作[41]提出了另一种便于标注的表示形式——像素高度,以更好地生成物体阴影。然而,这种方法对摄像机视角有严格限制。作者将这种表示形式重新用于单视图3D重建,并通过结合摄像机与物体几何模型,放宽了视角限制。
单视图3D几何重建。从单视图图像中重建物体形状是一个具有挑战性但已确立的问题,其开创性工作[37]通过优化具有已知3D模型的物体的6自由度姿态。在接下来的几十年中,基于学习的方法开始提出针对3D估计的类别特定网络,这些网络涵盖了一系列具有[4, 18]和没有直接3D监督 的物体,并使用神经隐式表示[30, 58]。在稳健的3D监督下,最近的方法已证明了在有限内存中学习3D几何的可行性。Pixel2Mesh 提供了一种使用单一图像输入重建带有网格的3D形状的方法。同时,PIFu提供了一种有效的隐式函数,用以恢复包括以前未见和被遮挡区域的人体高分辨率表面。尽管这些工作取得了卓越的性能,但其中一些依赖于学习特定于某一物体类别的先验知识,这限制了其在野外环境中的泛化能力。最近,文本到3D生成[5, 22, 32, 49]的进展也启发了使用扩散先验进行图像到3D生成。Mask 自动编码器也被用于从单幅图像中进行物体重建[51]。相比之下,作者的方法是首个针对地面进行物体几何建模的方法,以便于高效的图像编辑和3D重建。
摄像机参数估计。单视图单目3D物体理解的一个关键方面是获取摄像机的焦距以及摄像机相对于物体和地面平面的姿态。经典方法利用参考图像组件,包括校准网格[61]或消失点[11],来估计摄像机参数。最近,提出了一些数据驱动的方法,使用深度神经网络直接从野外图像推理焦距[15, 50]和摄像机姿态[19, 28, 54],或使用密集表示[16]编码摄像机参数,以进行更稳健的估计。相比之下,作者的方法ORG同时估计内在和外在摄像机参数以及物体几何和地面位置,实现了自包含的3D感知图像编辑和重建流程。
3 Approach
ORG通过联合预测像素高度和透视场来考虑单一视角下的目标几何估计。作者在图3中概述了作者的框架。将目标几何和相机参数建模为密集场,作者首先介绍密集目标地面和密集相机表示的背景知识(第3.1节)。作者学习一个金字塔视觉 Transformer (PVT)[47, 48]来预测密集表示场(第3.2节),并通过提出一种透视引导的像素高度重投影方法(第3.3节)来证明它们可以重新用于重建任务。
Object, Ground, and Camera Representations
像素高度表示。 在单图像阴影生成中提出[41, 42],像素高度是一种密集表示,定义为物体上一个点与其在图像中的地面投影之间的像素距离,即其在图像中的垂直投影,如图3所示。这是一个像素级的标量,用于测量图像坐标中物体与其支撑平面之间的距离(以像素计,而不是米)。像素高度在建模物体几何方面比深度表示具有许多优势。首先,它与相机模型无关,因此可以直接从图像上下文推理,无需额外的相机信息。此外,它建模了物体与地面之间的关系,这对于为现实世界图像应用生成逼真的3D模型至关重要,因为物体几乎总是位于地面平面的标准位置。
尽管可以通过投影几何从像素高度图生成照片级真实的阴影,但作者认为这种新表示具有更大的潜力。通过相对于2D平面约束物体位置,像素高度表示在重建位于地面之上的物体3D形状方面发挥着关键作用。此外,对于像素高度[41],对相机视角有严格的要求,只考虑物体的前表面。因此,作者 Proposal 通过建模物体的前表面和后表面来放宽这一条件,并联合预测相对于地面的相机内参和姿态。最后,使用视场(FoV)将像素距离提升为度量距离,相机视角有助于将物体相对于地面对齐到标准姿态。
透视场表示。 如图3所示,给定图像的透视场表示由两个密集场组成,一个是用蓝色等高线表示的纬度场,另一个是用绿色箭头表示的向上向量场[16]。具体来说,假设一个以相机为中心的球面坐标系,其中天顶方向与重力相反。相机模型 将球面坐标系中的3D位置 投影到图像框架 。对于每个像素位置 ,向上向量定义为沿经线向北极的方向上 的切向方向的投影,纬度定义为从相机指向 的向量与地面平面之间的角度。换句话说,纬度场和向上向量场分别编码物体上点的俯仰角和滚转角。透视场和像素高度图对于图像编辑操作(如裁剪、旋转和平移)是不变的或等变的。因此,它们非常适合于为密集预测任务设计的神经网络模型。
Dense Field Estimation
作者提出了一种神经网络模型,用以从单张图像中估计两个密集场。像素高度和透视场表示的每个像素的结构以及平移不变性使它们非常适合神经网络预测。遵循文献[34, 60]的方法,作者将密集场估计任务制定为一个回归问题。具体来说,对于像素高度场中的每个图像像素,假设从相机出发指向该像素的射线穿过物体,物体前表面的入口点为 ,后表面的出口点为 。当射线多次穿过物体表面时,作者只考虑第一个入口和最后一个出口。然后模型预测 和 的像素高度,并将其与输入图像的高度进行归一化。对于纬度场,作者将原始的 范围归一化为 。对于上向量场,每个角度 可能在 到 之间变化,由于 和 表示相同的角度,直接归一化和回归对模型来说存在歧义。因此,作者用元组 表示每个角度 ,并训练模型回归到一个双通道向量图。所有回归任务都采用 损失进行训练。
模型架构与训练细节。作者采用 PVTV2-b3 [48] 的架构作为作者的基础网络来提取联合特征图。作者使用带有混合Transformer-B3的SegFormer [55] 作为作者的解码器。在解码器之前添加残差连接,以包含来自2层CNN块的较低级上下文。作者发现基于Transformer的编码器适合作者的任务,因为它有效地保持了两个密集表示场中的全局一致性。作者进一步对解码器 Head 进行修改,使其能够为像素高度图、上向量图和纬度场图生成回归值。作者使用在COCO数据集 [23] 上预训练的 PVTV2-b3 作为作者架构的基础网络。该模型使用 AdamW [27] 优化器进行训练,学习率为 ,权重衰减为 -,共训练 K 步,批处理大小为8,在一台4-A100机器上进行。作者在步骤 K、K 和 K 处安排了多步骤训练阶段,每个阶段学习率降低10倍。在训练期间,作者将图像大小调整为 ,并使用水平翻转、随机裁剪和颜色抖动增强。
Perspective-Guided Pixel Height Reprojection
在预测了两个密集表示之后,作者证明它们编码了足够的信息,可以有效地转换为深度图和点云,以供下游任务使用,并与现有方法进行公平比较。首先,由于视场可以从相机参数生成,作者离散化连续的参数范围,并使用网格搜索优化策略来估计相机视场角 和外参旋转矩阵 作为俯仰角和横滚角。之后,计算相机焦距为 ,其中 是输入图像的高度。然后,内在矩阵 也估计为:
其中 是图像的主点,通常估计为图像中心。推导过程。图4提供了说明。给定一个像素 ,作者知道其在图像帧中地面的垂直投影点 ,由估计的像素高度图给出。回想一下,内在矩阵和外在矩阵可以用来将世界坐标系中的3D点 投影到图像像素 。更具体地说,给定内在矩阵 和外参旋转矩阵 ,作者有以下方程描述物体上的像素 与其在世界坐标系中对应的3D点 之间的对应关系:
在这里,方程(3)中的点 是方程(2)中点 在地面的垂直投影。对于给定的像素 ,可以通过作者估计的垂直方向(透视场)和估计的像素高度来获取其对应的 。请注意,世界坐标系中的Z轴指向上方,其XY平面与地面平面平行。目标是获取重构的3D点 的位置,并且为了消除未知的深度d,作者需要借助方程(3)的两个附加约束。第一个约束是地面上所有的3D点 在Z轴上具有恒定的值。不失一般性,作者假设这个恒定值为1,以获得一个尺度不变的3D点云。这给出了 ,进而导出归一化的 :
第二个约束是3D点 及其垂直地面投影 在XY坐标上相同。有了这个约束,作者知道 。为了数值稳定性,作者计算 ,最终的归一化3D点为
在这里,方程(3)中的点 表示的是方程(2)中点 在地面上的垂直映射。对于任意给定的像素点 ,可以通过作者估算的垂直方向(透视场)和像素高度来得到对应的 。请注意,世界坐标系中的Z轴是向上指的,而XY平面则与地面平面平行。作者的目标是确定重构的3D点 的位置。为了消除未知的深度值 ,作者需要利用方程(3)提供的两个额外约束。第一个约束是地面上所有的3D点 在Z轴上的坐标是恒定的。为了简化问题,作者假设这个恒定值为1,从而得到一个尺度不变的3D点云。这推导出 ,并进一步得到归一化的 :
第二个约束是3D点 与其在地面上的垂直投影 在XY坐标上是一致的。基于这个约束,作者得知 。为了提高数值稳定性,作者计算 ,最终的归一化3D点表示为:
其中 、、、、 是根据方程式(2)至(4)计算得出的。
4 Experiments
在本节中,作者进行了广泛的定性和定量实验,以展示ORG的有效性和泛化能力。作者使用经典的深度估计指标和点云重建指标,对以物体为中心的图像和以人为中心的图像进行了模型评估。作者证明,重新利用两种密集表示预测,可以为不同类别和图像视角构建一个非常健壮的3D重建框架。
Data Rendering
现有的以目标为中心的数据集[1, 36]不能同时提供准确的深度图和目标-地面旋转信息。因此,作者从_Objaverse_[10]中渲染了一个大规模数据集。Objaverse是一个大规模的以目标为中心的数据集,包含了超过800K个高质量的3D模型。对于数据集中的每个目标,作者随机抽取6组相机内参和外参(视场和旋转矩阵),每组参数都用于渲染一个带有像素高度和透视场 GT 值的RGB图像。图像尺寸为。相机始终指向目标的中心,世界坐标系的轴垂直于地面平面。作者使用基于物理的渲染器Blender[3]来渲染真实的表面外观,并开发了一个基于CUDA的射线追踪器以高效渲染前后表面像素高度。作者对数据进行污染过滤,移除了带有错误标注的图像以及画布上目标过小的图像。总共产生了3,364,052张图像。作者将目标按照8:1:1的比例分为训练/验证/测试集。同时,作者还随机调整强度、光源位置、光源数量以及相机与目标之间的距离,以增加数据集的多样性。作者将发布作者的数据渲染脚本和渲染后的数据集。关于实现细节和数据集的更多内容将在附录中提供。
Baselines
作者对比了作者的方法与单视角深度估计、图像到3D重建以及相机参数估计方面的研究。在深度估计方面,作者与LeReS [60]、MiDaS [2, 34, 35] 和 MegaDepth [21]进行了比较,这些方法都是基于大规模数据集预训练的单视角通用深度估计方法。在图像到3D重建方面,作者与Zero-123 [26]进行了比较,它是一种基于单张图像的新视角合成与重建方法,同样也在Objaverse数据集[10]上进行了预训练。在相机参数估计方面,作者与最先进的现成相机估计器CTRL-C [19]进行了比较,并实现了一种启发式方法,通过目测测试集中所有评估样本的粗略视场角(FoV)和俯仰角来获得相机焦距和旋转矩阵。利用估计的相机参数,作者可以将预测的深度图转换为点云。需要注意的是,为了生成物体的深度图和点云,作者使用图像 Mask 来移除作者预测结果中的背景区域,对于现有方法也是如此,如图5所示。更多细节将在补充材料中提供。
评价指标。为了与现有方法进行公平比较,作者在深度估计和点云重建任务上评估了作者的方法。同时,作者可视化了与重建物体一起估计的地平面,以验证物体与地面的相关性。在深度估计方面,遵循先前的方法[34, 60],作者使用绝对平均相对误差(AbsRel)以及像素百分比 。作者遵循MiDaS [34]和LeReS [60]在评估前对尺度和偏移进行对齐。对于点云估计,遵循先前的工作[8, 60],作者使用局部尺度不变均方根误差(LSIV)和 Chamfer 距离(CD)。此外,作者还使用均方误差(MSE)和绝对误差(L1)评估了作者对像素高度、纬度向量场和向上向量场的直接估计。
Shadow, Reflection, and Reconstruction
在图5中,作者展示了在未见过的物体上进行3D重建、阴影生成和反射生成的结果。作者将生成性能与单目深度估计方法[60]和新型视点合成方法[26]进行了比较。对于这两种方法,作者使用Ctrl-C[19]来预测相机参数。由于这些方法并未明确建模地面,作者通过假设地面通过物体最低点(具有最小高度值的点)来获取地面平面,并使用估计的俯仰角。对于新型视点合成的 Baseline ,作者使用SJC[45]来重建物体形状。如图5所示,值得注意的是,在地面接触点上的阴影和反射质量显著提高,这在指定框内得到了强调。作者的研究还包括物体-地面重建和深度图转换。作者工作中重建的模型3D形状不仅逼真,而且与地面平面保持了准确的垂直对齐。这种可视化有效展示了作者模型的灵活性,在广泛的物体类别、姿态和视点下表现出卓越的性能。
Novel View Synthesis and Image Composition
作者在图6中展示了诸如物体视角操控、阴影生成和图像组合等应用。在红色框中,作者展示了作为对比的直接 Copy-Paste 组合,而ORG的表现显示在蓝色框中。作者注意到,简单的 Copy-Paste 方法并不能匹配新物体及其背景支撑平面上的相机视角,从而产生了不真实的视觉效果。另一方面,作者的方法估计背景视角,将物体重建为3D并在目标视角下重新渲染,同时从估计的物体形状生成照片级真实阴影,实现了更好的视觉对齐和真实感。
更多定性结果。此外,图7展示了作者研究中更多的定性结果,重点关注深度图生成和物体地面重建。作者的方法在重建各种类型的地面支撑物体方面表现出卓越的熟练度,强调了作者方法的鲁棒性。
Object with Diverse Viewpoints
作者还把评估细分为具有不同相机角度范围的样本子集。更具体地说,作者通过俯仰角来划分难度 Level ,因为自然图像通常具有更多样化的俯仰角,而滚转角接近零。以整个数据集的俯仰角平均值为基础,与平均值相差小于10度的样本被标记为“小”视角多样性。俯仰角相差在10到30度之间的样本被标记为“中”视角多样性,而俯仰角相差超过30度的样本则被标记为“大”视角多样性。表2的结果显示,当物体具有更大的视角多样性时,ORG相较于基准模型(LeReS [60] Ctrl-C [19])取得了更高的改进。这是因为传统的视角估计模型在以物体为中心的图像上表现不佳,尤其是对于具有极端俯仰角的样本。
联合估计的重要性
表3的结果表明,像素高度和透视场的联合学习相较于深度估计和现成的相机参数估计器,能带来最佳的重建性能。更具体地说,在不改变模型架构的情况下,作者将模型的目标从像素高度估计更改为遵循LeReS [60]中使用的损失的深度估计。使用相同的的数据集和调度程序进行训练,像素高度表示在点云重建方面能够优于基于深度的学习。作者认为这是因为该表示更关注物体与地面之间的几何关系,而不是物体与相机之间的几何关系,这对于以物体为中心的图像来说更为自然且更容易推理。这一观察进一步验证了ORG的卓越泛化能力来自于更好的表示设计以及联合训练策略,而非数据集本身。
Qualitative Evaluation on Reconstruction
作者在保留的测试集上,将作者的深度图估计、点云生成和表示预测与四种最先进的单目深度估计和3D重建方法进行了比较。作者使用了最先进的相机参数估计模型Ctrl-C [19]和启发式估计来补偿之前方法中缺失的内在和外在信息。作者将原始输出转换为深度图和点云,以便与现有方法进行公平的比较。如表4所示,在所有指标下,针对以目标为中心的图像,作者的方法在深度估计和点云估计任务上始终表现最佳。作者还尝试使用另外两种替代相机参数估计器从像素高度估计中重建点云。可以看到,即使使用相同的现成相机估计器,ORG在这两项任务上仍然能够超越现有方法。作者确保评估数据集中的样本在训练阶段没有被之前的任何方法或作者的方法看到,以创造一个零样本评估场景。结果显示,ORG在以目标为中心的3D重建任务上具有很好的泛化能力。
此外,作者还将对评估细分为像素高度、纬度向量和上向量估计,并使用所有三种预测的通用空间中的平均绝对误差进行评估(像素高度以像素数表示,两个视角场以度数表示)。对于先前的方法,作者使用Ctrl-C和启发式常数(通过网格搜索)来估计仰角、滚角和相机视场角,并将它们转换为视角场表示以进行比较。
它们的像素高度估计也通过深度估计和相机参数估计进行转换。正如表4所示,作者的方法在所有三项任务上都超越了 Baseline 。这些实验证明了ORG在目标3D估计和重建方面相对于先前方法的鲁棒性和泛化能力。
5 Conclusion
在本论文中,作者提出了ORG,据作者所知,这是第一种数据驱动的架构,能够从单张图片中同时重建3D物体、估计摄像机参数,并建模物体与地面的关系。
为实现这一目标,作者提出了一种新的公式来表示物体与地面的关系。在未见过的物体和行人数据集以及网络图片上的定性和定量结果表明,作者的模型具有鲁棒性和灵活性,这标志着向野外单图像物体几何估计迈出了重要一步。
参考
[1].Floating No More: Object-Ground Reconstruction from a Single Image.