Lexicon3D: 探索复杂3D场景理解的视觉基础模型！

复杂3D场景理解已越来越受到关注，其中场景编码策略在取得成功方面起着关键作用。然而，针对各种场景的优场景编码策略却仍然不明确，尤其是在与基于图像的对应物相比时。为了应对这个问题，作者提出了一项综合研究，探究各种视觉编码模型在3D场景理解方面的优劣，并找出每个模型在不同场景下的优势和局限性。作者的评估涵盖了七个视觉基础编码器，包括基于图像的、基于视频的和3D基础模型。作者将这些模型在四个任务上进行评估：视觉语言场景推理、视觉定位、分割和配准，每个任务都专注于场景理解的不同方面。作者的评估结果得出了一些关键发现：DINOv2展示了卓越的性能，视频模型在目标级任务上表现出色，扩散模型在几何任务上受益，而语言预训练模型在语言相关任务中显示出意外的局限性。这些洞察挑战了某些传统理解，为利用视觉基础模型提供了一种新的视角，并突出了在未来的视觉语言和场景理解任务中选择编码器的重要性。

1 Introduction

近年来，复杂的3D场景理解成为计算机视觉的一个重要领域，涵盖了诸如场景生成、推理和交互。利用大规模视觉基础模型，方法如[42; 64; 68; 84; 91]已经取得了有前途的结果，从而使一系列实际应用得以实现，从自动驾驶，机器人学[57; 108]，到多模态代理[1; 78]。尽管有许多研究[6; 67; 99]提供了关于视觉基础模型在2D图像任务的使用的指导，但3D场景的战略仍然不清楚。对复杂实际场景的系统化理解不仅包括语义和深度意识[6]，这可以在2D领域进行评估，还包括几何意识和对多模态信息进行推理和定位任务的能力。为了填补这一空白，作者的工作评估了不同类型的视觉基础模型对复杂场景理解的适用性，并寻求确定每种模型在不同场景中的优势和局限。最终，这项研究旨在为场景理解系统的更有效性、高效性的发展做出贡献。

具体来说，作者将解决几个关键问题。首先，考虑到大多数视觉基础模型是针对图像或视频数据的训练，作者想知道2D基础模型是否可以有效地解释3D场景。其次，由于视频模型 inherently包含时间信息，它们是否可以导致比图像模型更好的3D特征表示，这有待调查。最后，作者希望确定在各种设置下训练的各种基础模型的最适合场景。

为了回答这些问题，作者设计了一个统一的范式，从不同角度系统地探究图像、视频和基于3D的基础模型在复杂3D场景理解中的视觉编码模型。作者的评估涵盖了7种视觉基础模型，如图1所示。作者的评估是在4种不同的任务之间进行的：Vision-Language Scene Reasoning 评估模型根据文本描述对场景进行推理的能力，评估场景 Level 表示；Visual Grounding 测试模型将语言与场景中的特定目标联系起来的能力，反映目标 Level 表示；Segmentation 评估模型将语义标签分配给每个像素的能力，评估语义理解；Registration 衡量将场景的不同视图进行对齐的性能，测试几何能力。通过这些任务，作者的目标是探索不同视觉基础模型在3D场景理解中的优劣，提供关于它们在不同场景中的应用的洞察。结合图1中的主要结果，作者的关键发现包括：

图像或视频基础模型在3D场景理解方面取得了有前途的结果。其中，DINOv2[58] 展示了最好的总体性能，表现出了强大的泛化和灵活性，这与2D观察到的趋势一致。作者的评估进一步验证了其在全局和目标 Level 的3D视觉语言任务中的能力。它可以作为3D场景理解的通用后端。
由于视频基础模型从连续的输入帧中受益，它们在目标 Level 和几何理解任务中超过图像模型，通过在场景中区分相同语义实例的实例而取得优势。
语义定向预训练模型不一定表现良好，在与其他语言相关的评估任务中，这挑战了将此类模型作为默认编码器用于视觉语言推理任务的常见做法。
生成型预训练模型，除了其著名的语义能力外，在几何理解方面表现良好，提供了一些新的可能性。

作者将作者的工作命名为 _Lexicon3D_，这是一种统一的检测架构和作者对视觉基础模型在3D场景理解进行的第一的综合评估。作者上述实现的关键发现与作者所做的其他有趣观察，共同建议在未来的视觉语言任务中选择更灵活的编码器选择以优化性能和泛化能力。

2 Related Work

作者的工作与关注图像，视频和3D资产特征提取以及视觉语言融合 joint 空间的近期方法密切相关。大量最近的研究探讨了多模态视觉输入的特征学习以及其图像理解的互补性能。相比之下，作者的论文首次全面分析了用预训练视觉编码器进行零样本3D场景理解的利益。据作者所知，作者是首次对3D场景理解任务中的预训练视频编码器进行考察，并在此情境下比较图像，视频和3D点编码策略。

图像自监督学习。近年来，学习具有抵抗性和泛化性的预训练图像表示已在计算机视觉和多模态研究领域呈现为一种普遍的研究方向。其中一些工作聚焦于利用自监督学习信号从图像，视频和3D资产中提取特征。其中包括先验任务，例如颜色化[100]，补全[62]，变换预测[27]，和自蒸馏[14;18;19;29;30]。ViT[22]最近的进展，也就是基于块的图像标记器，已经导致了针对特征提取的遮挡自动编码器构型的出现[8;31;111]。值得注意的是，DINOv2[58]，结合了 Mask 图像建模损失和不变性基础自蒸馏损失，已经成为了使用仅靠图像信号的最具扩展性和竞争力的自监督学习架构之一。另一组工作提出用文本指导学习图像特征，也就是用文本描述来指导图像编码器的预训练[38;53]。在CLIP[65]强大图像文本编码器的基础上，LSeg[44]和BLIP[45;46]通过将图像预训练目标扩展到更复杂的视觉感知任务，将像素级语义理解和与大型语言模型（LLMs）更好的对齐，实现了图像的预训练。

视频和3D表示学习。自监督表示学习在视频和3D点云的背景下也被探索。从图像到视频的成功，一些工作提出了通过将特征空间与视频字幕中的文本指导对齐的方法，来预训练视频编码器。视频表示学习中使用的先验任务还包括下一帧预测[10]和MAE[28;80;83]。其中，Bardes等人将受MAE启发的联合嵌入预测架构（JEPA）[4；43]引入到时空域，从而在广泛的视频和图像任务上实现了最先进的性能。尽管已有大量关于2D视觉基础编码器的研究，但由于缺乏大规模的3D数据集，3D点云的预训练模型要少得多。现有工作探讨了对比预训练[37;88;105]和遮止信号建模用于点表示学习。最近，受到3D数据渲染的迅速发展和大量合成数据集[109]的推动，Swin3D[93]在有监督预训练方式上显著超越了其他预训练方法。

特征提取的生成和混合专家（MoE）。随着基于扩散的生成模型[32;70;76]的成功，一些研究开始探索它们在图像感知任务中的作用。这些方法从扩散模型的U-Net架构提取给定图像的特征图或注意图，并执行各种下游任务，包括深度估计[23;71;107]，语义分割[9;51;56;86;107]，目标检测[17]，和panoptic分割[90]。另一组研究[60;98;99]调查了多个基础 Backbone 网络提取的不同特征的互补性质及其对下游任务的共同作用[6;67]。然而，这些研究仅限于2D领域，留下了在复杂3D场景中利用预训练编码器进行感知和推理任务的大潜力的探索。

3 Probing Visual Encoders for Scene Understanding

作者 Lexicon3D 的目标是评估不同视觉基础模型在复杂场景理解任务中的表现。作者首先构建了一个能够对一系列下游任务上的不同视觉基础模型进行检测的统一架构。然后，作者将 3D 场景理解任务分解为四个子任务，包括（1）视觉语言推理，（2）视觉定位，（3）语义理解，以及（4）几何理解，以便进行更详细的评估。

A Unified Probing Framework

作者设计了一个统一的框架，如图2所示，以从不同基础模型中提取特征，构建三维特征嵌入作为场景嵌入，并在多个下游任务上评估他们。对于复杂的室内场景，现有工作通常使用2D和3D模态的结合来表示。对于真实场景[15; 20; 94]，首先使用手持相机捕捉视频，然后从COLMAP等重建算法[72]中获取3D点。对于数字和合成场景[69; 109]，首先设计和生成3D资产，然后将图像和/或视频在创建的空间内渲染。对于表示复杂场景的静态图像、视频和3D点云，作者使用一组视觉基础模型提取它们的特征嵌入。对于基于图像和视频的模型，作者将它们的项目特征投影到3D空间，以便在随后的3D场景评估任务中进行评估，使用了_多视图3D投影模块_。遵循[21; 34; 35; 63]，对于一个点云，这个模块在给定图像特征和姿态和相机信息时，为每个点生成特征。具体而言，对于一个点，作者在图像上获取其对应的像素特征，其中

此外，作者还使用一个指示函数来表示一个点是否在帧的图像中可见。在找到所有图像帧中给定点的对应像素之后，作者使用 mean pooling[作为聚合函数来将所有像素特征融合形成点特征。

在进行投影后，作者得到了每个视觉基础模型的3D特征场，这些特征场被表示为点云特征向量。作者将这些作为输入传递给浅层检测头，以评估各种下游任务。为了尽量减小模型微调过程的影响，作者将编码模型的参数冻结起来以进行评估，只对所有任务调整线性或浅层检测头。

模型。在本工作中，作者主要关注那些经常被用于复杂的场景理解和多模态推理模型的视觉基础模型。复杂的场景通常可以用2D图像和视频或3D点云来表示。图像和视频模式牺牲了显式几何信息，但它们保留了场景的丰富和密集的语义和纹理信息。相反，点云模式提供了相反的权衡。此外，2D模式得益于在大规模数据上训练的强有力基础模型，而3D点网只有利用较小的数据集。

作者将视觉基础模型分为三个类别，并且提供了在表1中可用的评估模型概述。对于图像编码器，作者评估了DINOv2 [58]， LSeg [44]， CLIP [65]，和StableDiffusion（SD）[70]。对于视频模式，作者评估了V-JEPA [11]，已经超越VideoMAE [80, 83]在广泛的感知和推理任务上的最新视频理解模型，以及StableVideoDiffusion（SVD）[12]，一个视频生成模型。由于缺乏大规模的3D场景级数据集，不利于强零样本泛化的3D基础模型的发展，而其2D对应物具有优势。然而，为了进行比较，作者在多个评估数据集上评估了Swin3D [93]，该3D Backbone 在零样本感知任务上取得了领先性能，优于早期方法[37, 88, 105]。Swin3D是在Structured3D [109]上预训练的，该数据集比ScanNet [20]大10倍。

特征可视化。图3可视化由视觉基础模型提取的场景特征。为了在具有通道的高维特征空间中进行可视化，作者应用主成分分析（PCA）将特征维度降至3维，将它们归一化到区间，并将其解释为RGB颜色通道。这些可视化结果揭示了几个直观的发现。图像模型DINOv2和LSeg展示了强大的语义理解能力，LSeg由于其像素级语言语义的指导，展现出更清晰的区分度。基于扩散的模型SD和SVD除了语义建模外，在保留场景的局部几何和纹理方面表现出色，因为它们进行了生成引导的预训练。视频模型SVD和V-JEPA展示了识别相同语义概念的不同实例的独特能力，例如第一场景中的两棵树和两个场景中的椅子。3D模型Swin3D也展示了强大的语义理解能力。然而，由于训练数据有限和域漂移，尽管在完美的语义标注上进行预训练，其质量与其图像基础模型相比仍不相上下。

Vision-Language Reasoning

图4：ScanQA基准上的评估曲线。DINOv2展现出明显的优势。

视觉语言推理任务要求模型参与对话或针对给定的复杂3D室内场景回答问题和关于全局理解和局部概念及与之相关的事物。参照[35, 108]，作者将此任务定义为视觉问答（VQA）任务，使用大型语言模型（LLMs）作为 Backbone ，给定多视角图像和点云的3D场景以及用户提示的问题，LLMs被要求以自动回归的方式生成问题的答案。该任务涵盖了针对复杂室内场景的广泛语言引导推理，从全局布局到局部细节。

数据集和优化。作者在两个具有挑战性的室内3D VQA数据集上评估性能：ScanQA [5] 和 SQA3D [52]。参考[5, 35, 52, 55]的评估方法，作者报告了BLEU [61]，ROUGE [47]，METEOR [7]，和CIDEr [82]的指标。作者微调了一个Q-Former模块 [46]来将来自不同编码器的特征对齐到LLM输入空间。更多数据集和优化细节可以在附录中找到。

评估结果。表2和图4呈现了作者的评估结果。作者观察到图像和视频编码器通常优于3D点编码器，其中DINOV2实现最佳性能，其次是V-JEPA和SVD。有趣的是，作者发现对于使用语言导向预训练的LSeg和CLIP，它们在语言对齐方面具有优势，但这种优势并未在LLM引导的VQA任务中转化为优越性能。这一发现挑战了将使用语言预训练的视觉基础模型[44, 45, 46, 65]作为LLM基于视觉语言推理任务的默认编码器的做法。相反，它表明应当考虑更广泛的编码器，如DINOV2和V-JEPA，以支持此类模型。

Visual Grounding

视觉定位（Visual grounding）是一种根据文本描述在3D场景中定位物体的任务，与3D视觉问答（3D VQA）相比，视觉定位更注重于目标的级推理和匹配能力。该任务可以分为两个子任务：目标检测和目标识别（将文本描述与目标物体匹配）。尽管一些方法专注于学习模型来同时解决这两个任务 [16, 104]，但其他方法主要专注于 discrimination 问题 [2] 并假设能够访问 GT 边界框。出于简化和防止任务混淆的原因，作者在评估中采用后一种设置。更具体地说，对于以多视图图像和点云形式表示的3D场景，物体自由形式语言描述和场景中所有物体的真实3D边界框，作者的模型目标是找到场景中与语言描述匹配的正确物体。作者将目标检测任务需要来自视觉编码器的语义信息，这类似于语义分割任务，将在第3.4节进行分析。

对于目标识别任务，作者首先通过其 GT 边界框内部的所有点进行平均池化，从场景中获取每个物体的特征。遵循Multi3DRefer [104]的设置，作者使用 CLIP 文本编码器对文本描述进行token化，并采用 [104]中的注意力头将前一步获取的文本和视觉嵌入进行融合并输出物体得分。

数据集。作者评估在ScanRefer [16]数据集上，该数据集提供了11K个目标在800个ScanNet场景（20个场景）中的51K个文本描述。作者报告了 唯一_、_多个 和总体类别下的精度，其中唯一指在给定场景中具有唯一语义类（更容易）。

优化。作者的模型使用AdamW [50]优化器以交叉熵损失进行训练，并训练作者的模型30个周期直到收敛。

评估结果。表3呈现了作者的结果，表明视频编码器大大优于图像和3D编码器。性能差距主要体现在_多个_类别上，表明这些模型在区分相同语义类多个物体中表现出很强的能力。这一能力的绝大部分源于时间连续的输入帧，它们为实例提供了感知多视图一致的指导。相比之下，具有语言引导预训练特征与语言语义对齐的图像编码器LSeg，也能在_唯一_类别中实现高精度。然而，在_多个_类别上的性能会显著下降。

Semantic Segmentation

语义分割任务是在每个3D位置预测语义标签，这需要对场景进行细微的语义感知。正如第3.1节所提到，所有类型的特征都统一成点云形式；因此，在作者的设置中，对点云中的每个点都预测语义标签。更具体来说，给定一个以多视图图像和点云形式表示的3D场景，该任务的目标是预测云中每个点的语义标签。

数据集。 作者在ScanNet [20]分割数据集上进行实验，该数据集有1,201和312个场景用于训练和验证，总共有20个语义类别用于评估。

优化。 为了使语义预测性能更好地反映出不同特征的细微语义理解能力，作者使用单个线性层后面跟着一个Sigmoid函数进行线性检测，以预测所有标签的概率分布，从基础模型特征：，其中是每个点云中的点数，是特征维度，是分割类的数量。作者采用标准的Adam优化器 [41] 学习率1e-4，并使用交叉熵损失训练线性层20个周期。

评估结果。 表4和图5显示，图像编码器在3D语义分割任务上的表现优于视频和3D编码器。原因是像DINov2和LSeg这样的图像编码器在通过对比目标（无论是自监督学习（SSL）还是语言驱动的指导）进行训练时，在训练过程中获得了语义意识。相比之下，视频编码器在多帧整合期间可能过度平滑多视图信息，这可能损害细微语义理解能力。至于3D编码器，如Swin3D，由于在训练基础模型时3D数据的稀缺性，其性能在语义理解上会较差。

Registration: Geometric Correspondence

为了评估基础模型特征中包含的几何信息，作者基于点云配准[49, 95]任务设计了一个新任务，即部分场景配准。从表示整个场景的完整点云中，作者分别从场景中抽取一对点云和，其中和分别包含两组连续视图中所见所有点的对。作者的目标是找到一个正确的同一点变换矩阵，将中的点正确地配准到中。与第三节中评估的语义分割任务相比，部分场景配准任务要求基础模型特征具有寻找几何对应关系的功能，这不能仅通过根据语义理解找到对应关系来实现。例如，在语义对应中，作者在中的沙发左侧可能找到一个语义相似的点，而在中的沙发右侧也可能找到另一个点。因此，如果作者仅根据语义对应关系将两个部分点云进行配准，作者将找不到正确的世界变换矩阵，使其将一个点云与另一个点云对齐。基础模型特征需要具备几何理解能力才能在作者的部分场景配准任务上获得良好的性能。

数据集和 Prob 头。作者基于ScanNet[20]数据集构建作者的部分场景配准基准。对于ScanNet中的每个场景，作者分别选择视角#0~#31和#32~#63进行渲染，使得和可以有一定的重叠，从而允许两个部分点云进行配准。然后，通过一个同一点变换矩阵进行变换，该矩阵包括一个旋转和一个平移。由每个场景中一个随机生成的四元数为创建，而每个的分量都随机从均匀分布中采样。作者遵循REGTR[95]并采用 Transformer 交叉编码器模块，然后是一个轻量级解码器，以获得另一个点云中每个点的位置。有关数据集和优化的更多详细信息见 supplementary material。

评估结果。表5展示了部分场景配准的结果。作者从结果中可以观察到，StableDiffusion和StableVideoDiffusion在部分场景配准任务上展现了优越的几何能力。这表明生成目标的预训练目标使基础模型在3D场景中具有找到几何对应关系的良好能力。另一个观察是，视频编码器通常比图像编码器表现得更好。这是因为视频基础模型通过多视图输入帧更好地理解场景中的目标形状和几何。

4 Analysis

本部分的目标是进一步探究视觉基础模型的最佳使用方法。选择编码方法需要考虑内存使用、运行时间和性能之间的权衡。作者将深入分析复杂性分析和各种基本模型的设计选择。

复杂性分析

作者将内存使用、计算时间和模型性能（_在 ScanQA 上的视觉语言推理_）进行比较，分别在表6 和图6 中展示。作者的研究结果显示，与视频和 3D 编码器相比，图像编码器在处理样本方面通常需要较少的时间。特别是，当使用基于扩散的方法进行特征提取时，需要比其他判别模型更多的内存。值得注意的是，当尝试通过将多视图图像嵌入聚合来获得场景嵌入时，2D 方法在运行时间上的缺点变得明显，尤其是图像编码器。为了说明这一点，作者以一个 300 帧的视频作为一个具有复杂场景（在 30 FPS 下，是一个 10 秒的视频）的 2D 事先准备好的示例。随着视频长度的增加，需要对每个图像帧进行特征提取的 2D 方法会迅速消耗大量时间来处理单个场景。相比之下，3D 点编码器在处理场景时需要的时间较少。然而，3D 编码器在模型性能方面表现相对较差，这可以归因于训练数据的缺乏。为了充分展示在场景理解任务中的潜力，应致力于增强 3D 基础模型的泛化能力。所有分析和小计算都是在 Nvidia A100 GPU 上完成的。

Ablation Study - Insights into Optimal Usage of Visual Foundation Models

视频降采样策略。长和高帧率的视频占用了大量的存储空间和处理时间。探讨了两种简单却有效的时间降采样方法，以实现更高效的处理，同时不牺牲太多性能。如图7所示，作者探索了关键帧采样（蓝色）和剪辑采样（橙色）策略。作者观察到关键帧采样比剪辑采样在这个设置中更好，更明智地平衡视频处理开销和任务性能的权衡。

多个编码器的组合。作者探索了将多个基础模型（专家）混合应用是否有潜力增强3D场景理解的能力。作者在具有三种特征来源的任务（即LeSeg、StableDiffusion和Swin3D）的3D语义分割中进行实验。在组合不同特征来源时，作者将点云中每个点的所有特征沿通道维数进行拼接。结果如图8所示。在组合不同来源的特征后，语义理解能力存在着按照“专家混合”方式进行增强的潜力。然而，并不是将最佳特征组合起来就一定能实现最佳性能。例如，LeSeg（1）在语义分割方面的能力比StableDiffusion（2）和Swin3D（3）中的任何一个都强，但结合两个特征的最佳性能是StableDiffusion Swin3D（2 3）。

结论

本文首次全面分析了利用视觉基础模型进行复杂3D场景理解的优势和局限性。作者探讨了为各种模式设计、使用不同目标训练的模型的优缺点。

作者的研究表明，DINOv2模型性能优越，视频模型的目标 Level 任务具有优势，以及扩散模型在几何重采样任务中具有优势。

出人意料的是，作者发现在语言相关任务中，预训练语言模型的性能有限。

进行如此广泛的分析提示，未来的场景理解和多模式推理任务中，编码器选择的灵活性可能发挥重要的作用。

参考

[1].Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding.

基础模型视频数据性能

0 人点赞

Lexicon3D: 探索复杂3D场景理解的视觉基础模型 ！