当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !

2024-07-31 16:48:23 浏览数 (2)

1 Introduction

大型语言模型的出现标志着自然语言处理领域的一个变革性时代,使机器能够以前所未有的方式理解、生成和与人类语言互动。然而,作者周围的现实世界本质上是三维的,理解三维空间环境对于涉及在这些三维空间内进行感知、导航和交互的许多现实世界应用至关重要。随着近期的发展,LLM的应用已经远远超出了文本领域。将LLM与3D数据结合为计算模型理解和与物理世界互动提供了独特的机会,从而在包括自主系统、增强现实、机器人导航和机器人操作在内的多个领域引发创新。

近期的研究工作展示了将LLM与3D数据结合在一起,利用LLM固有的优势,如零样本学习[16, 17]、高级推理和广泛的知识[20, 21],在复杂3D环境中进行解释、推理或规划的潜力。然而,将LLM与3D数据结合并非易事。3D数据表示、模型可扩展性和计算效率等问题仍然是需要克服的重大障碍。此外,要确保模型能在现实世界环境中运行,还需要克服与数据多样性和环境复杂性相关的障碍。解决这些挑战对于实现LLM在3D应用中的全部潜力,创建动态和情境感知的人工智能系统至关重要。

本文为调查论文,对LLM与3D数据交叉领域进行了批判性审视,全面概述了当前的方法、应用和该领域面临的挑战。作者首先在第二部分提供了常见的3D表示的相关背景、LLM的简要介绍以及视觉-语言模型(VLM)和视觉基础模型(VFMs)的概览。在第三部分,作者详细介绍了当前方法旨在解决的3D视觉语言任务,概述了当前的评估指标和协议。

接下来,在第四部分,作者分析了通过LLM能力增强3D理解的数据格式、处理技术和模型架构。作者展示了在以下多个领域中,LLM与3D数据结合的成功演示:利用LLM的世界知识[20, 22]和推理能力[21, 23]提升3D任务性能,将LLM作为多模态接口[24, 18]和实体代理[15, 13],或者使用LLM生成复杂场景[25, 26]。除了LLM,一些研究工作还提出了将3D感知与语言能力统一在一起的端到端架构[27, 28]。此外,广泛的研究工作探索了将现成的2D视觉语言模型(VLM)的知识蒸馏出来,用于开放词汇的3D场景理解[29, 30]以及文本驱动的3D生成[31, 32]。本调查在第五部分对这些方法进行了全面概述,以展现3D 语言的领域的全貌。然后,在第六部分,作者概述了用于训练和评估这些方法的数据集。最后,在第七部分,作者突出了这一领域面临的挑战和潜在的未来研究方向。

2 Background

本节提供了关于3D表示、大型语言模型(LLM)、二维视觉-语言模型(VLM)以及视觉基础模型(VFM)的基本背景知识。

2.1 3D Representations

选择一种3D表示方法来描述、建模和理解作者的世界,是理解当前3D-LLMs进展的重要课题,也是计算机视觉领域的基础研究方向。由于深度学习、计算资源和3D数据可用性的进步,该领域最近经历了显著的增长。作者简要描述目前常用的几种3D表示方法。

点云通过空间中一组数据点来表示3D形状,每个点的位置都存储在一个3D笛卡尔坐标系中。除了存储位置信息,还可以为每个点附加其他信息(例如颜色、法线)。基于点云的方法以存储占用空间小著称,但缺乏表面拓扑信息。获取点云的典型来源包括激光雷达传感器、结构光扫描仪、飞行时间相机、立体视图、摄影测量等。

Voxel 网格由3D空间中的单位立方体组成,类似于2D中的像素表示[52]。每个 Voxel 至少编码占用信息(二进制或概率形式),但还可以额外编码到表面的距离,如在符号距离函数(SDF)或截断符号距离函数(TSDF) 中。然而,当需要高分辨率细节时,内存占用可能会变得过大。

多边形网格表示由顶点和表面组成,简洁地描述复杂的3D形状。然而,它们的不规则和非可微性质[64]在将它们与神经网络集成以实现端到端可微 Pipeline 时带来了挑战。一些解决此问题的方法,如基于梯度近似的方案,只能使用手工制作的梯度计算。其他解决方案,如可微光栅化器,可能导致渲染结果不准确,例如内容模糊。

神经场[72]近年来在3D研究领域受到了越来越多的关注,这种技术有别于传统的基于几何原语[73]的表示方法。神经场是一种从空间坐标到场景属性(如占有、颜色、辐射度等)的映射,与 Voxel 网格——其中映射是从一个离散的单元到该 Voxel 值——不同,在神经场中,映射是一个学习到的函数,通常是多层感知机。通过这种方式,神经场可以隐式地学习紧凑、连续且可微的3D形状和场景表示。

一组神经场专注于隐式表面表示。占有网络[74, 75, 76]使用神经网络表示连续的3D占有函数来编码形状,利用来自点云、低分辨率 Voxel 或图像的3D点位置和特征来估计占有概率。与此同时,深度SDF网络[77, 78, 79, 80]使用神经网络从3D坐标和潜在向量估计SDF。近期的方法如NeuS[79]和NeuS2[80]显著提高了静态和动态目标的表面重建忠实度和效率。

另一组方法,被称为神经辐射场(NeRF),展示了对3D世界极强的照片级真实感渲染能力。这些方法使用位置编码技术[95, 96, 90, 97]编码场景细节,并利用多层感知机预测沿相机射线的辐射度值(颜色和不透明度)。然而,MLP需要推理空间中每个采样点的颜色和占有细节(包括空白空间的点)的需求,需要大量的计算资源。因此,在实时应用中,降低NeRF的计算开销具有强烈的动力。

混合表示尝试将NeRF技术与传统的基于体绘制的方法相结合,以实现高质量实时渲染。例如,将 Voxel 网格[95, 96, 98, 97]或多分辨率哈希网格[102]与神经网络结合,大大缩短了NeRF的训练和推理时间。

三维高斯溅射[103, 106, 107]是点云的一种变体,其中每个点都包含额外的信息,表示该点周围空间区域发射的辐射作为各向异性的三维高斯“斑点”。这些三维高斯通常从SfM点云[108]初始化,并使用可微渲染进行优化。三维高斯溅射通过使用有效的光栅化[109]而不是光线追踪,以 NeRF 计算量的一小部分实现了最先进的新视角合成。

2.2 Large Language Model (LLM)

传统的自然语言处理(NLP)包括了一系列任务,旨在让系统理解、生成和操作文本。早期NLP的方法依赖于诸如基于规则的系统、统计模型和早期的神经网络架构,如循环神经网络。近期,大型语言模型(LLM)的引入,采用 Transformer 架构[95]并在大规模文本语料库[112]上进行训练,取得了前所未有的性能,并在该领域激发了新一轮的兴奋。由于本文关注于3D LLMs,作者在这里提供了与LLM相关的基础知识。对于深入探索大型LLM的全面内容,作者推荐查阅该领域最新的调查报告。

2.2.1 LLM Architectures

在LLM的背景下,"编码器-解码器"和"仅解码器"架构被广泛应用于NLP任务。

编码器-解码器架构[95, 118, 119]主要由两个组件组成:编码器 {f}{enc} 和解码器 {f}{dec} X = left( {{x}{1},{x}{2},ldots ,{x}{N}}right) ,并将其映射为一系列潜在表示 H = left( {{h}{1},{h}{2},ldots ,{h}{N}}right) ,这些表示捕捉了上下文信息,而解码器则基于 H 生成输出序列 Y = left( {{y}{1},{y}{2},ldots ,{y}{T}}right) 。从数学上讲,编码过程可以表示为 H = {f}{enc}left( Xright) ,整个潜在序列 H 一次性从 X 生成。然而,解码器是顺序生成输出序列 Y : {y}{t} = {f}{dec}left( {{y}{ < t}, H}right) ,其中 {y}{ < t} = left( {{y}{1},{y}{2},ldots ,{y}{t - 1}}right) {y}{t} = {f}{dec}left( {y}{ < t}right)

分词是一种预处理方法,将输入文本分解为一系列标记,这是语言模型中的基本数据单元。标记的数量是有限的,每个标记可以对应一个词、子词或单个字母。在推理过程中,输入文本被转换为一个标记序列,并输入到模型中,模型预测输出标记,然后再将这些标记转换回文本。分词对语言模型的性能有很大影响,因为它影响着模型对文本的理解。各种分词技术被采用,例如词级分词、子词分词(例如字节对编码[123]、WordPiece[124]、SentencePiece[125])和字符级分词[126]。

2.2.2 LLM Emergent Abilities

LLM与传统非LLM方法之间的一个主要区别在于大型模型中出现的Emergent Abilities(涌现能力),而这些能力在小型模型中是不具备的[115]。所谓“涌现能力”,是指随着LLM在规模和复杂性上的增加而出现的新颖、复杂的技能。这些能力使得高级自然语言的理解和生成、无需特定训练即可在多个领域进行问题解决,以及通过上下文学习适应新任务成为可能。以下,作者将介绍LLM范围内几种常见的涌现能力。

上下文学习(In-Context Learning)是指LLM根据提示中提供的上下文理解和回应新任务或 Query 的能力,无需显式地重新训练或微调。具有里程碑意义的论文(GPT-2/GPT-3 [130, 127])展示了在少量样本(few-shot)情况下的上下文学习能力,即模型在提示中接收到一些任务示例后,无需之前的显式训练即可处理不同的示例。最先进的LLM,如GPT-4 [131],展示了基于提示中提供的上下文的卓越上下文学习能力,能够理解复杂指令,并执行从简单翻译到生成代码和创意写作的广泛任务。

在LLM的背景下进行推理,通常被称为“思维链”(chain-of-thought)提示[132, 133],涉及模型在处理复杂问题或问题时生成中间步骤或推理路径。这种方法使得LLM能够将任务分解为更小、更易于管理的部分,从而促进更结构化、更易理解的解决方案过程。为此,训练涉及包括各种问题解决任务[134, 135]的数据集、逻辑谜题[136, 137]以及模仿不确定性下推理[138]设计的数据集。当前最先进的LLM[127, 131, 139, 140, 141, 142, 143]通常在模型参数大于到时展现高级推理能力[132]。

遵循指令(Instruction-following)是指模型理解并执行命令或按照用户指定的指令执行的能力。这包括解析指令、理解其意图,并生成适当的响应或行动。将这种能力适应于新任务的方法可能需要从包含各种指令与正确响应或行动配对的数据集[114]进行指令调整。监督学习、基于人类反馈的强化学习以及交互式学习等技巧可以进一步提升性能。

2.2.3 LLM Fine-tuning

在3D-LLM的背景下,LLM要么直接以预训练状态被利用,要么经过微调以适应新的多模态任务。然而,由于涉及的参数量巨大,对整个LLM参数的微调带来了重大的计算和内存挑战。因此,参数高效微调(PEFT)[147]越来越受欢迎,它通过只更新模型参数的一个相对较小的子集,而不是重新训练整个模型,来适应特定任务的LLM。以下部分列举了在LLM中使用的四种常见PEFT方法。

低秩适应(LoRA)及其变体[148, 149, 150]通过低秩矩阵更新参数。从数学上讲,在微调期间LoRA[148]的前向传播可以表示为 h = {W}{0}x {BAx}.{W}{0} ,其中 {W}{0} 是的冻结权重,而 {BA} 是由新引入的矩阵 A 和 B 参数化的低秩矩阵,这些矩阵在微调阶段进行更新。这种方法具有几个明显的优点。在微调期间,只有 B 和 A 被优化,显著减少了与梯度计算和参数更新相关的计算开销。一旦微调结束并将权重合并,与原模型相比没有额外的推理成本,如方程表示: h = left( {{W}{0} {BA}}right) x 。此外,由于可以为不同的任务保存多个LoRA实例,而不需要保存LLM的多个副本,因此可以减少存储占用。

层冻结在训练期间冻结预训练模型的选定层,同时更新其他层。这通常适用于根据任务性质和模型架构,接近模型输入或输出的层。例如,在3D-LLM方法中,除了输入和输出嵌入[153]之外的所有层可能被冻结,以降低特定任务数据集过拟合的风险,保留预训练的通用知识并减少需要优化的参数。

提示调整通过构建提示框架引导LLM执行特定任务,这与传统微调调整模型参数不同,它调整模型输入。手动提示工程[132, 157, 158, 159]是最直观的方法,但对于经验丰富的提示调整工程师来说,找到最优提示是困难的。另一组方法是自动提示生成和优化。一种流行的方法是搜索最优的输入提示文本(硬提示),例如。或者,可以使用优化方法来优化提示的嵌入(软提示)。

自适应微调通过添加或移除层或模块为特定任务定制模型架构。这可以包括在文本数据旁边整合新的数据模态,如视觉信息。自适应微调的核心思想是利用小型神经网络模块,这些模块被插入到预训练模型的层之间。在自适应微调期间,只更新这些 Adapter 模块的参数,而原始模型权重保持不变。

2.3 2D Vision-Language models

视觉-语言模型是一类旨在捕捉和利用文本与图像/视频之间关系的模型,并能够在这两种模态之间执行交互式任务。大多数视觉-语言模型具有基于 Transformer 的架构。通过利用注意力模块,视觉和文本内容可以相互条件化,从而实现相互交互。在以下段落中,作者简要介绍了视觉-语言模型在判别性和生成性任务中的应用。

判别性任务涉及预测数据的某些特征。视觉-语言模型如CLIP[174]和ALIGN[175],在图像分类中对未见数据的零样本迁移性方面表现出色。这两个模型都包含两个模块:视觉编码器和文本编码器。给定一张图像及其类别,CLIP和ALIGN通过最大化图像嵌入与文本嵌入之间的相似度来进行训练,文本嵌入来自于句子“一张{图像类别}的照片”。在推理过程中,通过将"{图像类别}"替换为可能的候选类别,并寻找与图像最匹配的句子,实现了零样本迁移性。这两项工作启发了一系列后续研究,这些研究进一步提高了图像分类的准确度。这些模型还可以为其他任务提炼学习到的知识,包括目标检测,图像分割,文档理解[189, 190]和视频识别[191]。

生成性任务利用视觉-语言模型从输入数据中生成文本或图像。通过利用大规模的训练数据,单个视觉-语言模型通常可以执行多种图像到文本的生成任务,如图像字幕和视觉问题回答(VQA)。值得注意的例子包括SimVLM[192],BLIP[193]和OFA[194]等。更强大的视觉-语言模型如BLIP-2[195],Flamingo[196]和LLaVA[197],能够基于输入图像处理多轮对话和推理。随着扩散模型的引入,文本到图像生成也成为了研究界的关注焦点[198, 199]。通过在大量的图像-文本对上进行训练,扩散模型[200, 201]可以根据文本输入生成高质量的图像。这种能力也扩展到了视频生成[202],3D场景[31]和动态3D目标[203]。除了生成性任务,还可以通过文本提示编辑现有图像[204, 205, 206, 207]。

2.4 Vision Foundation Models (VFMs)

视觉基础模型(VFMs)是大型神经网络,旨在提取足够多样化和具有表现力的图像表征,以便直接应用于各种下游任务,这类似于预训练的语言模型(LLMs)在下游自然语言处理任务中的作用。一个值得注意的例子是DINO [208],它采用了一种自监督的教师-学生训练范式。学到的表征在图像分类和语义图像匹配上都取得了良好的效果。DINO中的注意力权重也可以作为观察场景的语义成分的分割 Mask 。后续工作如iBOT [209] 和 DI-NOv2 [210] 通过引入掩蔽图像建模(MIM)损失来进一步改进表征。SAM是一个基于Transformer的图像分割模型 [211],它在包含有110亿张图像和语义 Mask 的数据集上训练,并展示了强大的零样本迁移能力。DINO(张等人)[212]——与DINO(卡隆等人)[208]区分——采用类似DETR [213]的架构和混合 Query 选择进行目标检测。后续工作Grounding-DINO [214] 引入了文本监督以提高准确度。Stable Diffusion [201],一个文本到图像生成器,也通过在干净或人工加噪的图像上运行单一扩散步骤,并提取中间特征[215, 169] 或注意力 Mask [216],被用作“真实”图像的特征提取器。由于扩散模型所使用的训练集的大小和多样性,以及观察到的扩散特征的涌现属性,比如图像之间的零样本对应关系[215],这些特征最近已被用于分割[216]和图像匹配[215, 169]任务。

3 TASKS AND METRICS

为了理解语言在三维理解中的作用,作者首先要了解三维视觉-语言模型试图解决的任务。研究已经扩展到包括一系列广泛的研究任务,每个任务都有其常用的数据集和评估指标。在这里,作者旨在列出当前的三维视觉-语言任务及其相应的评估指标。作者根据它们的输入和输出模态对这些任务进行广泛的分类。

随后,在第四和第五节中,作者开始分析解决这些任务的方法。然后,在第六节中,作者详细介绍了目前用于这些任务训练和评估的数据集。

3.1 3D Captioning (3D Text)

给定场景或物体的3D数据,3D字幕生成任务就是生成相应的简短自然语言描述。在这里,作者根据被标注数据的类型和生成的字幕类型,将这个任务分解为一些常见的问题变体。

目标级字幕生成要求模型生成对单个3D目标的简短自然语言描述。这个字幕应该聚焦于目标的关键特征,包括其形状和语义特性。

场景级字幕生成是指为整个3D场景生成简短自然语言字幕的任务。这些字幕通常聚焦于全局场景信息(例如房间类型和风格),场景中的关键物体以及它们之间的关系。作者将“接地式字幕生成”视为场景字幕生成的一个变体,其中模型输出场景中物体之间关系的描述,可能还会包括这些物体的位置信息。

3D密集字幕生成是指联合在3D场景中定位物体实例并用自然语言字幕描述它们的任务。在这种情形下,输出可能还包含有关被标注物体的位置信息。通常,来自3D基准数据集的参照描述被用来为3D密集字幕生成提供所需的字幕和位置数据。例如,Scan2Cap [217]中的字幕就是使用ScanRefer [218]中的参照表达式生成的。3D字幕生成的评估指标需要将生成的字幕与测试样本的 GT 字幕进行比较。

精确匹配(EM)要求生成的字幕与 GT 完全匹配。精确匹配有不同的准确度阈值,表示为 ,这意味着正确答案位于模型生成的顶部“ ”个答案之中。通常使用的阈值是EM@1和EM@10。然而,具有相同语义含义的自然语言字幕可以用多种方式表达,因此字幕生成的主导指标是自动化文本生成指标[219],它们旨在测量匹配的n-gram或语义相似性,而不是完整的句子匹配。BLEU [220]在预测和真实字幕之间匹配n-gram,“BLEU@ ”指的是长度为“ ”的匹配n-gram(典型值在1-4范围内)。这仍然要求匹配确切的单词,但对表达方式的轻微重新排列更加鲁棒。ROUGE [221]同样旨在匹配n-gram,常用的ROUGE-L关注句子的结构相似性。METEOR [222]基于单gram匹配的精度和召回率,匹配项也存在于同义词和形态变化词之间。CIDEr [223]通过n-gram的频率来赋予权重,频率较高的n-gram给予较低的权重。由于上述指标依赖于n-gram匹配,它们无法解释不同但语义相似的单词。因此,引入了通过在学习的嵌入空间中相似性来衡量语义内容重叠的各种指标(例如,SentenceSim [224] 和 BERT Score [225])。

对于密集字幕生成,其中字幕被定位到场景的各个部分,需要调整的基准。通常仍然使用BLEU、ROUGE、METEOR和CIDEr分数,但是,如果预测边界框与物体之间的交并比(IoU)小于阈值“ ”,则分数被设置为0。典型的“ ”值是0.25和0.5 [19,217,226]。然而,这些指标关注于字幕召回率而忽略了假阳性。最近的工作通过额外测量生成的字幕相对于BLEU、ROUGE、METEOR和CIDEr指标的精度和F-1分数来解决这个问题[227]。

3.2 3D Grounding (3D Text 3D Position)

在给定一个3D场景和一个描述场景中相对于其他目标的某个物体的“指代表达式”时,3D定位包括生成目标目标的位置、边界框或分割 Mask 。

单目标定位涉及在给定参考信息(如语言描述[218, 228]或额外手势[229])的情况下,在场景中定位一个 Query 目标。

多目标定位涉及使用指代表达式定位多个目标。这种定位主要有两种变体。第一种变体是单一句子描述,可能存在歧义,可能指代3D场景中零个、一个或多个同一类别的目标目标[230]。第二种变体使用段落长度的指代表达式,描述属于可能不同类别的多个目标以及它们之间的空间关系[231]。

3D定位的评价指标需要将预测的位置(通常是边界框的形式)与测试样本中目标的 GT 位置进行比较。Acc@KIoU [218] 是3D视觉定位中广泛使用的指标,它测量具有与 GT 值大于阈值 (通常设置为0.25或0.5)的交并比(IoU)的正预测百分比。值得注意的是,一些数据集在不同场景下评估性能。例如,ScanRefer [218] 将数据集划分为唯一/多个/总体分割。一些方法测量平均IoU [153, 232],而其他方法测量边界框中心之间的平均距离[153]。对于多目标定位,使用F1分数作为评价指标[230]。首先根据IoU在预测和 GT 边界框之间建立一对一匹配。然后,将IoU高于阈值的对视为真正例。

3.3 3D Conversation (3D Text Text)

同样自然的是,在单个回合设置或更自然的多次对话设置中,考虑关于3D场景的问题。

3D问答(3D-QA)是一项任务,要求模型在给定3D场景的情况下,对用户提出的问题生成答案。问题的主题范围多样,模型必须同时理解3D场景和问题,以生成正确的回应。问题包括简单的任务,如确定物体的存在,以及更困难的任务,如空间推理。由于存在多个完善的基准测试,且基准测试中大多数问题都是事实性的,有唯一答案,因此3D-QA是评估多任务模型能力的流行任务。

3D情境问答(3D-SQA)是3D-QA的一个特例。关键区别在于,3D-QA要求模型从旁观者的角度回答问题,拥有关于场景的所有信息,而3D-SQA需要从预定义情境中的玩家的角度回答问题。例如,在“站在餐桌后面并面向餐桌”的情境下,3D-SQA可能会问“我面前有多少把椅子?”

3D对话要求模型在关于3D场景的多回合对话中与用户保持连贯和自然的交流,而不是单轮问答。例如,用户可能想要了解一个房间,因此他们会连续问关于房间每个部分的问题,而模型预期将正确且连贯地回应。

评估指标涉及将模型的回应与测试样本的 GT 回应进行比较。对于3D-QA和3D-SQA,主导指标是精确匹配(EM),即模型生成的答案必须与正确答案完全匹配。这是因为现有3D-QA基准测试[233, 234, 235, 236]中的大多数问题都是事实性问题,只有一个明确的正确答案。对于答案非唯一的3D对话和任务规划,应用语义指标如BLEU [220],ROUGE [221],METEOR [222],CIDEr [223]和SPICE [237]来评估生成的回应与基准提供的参考答案之间的相似性。它们也用于3D-QA,尤其是在ScanQA基准中,来衡量语义相似性以及准确性。

3.4 3D Embodied Agents (3D Text Action)

同样,考虑涉及与3D场景互动的任务也很有用,这些任务取决于一个特定的文本提示,描述了所需的动作或目标。

3D任务规划是指用户提供一个高级目标,而模型需要概述实现该目标的低级步骤的任务。例如,给定一个房间的3D场景,用户可能会询问如何清洁房间,模型需要提供详细的清洁步骤。

3D导航是指使3D代理(如机器人或虚拟角色)在3D空间中移动和定位自己的任务。这涉及到理解和解释3D环境,识别障碍物,并规划安全、有效的路径以达到指定目标。

3D操作是指3D代理在其环境中物理交互目标的能力。这可以是从拿起和移动目标到更复杂的动作序列,如组装零件或打开门。

对于3D任务规划的评估指标,也依赖于将模型的文本/标记输出与测试样本的 GT 动作相匹配。应用BLEU [220],ROUGE [221],METEOR [222],CIDEr [223]和SPICE [237]来评估生成响应与 GT 答案之间的相似性。

对于3D导航,有两个主要的性能评估指标。1) 成功率(SR)衡量3D代理是否在预定义的距离阈值内达到目标位置。2) 由路径长度加权的成功率(SPL)[238],计算为SR乘以 GT 长度与实际路径长度的比率,旨在反映模型实现目标的效率。其他指标包括Oracle成功率(OSR),轨迹长度(TL)和目标过程(GP)[239]。除了上述衡量代理是否成功到达目标及其效率的指标外,考虑代理路径与语言指定的路径(当语言用于指定详细路径时)的匹配程度也是有用的。这样的指标之一是加权规范化动态时间规整的成功率(SDTW)[240],它将SR与给定指令下代理路径与 GT 路径之间的差异相结合。请注意,作者的讨论仅限于3D-LLM方法中使用的指标。作者鼓励读者参考Gu等人[241]关于导航指标的总结。

对于3D操作,关键的指标是成功率[242],对于操作而言,这是成功操作次数除以任务样本总数。如第4.5节所述,不同的数据集有不同的约定来使用文本表示它们的动作,例如使用结构化输出,使用归一化的数值评分,或者引入新的标记。

3.5 Text-to-3D Generation (Text 3D)

除了使用文本描述和与现有3D场景互动之外,还可以通过语言规范生成3D物体和场景。以下是作者对这一领域的简要总结,关于更深入的调研,请参见Lee等人[243]。

3D物体生成涉及从文本描述中生成单个物体的3D模型。文本输入可以提供关于物体类别、属性、部分结构以及其他应在生成的3D形状中反映的属性。3D场景生成是基于文本场景描述创建完整的3D环境,如房间或户外空间的任务。这包括为文本中指定的目标生成3D模型,以及根据文本中指定的约束智能地排列和组合多个3D目标模型,如目标类别、数量、空间关系和场景属性。

3D编辑是指根据文本指令修改现有的3D资产,如形状或场景。这可能涉及添加、移除或转换目标,更改材料或颜色,或根据给定文本更改高级场景属性。3D生成任务的评估指标用于衡量生成形状/场景的质量以及生成内容与输入文本的匹配程度。常用的衡量生成几何形状的指标包括 Chamfer 距离(CD)和网格体积/表面距离(MVD)。CD通过计算与 GT 3D数据的点对点距离的平方和来计算,而MVD计算两个网格之间的体积/表面对比以衡量几何误差。为了评估整体质量,分类准确度检查是否保留了语义属性,而Fréchet初始距离(FID)捕捉真实性和多样性。为了检查生成的形状是否与输入文本匹配,通常测量文本与3D形状的对齐嵌入(例如ULIP[244])或渲染图像(例如CLIP[174])的相似性。使用人类研究进行评估也是常见的做法。然而,最近的工作[245]表明,可以使用类似于GPT-v4的LVLM作为替代使用人类评判员的方法。对于基于文本的3D编辑,CD和IoU评估了指令编辑在输入几何形状上的应用程度,同时没有过度扭曲。

4 3D TASKS WITH LLMS

三维场景理解任务已经被广泛研究。其核心在于,场景理解包括识别和分类指定三维环境中存在的所有目标,这一过程被称为语义理解[246, 247, 248, 46, 249, 250]或实例级理解[251, 252, 253, 254, 255, 256, 257]。这一阶段至关重要,因为它是构建更细致解读的基础。随后,更高层次的场景理解关注于空间理解,这指的是构建空间场景图[258, 259]和目标关系的语义[260, 261]。更进一步,可以预测潜在的交互,如可供性[262, 13, 14, 15, 263]、场景变化[264, 265]以及理解场景的更广泛背景,例如功能性和审美风格[266]。三维数据也带来了在二维数据中不存在的独特挑战,如获取和标注三维数据的相对高成本,不均匀密集或与网格对齐的稀疏三维数据结构,以及需要调和同一目标的多个(可能被遮挡的)视角[261, 256]。为此,研究者们利用了语言的力量,将三维世界中的语义和关系嵌入其中。近期将大型语言模型(LLM)与三维数据集成的尝试,在实现多层次理解和互动方面显示出潜力,利用了LLM固有的优势,即零样本学习、上下文学习、逐步推理和广泛的世界知识。

在4.1节以及图2中,作者简要描述了LLM如何处理三维场景信息,强调了如何将三维特征与语言对齐,以便通过LLM进行解释和推理,这对于后续章节是基础性的。本节的其余部分按照图3呈现的分类法进行组织,描述了LLM在解决三维任务中所扮演的角色。作者从展示LLM的世界知识(有时被称为“常识知识”)和推理能力如何提升3D任务的性能开始,这部分内容在4.2节中讨论。在4.3节中,作者详细说明了如何将多个三维任务集成到一个LLM中,以实现多任务学习。在4.4节中,作者探讨如何将LLM用作统一界面,以结合其他模态。在4.5节中,作者描述了LLM如何作为具身代理与三维世界互动。最后,在4.6节中,作者展示了LLM如何作为助手生成语义多样的三维物体和场景。此外,作者提供了表1,从三维组件、LLM组件以及三维视觉和语言的对照对3D-LLM方法进行比较,旨在为这一不断发展的领域中的各种方法提供高层次的见解。

4.1 How do LLMs process 3D scene information?

传统的大型语言模型(LLM)仅限于将文本作为输入和输出,这使得摄取三维信息的能力成为所有3D-LLM方法的首要关注点。总体思路是将三维物体或场景信息映射到语言空间,使LLM能够理解和处理这些三维输入。具体来说,这通常包括两个步骤:(i)使用预训练的三维编码器处理相应的三维表示,产生原始的三维特征;(ii)采用对齐模块将这些三维特征转换为LLM能够处理的三维 Token ,类似于第2.2.1节中提到的 Token 化过程。预训练的LLM在生成输出时可以使用这些对齐的三维 Token 。

鉴于第2.1节描述的三维表示的多样性,获取三维特征有多种方式。正如表1中的3D几何列所示,点云最为常见,因为它们的简单性和与各种预训练三维编码器的兼容性,使其成为多任务和多模态学习方法的热门选择。多视角图像[11, 14, 17, 20, 270, 273]也经常被使用,因为二维特征提取的研究已经相当成熟,这意味着三维特征提取只需要额外的二维到三维提升方案。数据,通过深度相机容易获得,常用于三维实体代理系统,以提取与导航和理解相关的视点相关信息。三维场景图是一种更抽象的三维表示,擅长于建模物体的存在及其关系,并捕捉场景的高级信息。它们常用于三维场景分类[274]和规划任务[275]。NeRFs在3D-LLM方法[21]中使用较少。作者认为这是因为它们的隐式特性使得它们更难以 Token 化并与前馈神经网络集成。

当前方法使用了不同的架构(见图2)和将对齐三维特征与LLM输入空间对齐的模块(见表1中的3D LLM列)。对于仅接受三维输入的模型(图2a),使用线性层[269, 24, 266]或多层感知器(MLP)[171, 172]作为对齐模块,将三维特征转换到LLM输入空间。接受三维文本输入的模型通常使用两个独立的分支来对齐三维特征和文本(图2b)。一些研究[171, 172]采用单层普通 Transformer ,允许在特征对齐过程中三维物体特征相互关注。其他如[270, 271]创建基于 Transformer 的对齐模块,其中标准的 Transformer 架构被调整以更好地适应不同类型的三维数据,如密集点云和稀疏激光雷达扫描。同时,文本使用预存在的LLM文本嵌入表进行编码。其他研究[153, 268, 276]遵循[195]的Q-Former风格方法对齐三维特征和文本(图2c),引入固定长度的 Query Token 作为附加输入,并遵循基于BERT的结构,以便在特征对齐过程中促进三维和文本特征之间的互动。通常,上述三种类型的架构通过对3D字幕数据集[218]的使用来实现对齐,其中字幕损失(即LLM生成的字幕与场景简短、真实描述之间的交叉熵损失)用于微调对齐模块,同时冻结预训练的三维特征提取器和LLM。

最后,一些模型使用封闭源模型如ChatGPT,并且根本不训练对齐模块(图2d)。这些模型不是将对齐的三维特征与LLM输入空间对齐,而是直接从三维数据生成文本描述,例如描述三维边界框、位置和关系,或者使用预存在的字幕。这些文本描述被输入到ChatGPT中。这些研究没有提出额外的对齐模块,因此无需训练。

4.2 LLMs for Enhancing 3D Task Performance

在大规模数据上训练的大型语言模型(LLM)已经被证明能够获取关于世界的常识性知识[278]。人们已经探索了LLM的世界知识及其推理能力的潜力,以增强3D场景理解并重新构建几种3D任务的流程。在本节中,作者关注的是旨在利用LLM提高现有方法在3D视觉-语言任务上性能的方法。

当将LLM应用于3D任务时,作者可以将其应用分为两个不同的类别:知识增强和推理增强方法。知识增强方法利用LLM内嵌的丰富世界知识来提升3D任务的性能,这可能会提供上下文洞察,填补知识空白,或者增强对3D环境的语义理解。另一方面,推理增强方法不是依赖LLM的世界知识,而是利用LLM逐步推理的能力,从而提供更好的泛化性能以应对更复杂的3D挑战。以下两节将分别描述这些方法。

4.2.1 Knowledge-enhanced approaches

有几个方法利用了LLM的世界知识。Chen等人[274]使用LLM从RGB-D图像中进行3D房间分类。在这里,LLM中嵌入的知识用于根据房间中包含的物体类别信息来确定房间类别。首先,该方法使用Matterport3D[285]数据创建场景图,图中包含区域和物体的节点,以及将物体节点与房间节点相连。接下来,选择关键物体来形成每种房间类型的 Query 。LLM为从所选物体提取的描述打分,得分最高的预测房间标签。还可以提供如大小或位置等空间信息。

ViewRefer[20]使用LLM来扩展与视图相关的描述,增强地面文本。例如,给定原始文本“面向沙发前部,沙发右侧的桌子”,LLM用于创建类似的句子,但来自另一个说话者的视角,例如“背对沙发前部,选择沙发左侧的桌子”。通过多次重新表述输入文本及其相反视角的同义词,模型提高了跨视图接地能力。它还采用了带有跨视图注意力的融合 Transformer ,并包括可学习的多视图原型,这些原型捕捉跨视图知识,进一步提升了3D接地的性能。

Abdelreheem等人[22]解决了3D形状中的语义对应问题。他们通过将渲染视图输入到BLIP2模型来生成类别 Proposal 列表,从而对3D形状进行分类。ChatGPT[286]将这些统一为每个形状的一个类别。ChatGPT还生成语义部分名称和成对映射(例如,手臂翅膀)。一个3D分段器然后根据语义区域对形状进行分段,利用部分映射生成稀疏对应图。

上述知识增强策略尤其在零样本场景中实现了强大的性能,在这些场景中,特定目标或场景类型没有可用的标注3D数据。这允许进行开放式的推理,关于目标部分、关系和超出固定本体的语义,如(i) Chen等人[274]生成空间和语义目标描述,(ii) ViewRefer[20]描述多视图目标关系,以及(iii) Abdelreheem等人[22]在形状之间生成和匹配目标部分语义所展示的那样。

4.2.2 Reasoning-enhanced approaches

除了世界知识,LLM(大型语言模型)的推理能力也有助于解决其他3D任务,尤其是在具有详细几何形状和多个目标的复杂3D场景中的视觉定位。在这种情况下,目标的文本描述应包括它们的外观以及与周围物品的空间关系。普通的定位方法[287]通常因无法理解详细的文本描述而在这种环境下遇到困难。LLM-Grounder[21],Transcribe3D[23]和零样本3DVG[16]通过利用LLM的推理能力来分析文本描述并生成一系列指令,使用现有的定位工具箱来定位目标。具体来说,LLM首先从文本描述中识别出 Anchor 目标和目标目标。然后,它根据定位工具返回的多候选目标坐标之间的空间关系(或描述的属性)来选择与文本描述最匹配的候选目标。此外,(i)Transcribe3D[23]和LLM-Grounder[21]采用多轮交互式问答过程,帮助用户澄清意图,促使他们提供更多信息的指令以获得更准确的结果,而(ii)LLM-Grounder包含了多种定位工具选择,例如OpenScene[29]或LERF[30],以适应不同的3D表现形式,如点云或NeRF。这些方法的共同缺点是LLM的“盲目性”,因为它只提供了3D场景的抽象文本描述,而不是原始点云场景。这可能导致丢失关键的场景细节。因此,当一个3D场景包含同一类的多个目标时,缺少必要的场景细节意味着基于文本的参考模糊性无法解决,这限制了整体性能。

除了视觉定位,LLM的推理能力也促进了其他任务。3DAP[273]利用GPT-4V从2D图像推理目标的3D信息,使用视觉提示技术,其中它用3D轴标注输入图像,以增强LLM对3D尺度的感知。ConceptFusion[18]使用GPT3生成指令,使用预定义的基本空间比较模块,以实现更复杂的空间推理,使用他们提出的3D特征图。

4.3 LLMs for 3D Multi-Task Learning

许多研究专注于利用LLM的遵循指令和在情境中学习的能力,将多个3D任务统一到单一的语言空间中。通过使用不同的文本提示来指代不同的任务,这些研究旨在让LLM作为一个统一的对话界面。使用LLM实现多任务学习通常涉及几个关键步骤,首先需要构建3D-文本数据对[19, 153, 270]。这些数据对需要以文本形式制定任务指令,并定义每个不同任务的输出。接下来,将3D数据(通常是点云形式)输入到3D编码器[288, 34]以提取3D特征。然后,使用对齐模块[171, 153, 172, 266]来(i)在多个层次(目标 Level 、关系 Level 和场景 Level )将3D特征与LLM中的文本嵌入对齐,以及(ii)将3D特征转换为LLM可解释的标记。最后,需要选择适当的训练策略[272, 19, 153, 270, 269],例如单阶段或多阶段3D-语言对齐训练以及多任务指令微调。

在本节的剩余部分,作者将详细探讨这些方面。此外,在表2中,作者总结了本节回顾的每种方法的范围和能力。

4.3.1 Data for Multi-Task Learning

正如表2所示,作者将任务分为四类:标注、定位、问答(QA)以及具身代理任务(即规划、导航和操作)。相应地,每个任务的文本输出遵循预定义的格式。对于标注和QA任务,输出为纯文本,没有特定的格式限制。定位任务的输出是一个3D边界框,通常是所参考目标的中心坐标及其3D尺寸。通常,点和尺寸的值被归一化到0-255的范围[19],这限制了LLM需要预测的标记的范围。对于规划任务,模型以文本形式输出一系列步骤以执行任务;而对于导航,输出是一系列空间坐标。对于操作,输出是文本形式的动作序列。现有方法遵循这些指导原则来构建它们的多任务指令微调数据集。

一旦文本格式确定,不同的方法会使用不同的策略来获取其数据集的文本标注。几种方法利用人工标注员为每个样本生成“真实”标注[218, 228, 234, 233],然而这可能是昂贵且耗时的过程。另一种方法是使用ChatGPT[286]为每个样本生成文本标注,这是3DMIT[269],LiDAR-LLM[271],Chat-3D[171]和Chat-3D v2[172]所采用的策略。在这里,3D场景数据被转换成文本(通常是通过文本描述目标边界框和空间关系),并创建任务描述以说明所需的输出。为了引导ChatGPT按照任务的预期输出格式,提供了演示示例,这使得ChatGPT能够进行上下文学习,为其他3D场景生成可信的文本标注。另外,其他多任务数据集[19, 266]仅通过合并现有的3D视觉-语言(VL)数据集[218, 228, 234, 153]来构建。一些多任务数据集采用这三种方法的组合构建,如LEO[270],LiDAR-LLM[271]和3D-LLM[153],旨在结合人工标注的准确性以及利用LLM生成标注的可扩展性。

4.3.2 Training an LLM for multiple 3D tasks

在训练大型语言模型(LLM)以执行多个3D任务的第一个步骤中,需要获得有意义的3D特征,其提取方法根据3D场景的类型而有所不同。对于单个目标点云,Point-LLM [267]、Chat-3D [171]和GPT4Point [268]采用了Point-BERT [288]来提取3D目标特征。对于室内场景,LEO [270]使用PointNet [34]进行特征提取,而Chat-3D v2 [172]和3DMIT [269]对场景进行分割,并使用Uni-3D [289]为每个分割部分提取特征。同时,MultiPLY [24]将提取的目标特征整合到场景图[290]中,以表示整个场景。3D-LLM [153]和Scene-LLM [266]从2D多视角图像中提取特征并转换为3D表示。3D-LLM [153]从Mask2Former [291]或SAM [211]中提取2D语义特征。Scene-LLM [266]遵循ConceptFusion [18]的方法,融合全局信息和局部细节,将像素级的CLIP特征映射到点级的3D特征。对于户外3D场景,LiDAR-LLM [271]使用VoxelNet [292]来提取3D Voxel 特征。

在讨论第4.1节中的对齐模块时,使用了各种网络架构。值得注意的是,MultiPLY [24]采用了不同的线性层来对齐来自每种模态的特征。Chat-3D [171]和Chat-3D v2 [172]使用单层普通 Transformer 使3D目标特征在对齐过程中相互关注。LEO [270]和LiDAR-LLM [271]使用修改后的 Transformer 作为其对齐模块,以更好地适应不同类型的3D数据(密集点云与稀疏激光雷达)。LEO [270]修改了自注意力机制,以显式编码点云中目标对之间的空间关系。相比之下,LiDAR-LLM [271]同时使用自注意力和交叉注意力机制来对齐鸟瞰图(BEV)特征与文本特征。3D-LLM [153]和GPT4Point [268]采用了Q-Former,而LL3DA [19]在Q-Former之上增加了一个额外的分支,允许 Query 标记与用户提供的视觉提示进行交互。

大型语言模型(LLMs)可以通过第2.2.3节讨论的不同策略进行微调,以整合多个3D任务。LEO [270] 和3DMIT [269] 采用低秩适应(LoRA)进行微调。因此,包括对齐模块和3D编码器在内的可训练参数总数不到原始LLMs参数的,显著提高了训练效率。Chat-3D [171]、LL3DA [19]、Chat-3D v2 [172]、LiDAR-LLM [271] 和 MultiPLY [24] 采用适应性微调。特别是,这些模型包含对齐3D场景中的空间信息与语言的模块,例如一个 Transformer 层,以捕捉目标关系。这些模块连同预先训练的3D编码器和LLMs一起进行微调以实现对齐。3D-LLM [153]、Scene-LLM [266]、Point-LLM [267] 和 GPT4Point [268] 采用层冻结策略。通过冻结大部分LLM层并微调如嵌入层等特定层,该策略在提高3D理解能力的同时保留了语言能力。最后,Agent3D-Zero [17] 使用提示调整,这是一种引导LLMs理解3D任务的训练方法。这种方法利用定制提示,在3D场景的鸟瞰图(BEV)上添加网格线和刻度标记,帮助2D视觉语言模型(VLMs)理解3D几何。

为3D多任务学习训练这些模型还涉及到3D-语言特征对齐的微调。Point-LLM [267]、3D-LLM [153]、Scene-LLM [266]、LEO [270] 和 GPT4Point [268] 都采用单阶段对齐方法。具体来说,Point-LLM [267] 仅使用标注数据训练MLP,并额外更新输入嵌入层以适应新添加的标记点云标记开始和结束的 Token ( p_start p_end )。3D-LLM [153] 使用自定义数据集训练对齐模块,并更新输入和输出嵌入层的权重,以适应新添加的位置 Token 。Scene-LLM [266] 仅训练一个线性层,使LLMs能够使用3D框架-语言配对描述任务来理解以自我为中心和以场景为中心的视角,这些任务分别在相机和世界坐标系中进行。它还更新输入嵌入层以适应新添加的标记3D Token 开始和结束的 Token ()。LEO [270] 也使用描述任务训练对齐模块,但独特地收集了三种类型的描述数据:目标 Level [293],场景中的目标[228, 294]和场景 Level [295],其将对齐模块与所有三种数据集一起训练。GPT4Point [268] 遵循BLIP2 [195]的结构和训练策略,通过三个任务实现对齐:点-文本对比(PTC)、点-文本匹配(PTM)和点描述生成(PTG)。

与这些单阶段对齐方法相比,LiDAR-LLM [271]、Chat-3D [171] 和 Chat-3D v2 [172] 分别采用了两阶段的3D-语言对齐过程。LiDAR-LLM [271] 通过两个阶段的3D字幕任务来增强局部和全局场景感知:首先关注单视图字幕,然后扩展到全景场景描述。他们通过结合字幕和定位任务开发实例级感知能力。Chat-3D [171] 首先使用3D目标分类数据集 [296, 293, 297] 将3D目标与文本对齐,通过只更新对齐模块来最大化映射的3D目标特征与目标类别词嵌入之间的余弦相似性。在第二阶段的场景级对齐中,它利用ScanRefer [218] 来实现字幕能力,并专门更新额外的 Transformer 层来建模目标的空间关系。同样,Chat-3D v2 [172] 结合了目标级和场景级对齐,第二阶段还训练了一个位置嵌入层。为了提高训练效率,LL3DA [19] 和 3DMIT [269] 跳过了对齐阶段,只专注于下面所述的指令调优阶段。

几乎所有多任务学习方法最终都需要根据指令完成各种3D任务的能力。因此,作为训练的最后阶段,每种方法通常都会使用它们自己构建的多任务指令跟随数据集进行指令微调。由于所有任务输出都统一为文本形式,所使用的训练损失是LLM中使用的标准自回归损失。这个阶段通常涉及联合训练对齐模块和LLM。一个例外是Agent3D-Zero [17],它通过向GPT4V输入不同视角的2D图像来完成各种3D任务,因此不需要任何训练。

4.4 LLMs as 3D Multi-Modal Interfaces

除了探索3D多任务学习器之外,一些最新研究还结合了不同模态的信息,以进一步提高模型的性能并实现新型的交互方式。除了文本和3D场景,多模态3D-LLM还可以将2D图像、音频或场景中的触觉信息作为输入。

大部分工作旨在构建跨不同模态的通用表示空间。由于现有的一些研究[299]300已经提供了预训练的编码器,可以将文本、图像或音频映射到公共空间,一些研究选择学习一个3D编码器,将3D嵌入对齐到其他模态预训练编码器的嵌入空间。JM3D-LLM[279]学习了一个3D点云编码器,将其嵌入空间与SLIP[301]的文本-图像嵌入空间对齐。它渲染了点云的一系列图像,并在训练过程中构建了一个分层文本树,以实现详细的对齐。Point-Bind[272]也学习了一个类似的3D编码器,并将其与ImageBind[302]对齐,以统一图像、文本、音频和点云的嵌入空间。这使得使用不同的任务头在各个模态之间处理诸如检索、分类和生成等不同任务。然而,一个值得注意的限制是,这种方法仅适用于小规模的目标级场景,因为对于含有数百万点的广阔场景,3D编码器的处理计算成本过高。此外,像CLIP这样的预训练多模态编码器是为单目标场景设计的,不适用于含有多个目标和局部细节的大型场景。

大型场景则需要更细致的设计以融合多个模态。ConceptFusion[18]构建了一个增强的特征图,为大型场景的每个组成图像融合全局信息和局部细节。这是通过使用已经对齐到包括文本和音频在内的不同模态的预训练特征提取器[187、188]实现的。然后,它使用传统的SLAM方法将特征图映射到场景的点云。MultiPLY[24]采用了与ConceptGraph[290]类似的表示。它识别出场景中的所有显著目标,为每个目标获取全局嵌入,并最终构建场景图。结果表示与Llama[140]的嵌入空间对齐的场景嵌入。其他模态的嵌入,包括音频、温度和触觉,也可以通过线性投影映射到同一空间。所有嵌入都被标记化并一次性发送到LLM。与目标级场景上的方法相比,能够处理大型场景的方法通过依赖预训练编码器来弥合模态之间的差距,而不是从头开始学习新的编码器,从而降低了成本。

4.5 LLMs for Embodied Agents

三维具身代理可以利用LLM的大规模规划、工具使用和决策能力来创建。这些能力使得LLM能够生成涵盖三维环境内的导航[270, 275, 11]、与物体的交互[14]以及选择合适工具执行特定任务[24]的智能决策。本节将描述三维具身代理如何执行规划、导航和操作任务。

4.5.1 3D Task Planning

对于具身智能体来说,“任务规划”是指根据任务描述和3D环境生成执行特定任务的步骤的能力。任务规划通常作为导航和操作任务[12, 275]的前置条件,因为规划准确性直接影响到后续任务的性能。

LEO [270] 和 LLM-Planner [12] 利用大型语言模型(LLMs)生成逐步计划,并根据环境感知动态调整这些计划。LEO [270] 强调基于当前场景配置的场景感知规划,而LLM-Planner [12] 采用 GPT3 [127] 将规划分为高级子目标和低级动作,并在智能体在执行任务时遇到困境时重新规划。3D-VLA [276] 通过生成式世界模型整合了3D感知、推理和行动。它通过利用其生成模型预测未来状态表示(例如目标图像和点云)来增强规划能力。Agent3D-Zero [17] 引入了Set-of-Line Prompting(SoLP),通过生成多样的观察视角,增强视觉语言模型(VLM)对场景几何特征的理解。具体来说,SoLP 将网格线和刻度标记叠加在鸟瞰图(BEV)图像上,并提示VLM提供更准确的摄像机位置和方向,这使得VLM能够理解3D空间概念的任务。UniHSI [277] 解决了人类-场景交互(HSI)的任务,该任务涉及根据输入语言命令在3D环境中生成人类和物体之间的交互。它使用LLM作为规划器,将语言命令翻译为表示为接触链(CoC)的任务计划,这是一种表示人类关节点与物体位置之间的时间顺序关系的序列。尽管上述方法专注于单个场景内的规划,但SayPlan [275] 可以处理多个房间和楼层,通过(i)利用3D场景图进行语义搜索和(ii)将经典路径规划与迭代重新规划 Pipeline 整合,以实现计划细化。

4.5.2 3D Navigation

三维导航是指实体代理在三维环境中移动和定位自己的能力,通常基于视觉输入和语言指令。所描述的每种方法——LEO [270]、Agent3D-Zero [17]、LLM-Planner [12]和NaviLLM [11]——都以不同的方式实现三维导航。LEO [270]处理以自我为中心的2D图像和以目标为中心的3D点云,并伴随着文本指令。它生成一系列动作标记,这些标记对应于可执行的导航命令,如“向前移动”或“向右转”。LEO采用“最短路径导航尝试”,与人类演示相比,这提供了一个噪声较少且更直接的学习环境。Agent3D-Zero [17]通过连续选择新的视角来进行导航,这些视角基于对环境的评估。它结合了之前视角的历史数据,以优化通往特定目标(如在办公环境中寻找打印机)的导航路径。LLM-Planner [12]采用分层方法,首先生成高级计划作为子目标序列,然后由低级规划器将这些子目标转换为一系列基本动作。这使得整个流程能够适应即时环境。NaviLLM [11]通过基于模板的指令将各种具身导航任务转换为生成问题。这些指令包括4个元素:由单词序列定义的任务、对所有可达视角的观察、过去视觉观察的历史,以及指导动作生成的输出提示(例如选择方向或目标)。

4.5.3 3D Object Manipulation

在3D实体代理的背景下,操纵指的是它们物理地与物体互动的能力,范围从移动物体到复杂的序列,如组装部件或打开门。用于使大型语言模型(LLMs)能够执行操纵任务的核心思想在于将动作序列标记化。为了让LLMs输出具体动作,首先需要定义动作标记,这些标记允许LLMs根据任务和3D场景上下文生成所述动作。随后,像CLIPort [242]这样的平台或机器人臂中的运动规划模块将这些标记化的动作转化为由代理执行的物理运动。

LEO [270]、MultiPLY [24] 和 3D-VLA [276] 各自使用不同的动作标记将口头或书面指令转化为3D空间中机器人的动作。LEO [270] 使用超过500个特定标记来精确控制机器人动作。具体来说,对于CLIPort [242]任务,动作姿态是通过516个标记编码的:320个用于x轴姿态分类,160个用于y轴,36个用于z轴旋转分类。MultiPLY [24] 通过引入诸如 ⟨SELECT⟩ 用于物体互动,⟨NAVIGATE⟩ 用于移动,⟨OBSERVE⟩ 用于仔细检查, TOUCH 用于触觉反馈, HIT 用于听觉反馈, PICK-UP 和 PUT-DOWN 用于操纵,以及 LOOK-AROUND/ 用于意识等标记来扩展这一方法。这种方法还整合了感官反馈(触觉、温度和听觉),增强了机器人与其周围环境的互动。3D-VLA [276] 采用(i)目标标记 以识别被操纵的目标,(ii)位置标记( )用于空间定位,以及(iii)用于机器人动作(如手臂位置/旋转/夹爪状态)的专业标记。这些标记由 SEP/ 分隔。这种标记结构使得理解和执行复杂的3D操纵变得可能。

尽管这些系统能够通过将指令映射到动作使机器人执行复杂任务,但它们忽略了可操纵物体的语义理解,并且常常无法区分适合与不适合操纵的部件。为了解决这个问题,VoxPoser [13]、LAN-grasp [14] 和 ManipLLM [15] 关注“可供性”,并创建可供性地图来表示可以利用其周围的目标和特征执行特定任务,例如可抓取的把手[14, 15]、可按下的按钮[15]或可移动的物体[13]。具体来说,VoxPoser [13] 使用LLM分解自由形式的语言指令,推理可供性和约束,并通过使用代码接口与VLMs交互来组合3D Voxel 地图。这些地图能够生成闭环机器人轨迹,这些轨迹对动态变化具有鲁棒性,并能在接触丰富的环境中从在线经验中学习。LAN-grasp [14] 采用基础模型来加深机器人对物体的理解,以语义适当的方式抓取,通过结合多个模型来识别可抓取的部分,无需重新训练。Ma-nipLLM [15] 通过从文本提示、RGB图像和深度地图中识别3D坐标接触点和夹爪方向来预测操纵结果。

4.6 LLMs for 3D Generation

在传统上,三维建模是一个复杂且耗时的过程,入门门槛较高,需要细致地关注几何、纹理和光照,以实现逼真的效果。在本节中,作者将仔细探讨大规模语言模型(LLMs)与三维生成技术的融合,展示语言如何为场景中生成具有上下文意义的目标提供途径,并为三维内容创作与操控提供创新的解决方案。

4.6.1 Object-level Generation

Shape-GPT [283] 将3D形状量化为离散的“形状词”标记,使用特定于形状的3D VQ-VAE。这使得形状数据能够与文本和图像一同整合进T5语言模型[139]的多模态输入中。这种多模态表示使T5能够学习跨模态交互,例如文本到形状生成以及形状编辑/补全。GPT4Point [268] 采用双流方法——通过Point-QFormer将点云几何与文本对齐,然后输入到耦合的LLM和扩散路径中,以实现文本理解和符合文本输入的高保真3D目标生成。

相比之下,MeshGPT [282] 和 PolyGen [280] 并不基于文本条件生成,但它们仍然采用了类似于LLM中序列建模的自动回归方法。MeshGPT使用图卷积将网格几何/拓扑编码为丰富的嵌入,并通过残差向量量化进行压缩,然后输入到GPT风格的 Transformer 中,以自动回归方式预测标记/嵌入,生成具有所需属性的网格。PolyGen [280] 是一个基于自动回归 Transformer 的3D网格模型,它使用指针网络。它包括一个无条件建模网格顶点的顶点模型,以及一个基于输入顶点条件进行网格面生成的面模型,使用自动回归网络输出面索引和顶点坐标,以生成多样且高质量的网络。

4.6.2 Scene-scale Generation

Holodeck [284]和GALA-3D [25]采用了多阶段流水线,逐步将最初由文本描述的粗略3D场景布局细化成详细的现实3D环境。Holodeck使用专门模块根据GPT-4的空间推理和放置/风格建议来构建基本布局、选择材质,并融入诸如门和窗等元素。然后,它将Objaverse资产与GPT-4的文本描述相匹配,填充到布局中。优化器根据从GPT-4获得的空间关系约束来排列这些目标,以鼓励真实的目标布局和交互。

GALA-3D [25]首先使用大型语言模型(LLM)从文本生成粗略布局,然后将它们转换成3D高斯表示。这一表示作为创建详细3D内容的基础,使用实例级文本到图像扩散先验。它采用组合优化来微调布局引导的高斯参数,确保最终场景在目标放置、规模和交互方面与文本保持一致。

两者都利用了LLM的优势来提取高级语义布局,并结合生成模型/优化方法将这些布局转化为几何和物理上合理的3D场景。

4.6.3 Procedural Generation and Manipulation

LLMR [281],3D-GPT [26] 和 SceneCraft [303] 采用了模块化架构,其中包含专门用于互动式三维世界创建和从自然语言生成代码的组件/代理。LLMR 包括用于在 Unity 中构建场景的代码生成组件,理解现有场景目标和属性以进行修改,识别执行指令所需的功能,以及评估最终代码质量的不同部分。同样,3D-GPT 也有用于解释指令和确定所需生成功能的组件,用详细的建模属性丰富描述,并将丰富后的描述翻译成用于 Blender API 的 Python 代码。总的来说,这些方法展示了任务分解和 LLM 组件的专业化,以处理指令解释、功能映射和健壮的代码生成。

5 3D TASKS WITH VLMS

在第4节讨论了在3D任务中集成大型语言模型(LLMs)的方法之后,大量研究通过二维视觉-语言模型(VLMs)的视角探索了3D理解的各个方面。VLMs包含了更丰富的视觉信息,这些信息可以直接关联到3D。本节回顾了一系列近期论文的贡献,这些论文涵盖了语言驱动的开放世界理解、实例级理解、统一端到端架构、空间推理、生成以及更多领域。

5.1 Open-Vocabulary 3D Scene Understanding

开放词汇的3D场景理解旨在使用自然语言描述而不是预定义的类别标签来识别和描述场景元素。OpenScene [29] 采用了零样本方法,通过在共享特征空间中与CLIP的文本和图像像素嵌入共同嵌入,预测3D场景点的密集特征,从而实现了任务无关的训练和开放词汇 Query ,以识别目标、材质、功能、活动以及房间类型。CLIP-FO3D [304] 采用了类似的方法,通过修改CLIP以从3D场景提取密集像素特征并将其投影到点云上,然后通过蒸馏训练一个3D模型以转移CLIP的知识。Semantic Abstraction [305] 从CLIP中提取相关性图作为抽象的目标表示,以泛化到新的语义、词汇和领域。Open-Fusion [306] 将SEEM [307] 视觉-语言模型与TSDF 3D映射相结合,用于实时开放词汇场景创建和 Query ,利用基于区域的嵌入和置信度图。

PLA [308] 和 RegionPLC [309] 等方法利用对比学习将标题与2D和3D数据模态结合,以关联视觉和语义信息。PLA [308] 使用3D-标题对和对比学习将多视角图像与标题关联起来,以学习视觉-语义表示,而RegionPLC [309] 提出了一种区域感知对比学习方法,通过将2D模型映射到3D点的区域级标题进行组合。OVIR-3D [310] 将2D区域 Proposal 和来自现成2D检测器的文本对齐特征融合到3D实例中,以实现高效的开放词汇检索。CoDA [311] 在其3D新型目标发现(3D-NOD)策略中使用了来自标注基本类别的3D几何先验和CLIP的2D语义先验。其发现驱动的跨模态对齐(DCMA)为新型目标定位和分类对齐3D和图像/文本特征。

如 Open-Mask3D [312] 和 Open3DIS [313] 等实例级场景理解工作,利用预测的类别无关的3D实例 Mask 和2D段级CLIP嵌入,实现了开放词汇的3D实例分割。OpenIns3D [314] 在没有对齐图像的情况下实现了开放词汇理解,使用“ Mask -快照- Query ”流程,预测3D Mask Proposal ,生成合成场景图像,并通过语言模块为 Mask 分配类别。Rozenberszki等人 [315] 提出利用CLIP特征将3D特征学习接地到3D语义和实例分割。

将NeRFs与语言接地在开放词汇场景理解中已显示出有希望的结果。包括DFF [316]、LERF [30]、VL-Fields [317] 和 3D-OVS [318] 在内的几种方法,通过将2D特征提取器(如DINO或CLIP)的知识蒸馏到3D特征场,最小化体积渲染特征与2D特征之间的误差,从而实现了基于 Query 的局部编辑和将语言接地到神经隐式表示中。LERF [30] 通过体积渲染CLIP嵌入优化了一个密集的、尺度条件的3D语言场。LangSplat [319] 和 N2F2 [320] 通过利用分层监督和多尺度特征场,在3D高斯溅射表示中展示了高效的开放词汇 Query 和交互。

5.2 Text-Driven 3D Generation

第4.6节涵盖了使用LLM进行3D生成的方 法。在这里,作者调研了利用2D VLMs[174]和基于可微渲染的文本到图像扩散模型[321, 322]进行指导的文本到3D生成方法。早期的工作如DreamFields[323]、CLIP-Mesh[32]、CLIP-Forge[324]和Text2Mesh[325]探索了在CLIP指导下进行零样本3D生成。

DreamFusion[31]引入了分数蒸馏采样(SDS),通过使预训练的2D扩散模型评估任意视角下的渲染效果高度逼真,来优化3D表示的参数。它使用文本到图像的Imagen模型[322]通过SDS优化NeRF表示。Magic3D[326]提出了一种两阶段框架:先用低分辨率扩散先验和稀疏3D哈希网格生成粗略模型,然后使用高效的可微渲染器和高分率潜在扩散模型[321]优化纹理3D网格模型。Fantasia3D[327]分离了几何和外观,使用混合DMTet[328]表示和空间变化BRDF。ProlificDreamer[329]引入了变分分数蒸馏(VSD),一个基于粒子的框架,将3D参数视为随机变量,以提高保真度和多样性。Dream3D[330]利用显式的3D形状先验和文本到图像扩散模型,增强文本引导的3D合成。MVDream[331]采用了一种在少量样本数据上可训练的多视图一致扩散模型,用于个性化生成。Text2NeRF[332]将NeRF表示与预训练的文本到图像扩散模型结合,从语言生成多样化的室内外3D场景。除了同时生成几何和外观外,一些研究还探讨了仅基于给定几何合成纹理的可能性[333, 334, 335]。

对于人类角色,AvatarCraft[336]使用扩散模型来指导从文本提示中学习神经隐式场几何/纹理。此外,它通过将目标行人网格映射到模板行人网格的显式变形场来变形神经隐式场,从而可以动画化这些人类角色。AvatarCLIP[337]提出了一种零样本CLIP监督的框架,用于从文本生成3D角色、几何雕刻、纹理映射和动作合成。CG-HOI[338]使用扩散模型从文本中刻画动态的人与物交互。GenZI[339]通过预训练的视觉语言模型提炼关于人类交互的信息,从而从文本提示生成零样本的3D行人场景交互。

在探索组合生成方面,CG3D[340]使用显式的3D高斯辐射场生成可扩展的3D场景,通过组合单个目标而不使用边界框。Po等人[341]引入了局部条件扩散,通过文本提示和边界框实现细粒度的场景控制。GraphDreamer[342]通过将场景图分解为全局-局部描述来优化目标SDF,从场景图生成组合场景。

总体而言,这些方法结合了扩散模型、视觉语言模型、神经表示和3D先验,用于从文本到3D的目标、角色和场景生成。

5.3 End-to-End Architectures for 3D Vision & Language

在大型3D文本数据集上预训练的Transformer模型学会了强大的联合表示,这些表示桥接了视觉和语言模态。3D-VisTA [343] 是一个Transformer模型,它使用自注意力机制同时建模3D视觉和文本数据,使得在诸如 Mask 语言/目标建模和场景文本匹配等目标上进行有效的预训练。UniT3D [227] 采取了一种统一的Transformer方法,它结合了PointGroup 3D检测 Backbone 网络、BERT文本编码器和多模态融合模块,并在合成的3D语言数据上进行联合预训练。SpatialVLM [344] 采取了不同的策略,它共同训练VLMs(视觉语言模型)在一个大规模的合成3D空间推理数据集上,提升了3D空间视觉问答任务的性能,并使得像机器人链式思维推理这样的应用成为可能。Multi-CLIP [345] 预训练了一个3D场景编码器,以将场景特征与CLIP的文本和图像嵌入对齐,旨在转移CLIP的知识以在诸如视觉问答等任务上提升3D理解能力。

除了预训练方法之外,研究行人还探索了在端到端框架中统一3D感知与语言能力的架构。D3Net [27] 结合了密集字幕生成和视觉定位与3D目标检测器,一个从检测生成字幕的说话者,以及一个使用字幕区分目标的倾听者。Uni3DL [28] 在点云上操作,包含文本编码、点编码、语义/ Mask 预测等模块,以及多种任务输出,如分割、检测、定位和字幕生成。InstanceRefer [346] 使用全景分割和语言线索根据语言描述过滤实例候选,用于3D点云中的视觉定位任务,而LanguageRefer [347] 则将语言嵌入与来自3D边界框的空间嵌入结合。3DVG-Transformer [348] 也处理点云中的3D定位问题,它通过坐标引导的上下文聚合模块和多路注意力机制进行有效的特征融合。

6 Datasets

作者现在提供了用于训练和评估三维视觉-语言模型的数据集的高级概述。在表3中,作者列出了一些数据集以及它们用于的任务,同时还提供了关于三维扫描和标注的信息。在图4中,作者按时间线展示了这些数据集,显示了每个数据集从何处获取三维信息。当前的3D视觉-语言数据集几乎都是通过获取现有的3D视觉数据集,并对样本应用人工、模型或模板化标注来生成的。如表3所示,大多数现有数据集关注真实的室内场景,这部分可以通过观察到大多数现有数据集使用了来自ScanNet [361]和3RScan [295]的三维扫描来解释。这里展示的许多数据集共享相同的三维数据,主要通过它们选择的标注策略以及旨在用于的3D视觉-语言任务来区分。

用于语言指导的三维导航和操作数据集通常围绕特定需求设计,并且与现有研究的大量重叠。作者建议读者参考现有的调查论文[362, 363]来了解这些数据集的概述。同样,对于文本到3D生成数据集,作者引导读者阅读Lee等人[243]最近的调查。由于之前的广泛报道,作者在此省略进一步讨论,并且许多方法使用2D视觉-语言数据而非3D特定数据集。

Cap3D [349]是一个在Objaverse [293]数据集的k个目标上开发的3D目标标题数据集。它是通过从3D目标的多个视角生成2D图像标题,并通过图像-文本对齐和大型语言模型(LLMs)来整合这些标题构建而成的。

Text2Shape [350]是ShapeNet [296]中8,447张桌子和6,591把椅子的带有人工标题版本,与通过基于模板的标题标注的基本形状的生成数据集结合在一起。它最初用于生成性的文本到3D形状任务。

SceneVerse [351]是一个大规模、多用途的标注场景数据集,通过编译来自现有3D数据集的68,000个场景构建而成。SceneVerse总共包含250万个视觉-语言对,用于目标标题、场景标题和生成相对描述,主要通过使用3D场景图和大型语言模型(LLMs)生成。

nu-Caption [271]是来自nuScenes [364]数据集的420,000个激光雷达扫描的标题版本,使用GPT-4和2D多模态语言模型(MLLMs)进行标注。标题包括一般场景描述、目标及其关系的详细描述,以及路上潜在风险的识别。

nu-Grounding [271]在nu-Caption的基础上,关注于grounding(定位)任务,使用来自nuScenes的标注创建280,000对问题和答案,用于视觉定位和定位标题。

ScanRefer [218]通过创建ScanNet [361]中800个场景中11,046个目标的51,583个人工标注的“参照表达式”,引入了使用自然语言表达进行3D RGB-D定位的任务。输入包括扫描的3D场景的点云以及一个指定目标目标的自由形式描述,输出是相应目标的边界框。ScanRefer提供了一个评估服务器和在线基准,以方便比较不同的方法。

ReferIt3D [228] 引入了一系列数据集(Nr3D、Sr3D和Sr3D ),这些数据集包含来自707个ScanNet场景中的目标。与ScanRefer类似,这些目标都使用参照表达式进行了标注,重点关注场景包含目标类的多个实例,且需要使用参照表达式来消除它们之间的歧义。Nr3D包含了41,503个人工标注的自由形式表述,用以指代3D场景中的目标;Sr3D包含了83,572个基于模板的表述;而是的增强表述版本。ReferIt3D还提供了一个评估服务器和在线基准,以便比较不同的方法。

Multi3DRefer [230] 是ScanRe-fer数据集的一个修改版本。与始终指场景中一个目标的参照表达式不同,Multi3DRefer包含了6688个零目标、42,060个单目标和13178个多目标的参照描述,这些描述是针对800个ScanNet场景中的11,609个目标收集的。ChatGPT [286] 也被用来重新表述参照表达式。

Chat-3D v2 [172] 是ScanRefer的另一种修改形式,其中使用了ScanNet中705个场景的参照表达式来构建描述场景中目标之间关系的场景标题。这些场景标题是通过向GPT-4 [365] 模型提供关于目标的 GT 信息生成的。生成的标题包含对明确的“目标标识符”的引用,这些标识符直接代表场景中的每个目标。

EmbodiedScan [352] 是Matter-port3D [285]、3RScan [295] 和ScanNet [361] 的标注组合版本,被设计为一个多模态、以自我为中心的3D场景理解数据集。Segment Anything [366] 和其他标注工具被用于提供3D边界框、语义占用以及总共5185个场景上的970k基于模板的语言描述。

ScanEnts3D [353] 扩展了ScanRefer [218] 和ReferIt3D [228],它使用专业标注员将参照句子中提到的每个目标与3D场景中的相应实例相链接。在原始论文中,这个数据集仅用于训练目的,研究发现它提高了模型在其他视觉接地和标题数据集上的性能。

WildRefer [354] 提出了STRefer和LifeRefer数据集,强调在野外环境中以人为中心,为3D接地提供了全面的3D和语言人工标注。STRefer包含来自STCrowd [367] 数据集662个场景中的目标的5,458个参照表达式,而LifeRefer包含来自为该数据集新获取的3,172个场景中目标的25,380个参照表达式。

RIORefer [355] 是3RScan [295] 的人工标注版本,用于3D接地。它由1,380个场景中目标的63k2描述组成。这个数据集被提出来作为一种测试模型跨数据集泛化能力的方法,例如在提出的“ScanRefer到RIORefer泛化”和“RIORefer到ScanRefer泛化”任务中。

ARKitSceneRefer [356] 是ARK-itScenes [368] 的标注版本,强调在真实室内环境中小型日常物体的3D接地。它包含了在1,605个场景中找到的目标的描述。

ScanERU [229] 是ScanNet的修改版和人工标注版本,它将ScanRefer中的参照表达式与706个经过修改的ScanNet场景结合起来,这些场景包含了根据人工标注员指定的位置进行手势指向参照物体的3D人体模型。

DenseGrounding [231] 与 Multi3DRefer 类似,旨在将3D定位任务扩展到包括多个目标,但与单一参照表达式指向多个目标不同,每个输入是对单个目标的参照 Query 组合而成的段落。这些段落是通过从ScanRefer和ReferIt3D中随机目标的最邻近邻居构建而成,并将它们的参照表达式结合起来形成一段话。

ScanQA (Azuma等人) [234] 是ScanNet的一个标注版本,包含 个问题-答案对,跨越800个场景。问题是通过使用ScanRefer中的参照表达式自动生成的,然后由人工标注员进行细化,而答案则完全由人工标注员得出。通常所说的“ScanQA”指的就是这个数据集。

ScanQA (Ye等人) [357] 与ScanQA (Azuma等人) 同时发布,也是ScanNet的一种人工标注形式,用作3D问题回答数据集。Ye等人包含了针对806个ScanNet场景的10k个问题-答案对。尽管Azuma等人最初是使用ScanRefer中的参照表达式来生成问题,但Ye等人则完全依赖人工标注员来创造问题。

3DMV-VQA [236] 是Habitat-Matterport 3D数据集(HM3D)[369]中5k个场景的标注版本,使用来自HM3DSem [370]的语义信息生成了 个问题,分为四种类型:“概念”,“计数”,“关系”和“比较”。这些问题以模板形式生成,然后转换为自然语言问题。

NuScenes-QA [235] 包括来自nuScenes [364]的 个场景,用 个模板式问题-答案对进行标注,这些答案对是通过构建的场景图生成的。问题分为5种类型:“存在”,“计数”,“ Query 目标”,“ Query 状态”和“比较”,并可能包含空间推理。

CLEVR3D [358] 是3RScan [295]的一种标注形式,专为室内3D QA任务设计。基于模板的问题和答案是通过使用3DSSG [371]的场景图标注生成的。最初为1,333个场景生成了 个问题,然而他们使用了一种“组合场景操作”技术,随机将场景图中的目标替换为生成的目标池中的目标,人为地增加到了 个问题,跨越8,771个场景。

SQA-3D [233] 是Scan-Net的另一种人工标注版本,提出了“情境问题回答”的问题,其中每个 Query 包括对代理当前位置和情境的描述以及与场景相关的问题。SQA-3D在650个场景中包含了 个问题。

3D-LLM [153] 是Objaverse、ScanNet和HM3D/HM3DSem的标注版本,旨在处理涉及3D视觉和语言的广泛任务。BLIP-2 [195] 和 Chat-GPT [286] 用于生成用于各种3D视觉-语言任务的 个“3D-语言数据”实例。

ScanScribe [294] 是ScanNet和3RScan中1,185个场景的标注版本,旨在作为大规模3D场景-文本对数据集,用于预训练3D视觉-语言模型。它利用ScanQA、ScanRefer和ReferIt3D为ScanNet数据生成标注,并使用GPT-3提示为3RScan生成标注,总共创建了 个场景描述。为了增加数据集的多样性,通过将场景中的 的目标随机替换为Objaverse中同类别目标的方式合成生成场景。

M3DBench [359] 是一个包含多种模态的遵循指令数据集,包含了 个指令-响应对,覆盖了广泛的任务。数据来源于大量现有数据集(见图4),同时使用GPT提示生成额外的标注。

GPT4Point [268] 是对Objaverse-XL中超过100万个目标的标注形式,专为3D标题生成、3D问答和其他3D任务设计。标注是通过一个分层的 Pipeline 自动生成的,该 Pipeline 融合并改进了多个视角的标题。

LAMM [360] 是一个大型的多模态指令调优数据集,涵盖了2D和3D视觉任务。3D数据来源于3RScan [295]、CLEVR3D [358]、3DSSG [371] 和 ShapeNet [296],并使用GPT [365] 和基于模板的响应进行标注。

7 Challenges and Opportunities

尽管在将大型语言模型(LLMs)与3D数据集成方面取得了进展,但在数据表示、计算效率和基准测试方面仍存在挑战,这需要创新的解决方案。

表示选择对3D视觉语言模型的性能产生重大影响。目前,点云主要用于表示室内(如网格顶点)和室外(如激光雷达点云)环境,因其简单性和与神经网络的兼容性。然而,它们在捕捉准确丰富空间模型所需的细微细节方面存在困难。开发新型3D场景表示方法,更有效地弥合空间信息与语言之间的鸿沟,可能会开启新层次的理解和互动。通过创新方式在3D表示中编码语言和语义信息,例如使用蒸馏语言和语义嵌入[30, 316],有助于弥合这两种模态之间的差距。

3D数据处理和LLMs的计算需求提出了重大挑战。随着3D环境复杂度和语言模型大小的增加,可扩展性仍然是一个问题。为适应性和计算效率而设计的LLM架构的进步,可以显著扩大其应用范围。

改进基准测试对于全面评估和推进多模态LLMs在3D任务中的能力至关重要。当前的基准测试范围有限,特别是在3D推理方面,这限制了空间推理技能的评估以及3D决策/交互系统的发展。此外,目前使用的评价指标未能捕捉到LLMs在3D环境中能力的全貌。制定更精确地衡量跨多样化3D任务性能的任务特定指标至关重要。最后,当前场景理解基准的粒度过于简单,限制了复杂3D环境理解的深入洞察。作者需要更多样化的任务。

在利用LLMs进行3D理解时,考虑安全和伦理影响是至关重要的。LLMs可能会产生幻觉并输出不准确、不安全的信息,导致在关键3D应用中做出错误决策。此外,LLMs往往以不可预测且难以解释的方式失败。它们还可能继承训练数据中的社会偏见,在现实世界的3D场景中进行预测时不成比例地不利于某些群体。在3D环境中使用LLMs时,作者必须谨慎行事,采用策略以创建更具包容性的数据集、用于偏差检测和校正的稳健评估框架,以及最小化幻觉的机制,确保结果负责任且公正。

8 Conclusion

这篇综述文章对将大型语言模型(LLMs)与3D数据集成进行了彻底的探讨。系统地回顾了LLMs在处理、理解和生成3D数据方面的方法论、应用和新兴能力,该调查强调了LLMs在一系列3D任务中变革性的潜力。从增强3D环境中的空间理解和互动,到推动具身人工智能系统的能力,LLMs成为推动该领域发展的关键。

主要发现包括识别LLMs的独特优势,如零样本学习、高级推理和广泛的世界知识,这些优势在弥合文本信息与空间解释之间的鸿沟方面发挥了重要作用。本文展示了在哪些广泛任务中,LLMs与3D数据的集成已经被成功展示。对LLMs以外的其他3D视觉-语言方法的探索揭示了一个丰富的研究景观,旨在深化作者对3D世界的理解。

此外,综述还强调了数据表示、模型可扩展性和计算效率等重大挑战,指出克服这些障碍对于在3D应用中充分实现LLMs的潜力至关重要。总之,这篇综述不仅提供了使用LLMs进行3D任务的当前状态的全面概述,还为未来的研究方向奠定了基础。它呼吁进行协作努力,探索和扩展LLMs在理解和互动复杂3D世界方面的能力,为空间智能领域的进一步发展铺平道路。

参考

[0]. When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models.

0 人点赞