点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.LucidDreamer: Domain-free Generation of 3D Gaussian Splatting Scenes
标题:LucidDreamer:3D 高斯飞溅场景的无域生成
作者:Jaeyoung Chung, Suyoung Lee, Hyeongjin Nam, Jaerin Lee, Kyoung Mu Lee
文章链接:https://arxiv.org/abs/2311.13384
摘要:
随着VR设备和内容的广泛使用,对3D场景生成技术的需求变得更加普遍。然而,现有的 3D 场景生成模型将目标场景限制在特定领域,这主要是由于其使用远离现实世界的 3D 扫描数据集的训练策略。为了解决这种限制,我们提出了 LucidDreamer,这是一种无域场景生成管道,充分利用现有大规模基于扩散的生成模型的力量。我们的 LucidDreamer 有两个交替步骤:梦想和对齐。首先,为了从输入生成多视图一致图像,我们将点云设置为每次图像生成的几何指南。具体来说,我们将点云的一部分投影到所需的视图,并提供投影作为使用生成模型进行修复的指导。修复后的图像通过估计的深度图提升到 3D 空间,组成新的点。其次,为了将新点聚合到 3D 场景中,我们提出了一种对齐算法,该算法和谐地集成了新生成的 3D 场景的各个部分。最终获得的3D场景作为优化高斯图的初始点。LucidDreamer 生成的高斯图比之前的 3D 场景生成方法更加详细,并且对目标场景的域没有限制。
2.An Embodied Generalist Agent in 3D World
标题:3D 世界中的多面手代理
作者:Jiangyong Huang, Silong Yong, Xiaojian Ma, Xiongkun Linghu, Puhao Li, Yan Wang, Qing Li, Song-Chun Zhu, Baoxiong Jia, Siyuan Huang
文章链接:https://arxiv.org/abs/2311.12871
项目代码:https://embodied-generalist.github.io/
摘要:
利用大型语言模型 (LLM) 的大量知识和学习方案,最近的机器学习模型在构建多面手代理方面取得了显着的成功,这些多面手代理展示了在不同领域(包括自然语言处理、计算机视觉和机器人技术)解决通用任务的能力。然而,由于这些模型在理解 3D 世界以及与 3D 世界交互方面表现出有限的能力,因此仍然存在重大挑战。我们认为这种限制极大地阻碍了当前模型执行现实世界任务并进一步实现通用智能。为此,我们引入了一种具体的多模式和多任务多面手智能体,它擅长在 3D 世界中感知、基础、推理、规划和行动。我们提出的代理(称为 LEO)采用基于 LLM 的共享模型架构、目标和权重分两个阶段进行训练:(i) 3D 视觉-语言对齐和 (ii) 3D 视觉-语言-动作指令调整。为了促进训练,我们精心策划并生成了一个广泛的数据集,其中包括规模和复杂性超乎寻常的对象级和场景级多模态任务,需要对 3D 世界进行深入理解并与之交互。通过严格的实验,我们证明了 LEO 在各种任务上的卓越能力,包括 3D 字幕、问题回答、具身推理、具身导航和机器人操作。我们的消融结果进一步为未来实体多面手的发展提供了宝贵的见解。
3.Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch
标题:语言模型就是超级马里奥:从同源模型中吸收能力作为免费午餐
作者:Le Yu, Bowen Yu, Haiyang Yu, Fei Huang, Yongbin Li
文章链接:https://arxiv.org/abs/2311.03099
项目代码:https://github.com/yule-BUAA/MergeLM
摘要:
在本文中,我们发现语言模型(LM),无论是基于编码器还是基于解码器,都可以通过同源模型的参数来获得新的功能,而无需重新训练或 GPU。通常,LM 的新能力可以通过监督微调(SFT)来赋予,这反映在微调参数和预训练参数(即增量参数)之间的差异上。我们最初观察到,通过引入一种称为 DARE(Drop And REscale)的新颖操作,大多数增量参数可以直接设置为零,而不影响 SFT LM 的功能,并且较大的模型可以容忍更高比例的丢弃参数。基于这一观察,我们使用 DARE 进一步稀疏多个 SFT 同源模型的 delta 参数,然后通过参数平均将它们合并为单个模型。我们使用 BERT 和 RoBERTa 对来自 GLUE 基准的八个数据集进行了实验。我们还基于 Llama 2 合并了 WizardLM、WizardMath 和 Code Alpaca。实验结果表明:(1)SFT 模型的 delta 参数值范围通常很小,通常在 0.005 以内,DARE 可以毫不费力地消除其中的 99%。然而,一旦模型被不断地预训练,值范围就会增长到 0.03 左右,使得 DARE 变得不切实际。我们还尝试删除微调参数而不是增量参数,发现减少 10% 会导致性能大幅下降(甚至降至 0)。这凸显了 SFT 只是通过 delta 参数来激发能力,而不是向 LM 注入新的能力;(2) DARE 可以将多个特定于任务的 LM 合并为一个具有不同能力的 LM。例如,WizardLM 和 WizardMath 的合并将 WizardLM 的 GSM8K 零样本精度从 2.2 提高到 66。3、保留其指令跟踪能力,同时超越WizardMath原来的64.2性能。代码可从此 https URL 获取