每日学术速递10.21

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.Compositional Abilities Emerge Multiplicatively: Exploring Diffusion Models on a Synthetic Task

标题：大规模深度强化学习：使用移动机械手对办公楼中的垃圾进行分类

作者：Maya Okawa, Ekdeep Singh Lubana, Robert P. Dick, Hidenori Tanaka

文章链接：https://arxiv.org/pdf/2310.09336.pdf

摘要：

我们现代生成模型展现出前所未有的生成极其真实数据的能力。然而，考虑到现实世界固有的组合性，在实际应用中可靠地使用这些模型要求它们表现出组合一组新颖概念以生成训练数据集中未见的输出的能力。先前的工作表明，最近的扩散模型确实表现出了令人着迷的组合泛化能力，但也会出现不可预测的失败。受此启发，我们进行了一项对照研究，以了解合成环境中条件扩散模型的成分泛化，改变训练数据的不同属性并测量模型生成分布外样本的能力。我们的结果表明：（i）从概念生成样本并组合样本的能力出现的顺序由底层数据生成过程的结构决定；(ii) 由于对构成任务执行的乘法依赖，组合任务的执行表现出突然的“出现”，部分解释了生成模型中出现的涌现现象；(iii)与生成分布内样本相比，在训练数据中组合频率较低的概念来生成分布外样本需要更多的优化步骤。总的来说，我们的研究为从以数据为中心的角度理解生成模型的功能和组合性奠定了基础。

2.ProteusNeRF: Fast Lightweight NeRF Editing using 3D-Aware Image Context

标题：ProteusNeRF：使用 3D 感知图像上下文进行快速轻量级 NeRF 编辑

作者：Binglun Wang Niladri Shekhar Dutt Niloy J. Mitra

文章链接：https://arxiv.org/abs/2310.09965

项目代码：https://proteusnerf.github.io/

摘要：

神经辐射场 (NeRF) 最近已成为照片级逼真对象捕捉的流行选择，因为它们甚至能够从手持视频输入中忠实地捕捉高保真体积内容。尽管大量研究致力于有效优化以实现实时训练和渲染，但交互式编辑 NeRF 的选项仍然有限。我们提出了一种非常简单但有效的神经网络架构，它快速高效，同时保持较低的内存占用。该架构可以通过用户友好的基于图像的编辑来逐步引导。我们的表示允许在训练阶段通过语义特征蒸馏直接选择对象。更重要的是，我们提出了一个本地 3D 感知图像上下文，以促进视图一致的图像编辑，然后可以通过几何和外观调整将其提炼为微调的 NeRF。我们在各种示例上评估我们的设置，以演示外观和几何编辑，并报告比专注于文本引导 NeRF 编辑的并发工作速度提高了 10-30 倍。视频结果可以在我们的项目网页上查看，网址为 https URL。

3.Interactive Task Planning with Language Models

标题：使用语言模型进行交互式任务规划

作者：Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong

文章链接：https://arxiv.org/abs/2304.05977

项目代码：https://youtu.be/TrKLuyv26_g

摘要：

交互式机器人框架可以完成长期任务规划，并且即使在执行过程中也可以轻松推广到新目标或不同任务。然而，大多数传统方法需要预定义的模块设计，这使得很难推广到不同的目标。最近基于大型语言模型的方法可以允许更开放的规划，但通常需要大量的提示工程或特定领域的预训练模型。为了解决这个问题，我们提出了一个简单的框架，可以通过语言模型实现交互式任务规划。我们的系统通过语言结合了高层规划和低层功能执行。我们验证了我们的系统在为看不见的目标生成新颖的高级指令方面的鲁棒性，以及通过仅替换任务指南来轻松适应不同任务的能力，而不需要额外的复杂提示工程。此外，当用户发送新请求时，我们的系统能够根据新请求、任务指南和之前执行的步骤精确地重新计划。请查看我们的此 https URL 和此 https URL 的更多详细信息。

架构框架模型数据系统

0 人点赞