每日学术速递11.23

点击上方蓝字关注我们

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片，关注「AiCharm」公众号

Subjects: cs.CV

1.GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting

标题：GS-SLAM：具有 3D 高斯分布的密集视觉 SLAM

作者：Chi Yan, Delin Qu, Dong Wang, Dan Xu, Zhigang Wang, Bin Zhao, Xuelong Li

文章链接：https://arxiv.org/abs/2311.11700

摘要：

在本文中，我们介绍了首先在同步定位与建图（SLAM）系统中利用 3D 高斯表示的。它有利于效率和准确性之间更好的平衡。与最近采用神经隐式表示的 SLAM 方法相比，我们的方法利用实时可微分泼溅渲染管道，为地图优化和 RGB-D 重新渲染提供显着加速。具体来说，我们提出了一种自适应扩展策略，添加新的或删除噪声 3D 高斯，以便有效地重建新观察到的场景几何形状并改进先前观察到的区域的映射。该策略对于扩展 3D 高斯表示以重建整个场景而不是在现有方法中合成静态对象至关重要。此外，在姿态跟踪过程中，设计了一种有效的从粗到精的技术来选择可靠的3D高斯表示来优化相机姿态，从而减少运行时间和鲁棒估计。与 Replica、TUM-RGBD 数据集上现有最先进的实时方法相比，我们的方法实现了具有竞争力的性能。源代码即将发布。

2.PhysGaussian: Physics-Integrated 3D Gaussians for Generative Dynamics

标题：PhysGaussian：用于生成动力学的物理集成 3D 高斯

作者：Tianyi Xie, Zeshun Zong, Yuxing Qiu, Xuan Li, Yutao Feng, Yin Yang, Chenfanfu Jiang

文章链接：https://arxiv.org/abs/2311.12198

项目代码：https://xpandora.github.io/PhysGaussian/

摘要：

我们引入了 PhysGaussian，这是一种新方法，可将基于物理的牛顿动力学无缝集成到 3D 高斯中，以实现高质量的新颖运动合成。我们的方法采用定制的质点方法 (MPM)，通过具有物理意义的运动变形和机械应力属性丰富了 3D 高斯核，所有这些都符合连续介质力学原理。我们方法的一个决定性特征是物理模拟和视觉渲染之间的无缝集成：两个组件都使用相同的 3D 高斯内核作为其离散表示。这消除了三角形/四面体网格划分、行进立方体、“笼式网格”或任何其他几何嵌入的必要性，突出了“所见即所模拟 (WS 2 )”的原则。我们的方法在各种材料（包括弹性实体、金属、非牛顿流体和粒状材料）中展示了卓越的多功能性，展示了其通过新颖的观点和运动创建多样化视觉内容的强大能力。

3.GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning

标题：GPT4Motion：通过面向 Blender 的 GPT 规划在文本到视频生成中编写物理运动脚本

作者：Jiaxi Lv, Yi Huang, Mingfu Yan, Jiancheng Huang, Jianzhuang Liu, Yifan Liu, Yafei Wen, Xiaoxin Chen, Shifeng Chen

文章链接：https://arxiv.org/abs/2311.12631

项目代码：https://gpt4motion.github.io/

摘要：

文本到视频生成的最新进展利用扩散模型的力量来创建以文本提示为条件的视觉上引人注目的内容。然而，他们通常会遇到很高的计算成本，并且常常难以制作具有连贯物理运动的视频。为了解决这些问题，我们提出了GPT4Motion，这是一个免训练的框架，利用GPT等大型语言模型的规划能力、Blender的物理模拟强度以及文本到图像扩散模型出色的图像生成能力来增强视频合成的质量。具体来说，GPT4Motion 使用 GPT-4 根据用户文本提示生成 Blender 脚本，该脚本命令 Blender 的内置物理引擎制作基本场景组件，封装跨帧的连贯物理运动。然后将这些组件输入到稳定扩散中以生成与文本提示对齐的视频。刚性物体掉落和碰撞、布料悬垂和摆动以及液体流动等三种基本物理运动场景的实验结果表明，GPT4Motion 可以在保持运动连贯性和实体一致性的同时高效生成高质量视频。GPT4Motion 为文本到视频研究提供了新的见解，提高了其质量并拓宽了未来探索的视野。

每日学术速递11.23

推荐阅读