每日学术速递12.3

2023-12-04 20:02:03 浏览数 (2)

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

1.MeshGPT: Generating Triangle Meshes with Decoder-Only Transformers

标题:MeshGPT:使用仅解码器Transformer生成三角形网格

作者:Yawar Siddiqui, Antonio Alliegro, Alexey Artemov, Tatiana Tommasi, Daniele Sirigatti, Vladislav Rosov, Angela Dai, Matthias Nießner

文章链接:https://arxiv.org/abs/2311.15475

项目代码:https://nihalsid.github.io/mesh-gpt/

摘要:

我们引入了 MeshGPT,这是一种生成三角形网格的新方法,它反映了艺术家创建的网格的典型紧凑性,与通过等曲面方法从神经场提取的密集三角形网格形成对比。受到强大的大型语言模型最新进展的启发,我们采用基于序列的方法来自回归生成三角形网格作为三角形序列。我们首先使用图卷积学习潜在量化嵌入的词汇,它告知这些局部网格几何和拓扑的嵌入。这些嵌入被解码器排序并解码为三角形,确保它们可以有效地重建网格。然后,根据学习到的词汇对变压器进行训练,以根据先前的嵌入来预测下一个嵌入的索引。经过训练,我们的模型可以进行自回归采样以生成新的三角形网格,直接生成具有锐利边缘的紧凑网格,更接近地模仿人工网格的高效三角测量模式。MeshGPT 与最先进的网格生成方法相比有了显着改进,形状覆盖率提高了 9%,各个类别的 FID 分数提高了 30 分。

2.GaussianEditor: Swift and Controllable 3D Editing with Gaussian Splatting

标题:GaussianEditor:使用 Gaussian Splatting 进行快速且可控的 3D 编辑

作者:Yiwen Chen, Zilong Chen, Chi Zhang, Feng Wang, Xiaofeng Yang, Yikai Wang, Zhongang Cai, Lei Yang, Huaping Liu, Guosheng Lin

文章链接:https://arxiv.org/abs/2311.14521

项目代码:https://buaacyw.github.io/gaussian-editor/

摘要:

3D 编辑在游戏和虚拟现实等许多领域发挥着至关重要的作用。传统的 3D 编辑方法依赖于网格和点云等表示形式,通常无法真实地描绘复杂的场景。另一方面,基于隐式 3D 表示的方法(例如神经辐射场 (NeRF))可以有效渲染复杂场景,但处理速度慢且对特定场景区域的控制有限。为了应对这些挑战,我们的论文提出了 GaussianEditor,这是一种基于高斯泼溅 (GS)(一种新颖的 3D 表示形式)的创新且高效的 3D 编辑算法。GaussianEditor 通过我们提出的高斯语义跟踪来增强编辑的精度和控制力,该跟踪在整个训练过程中跟踪编辑目标。此外,我们提出了分层高斯分布(HGS),以在二维扩散模型的随机生成指导下实现稳定且精细的结果。我们还开发了有效的对象删除和集成的编辑策略,这对现有方法来说是一项具有挑战性的任务。我们的综合实验证明了 GaussianEditor 卓越的控制能力、功效和快速性能,标志着 3D 编辑领域的重大进步。

3.Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models

标题:概念滑块:用于扩散模型中精确控制的 LoRA 适配器

作者:Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong

文章链接:https://arxiv.org/abs/2311.12092

项目代码:https://sliders.baulab.info/

摘要:

我们提出了一种创建可解释概念滑块的方法,可以精确控制扩散模型生成图像中的属性。我们的方法识别与一个概念相对应的低秩参数方向,同时最大限度地减少对其他属性的干扰。滑块是使用一小组提示或示例图像创建的;因此,可以为文本或视觉概念创建滑块方向。概念滑块是即插即用的:它们可以有效地组合并连续调制,从而能够精确控制图像生成。在定量实验中,与以前的编辑技术相比,我们的滑块表现出更强的针对性编辑和更低的干扰。我们展示了天气、年龄、风格和表达的滑块,以及滑块的组成。我们展示了滑块如何从 StyleGAN 传输潜在变量,以直观地编辑文本描述困难的视觉概念。我们还发现,我们的方法可以帮助解决 Stable Diffusion XL 中持续存在的质量问题,包括修复对象变形和修复扭曲的手。

0 人点赞