Subjects: cs.CV
1.Synthesizing Physically Plausible Human Motions in 3D Scenes
标题:在 3D 场景中合成物理上合理的人体运动
作者:Liang Pan, Jingbo Wang, Buzhen Huang, Junyu Zhang, Haofan Wang, Xu Tang, Yangang Wang
文章链接:https://arxiv.org/abs/2308.09036
项目代码:https://github.com/liangpan99/InterScene
摘要:
在 3D 场景中合成物理上合理的人体运动是一个具有挑战性的问题。由于缺乏物理约束,基于运动学的方法无法避免固有的伪影(例如穿透和脚滑)。同时,现有的基于物理的方法无法推广到多目标场景,因为通过强化学习训练的策略建模能力有限。在这项工作中,我们提出了一个框架,使物理模拟的角色能够在多样化、杂乱和看不见的场景中执行长期交互任务。关键思想是将人机交互分解为两个基本过程:交互和导航,这促使我们构建两个可重用的控制器,即 InterCon 和 NavCon。具体来说,InterCon 包含两个补充策略,使角色能够进入和离开交互状态(例如,坐在椅子上和站起来)。为了与不同地方的物体产生交互,我们进一步设计了 NavCon,一种轨迹跟踪策略,以保持角色在 3D 场景的自由空间中的运动。受益于分而治之的策略,我们可以在简单的环境中训练策略并推广到复杂的多对象场景。实验结果表明,我们的框架可以在复杂的 3D 场景中合成物理上合理的长期人体运动。代码将在此 https URL 公开发布。
2.UE4-NeRF:Neural Radiance Field for Real-Time Rendering of Large-Scale Scene
标题:UE4-NeRF:用于大规模场景实时渲染的神经辐射场
作者:Jiaming Gu, Minchao Jiang, Hongsheng Li, Xiaoyuan Lu, Guangming Zhu, Syed Afaq Ali Shah, Liang Zhang, Mohammed Bennamoun
文章链接:https://arxiv.org/abs/2310.13263
项目代码:https://jamchaos.github.io/UE4-NeRF/
摘要:
神经辐射场(NeRF)是一种新颖的隐式 3D 重建方法,显示出巨大的潜力并受到越来越多的关注。它可以仅从一组照片重建 3D 场景。但其实时渲染能力,尤其是大规模场景的交互式实时渲染,仍然存在明显的局限性。为了解决这些挑战,在本文中,我们提出了一种名为 UE4-NeRF 的新型神经渲染系统,专门为大规模场景的实时渲染而设计。我们将每个大场景划分为不同的子 NeRF。为了表示分区的独立场景,我们通过在场景内构造多个正八面体来初始化多边形网格,并且在训练过程中不断优化多边形面的顶点。从细节级别 (LOD) 技术中汲取灵感,我们针对不同的观察级别训练了不同细节级别的网格。我们的方法与虚幻引擎 4 (UE4) 中的光栅化管道相结合,实现了 4K 分辨率、帧速率高达 43 FPS 的大规模场景的实时渲染。UE4内的渲染也有利于后续阶段的场景编辑。此外,通过实验,我们已经证明我们的方法实现了与最先进的方法相当的渲染质量。项目页面:此 https URL。
3.A Picture is Worth a Thousand Words: Principled Recaptioning Improves Image Generation
标题:一图胜千言:有原则的复述可改善图像生成
作者:Eyal Segalis, Dani Valevski, Danny Lumen, Yossi Matias, Yaniv Leviathan
文章链接:https://arxiv.org/abs/2310.16656
摘要:
文本到图像的扩散模型在过去几年中实现了显着的功能飞跃,能够根据文本提示实现高质量和多样化的图像合成。然而,即使是最先进的模型也常常难以精确遵循提示中的所有指示。这些模型中的绝大多数都是在由(图像、标题)对组成的数据集上进行训练的,其中图像通常来自网络,标题是它们的 HTML 替代文本。一个值得注意的例子是稳定扩散和其他模型使用的 LAION 数据集。在这项工作中,我们观察到这些标题通常质量较低,并认为这会显着影响模型理解文本提示中细微语义的能力。我们表明,通过使用专门的自动字幕模型重新标记语料库并在重新描述的数据集上训练文本到图像模型,该模型全面受益。首先,在整体图像质量方面:根据人类评估,FID 为 14.84 对比基线 17.87,忠实图像生成提高了 64.3%。其次,在语义对齐方面,例如语义对象准确度为 84.34 vs. 78.90,计算对齐错误为 1.32 vs. 1.44,位置对齐错误为 62.42 vs. 57.60。我们分析了重新标记语料库的各种方法,并提供证据证明这种技术(我们称之为 RECAP)既可以减少训练推理差异,又可以为模型提供每个示例的更多信息,从而提高样本效率并允许模型更好地理解之间的关系标题和图像。