每日学术速递10.18

2023-10-24 19:25:58 浏览数 (1)

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.Im4D: High-Fidelity and Real-Time Novel View Synthesis for Dynamic Scenes

标题:Im4D:动态场景的高保真实时新颖视图合成

作者:Haotong Lin, Sida Peng, Zhen Xu, Tao Xie, Xingyi He, Hujun Bao, Xiaowei Zhou

文章链接:https://arxiv.org/abs/2310.08585

项目代码:https://zju3dv.github.io/im4d/

摘要:

本文旨在解决多视图视频动态视图合成的挑战。关键的观察结果是,虽然以前的基于网格的方法提供了一致的渲染,但它们在捕获复杂动态场景的外观细节方面存在不足,而在该领域,基于多视图图像的渲染方法表现出相反的属性。为了结合两个领域的优点,我们引入了 Im4D,这是一种混合场景表示,由基于网格的几何表示和基于多视图图像的外观表示组成。具体来说,动态几何被编码为由时空特征平面和小型 MLP 网络组成的 4D 密度函数,对场景结构进行全局建模并促进渲染一致性。我们通过原始的多视图视频和一个学习根据图像特征预测 3D 点颜色的网络来表示场景外观,而不是完全用网络来记忆详细的外观,从而自然地使网络的学习变得更容易。我们的方法在五个动态视图合成数据集上进行了评估,包括 DyNeRF、ZJU-MoCap、NHR、DNA-Rendering 和 ENeRF-Outdoor 数据集。结果表明,Im4D 在渲染质量方面表现出最先进的性能,并且可以高效地进行训练,同时在单个 RTX 3090 GPU 上实现 512x512 图像的 79.8 FPS 的实时渲染。

2.Detecting Everything in the Open World: Towards Universal Object Detection(CVPR 2023)

标题:检测开放世界中的一切:迈向通用对象检测

作者:Zhenyu Wang, Yali Li, Xi Chen, Ser-Nam Lim, Antonio Torralba, Hengshuang Zhao, Shengjin Wang

文章链接:https://arxiv.org/abs/2303.11749

项目代码:https://github.com/microsoft/AdaM

摘要:

在本文中,我们正式解决了通用对象检测问题,旨在检测每个场景并预测每个类别。对人类注释的依赖、有限的视觉信息以及开放世界中的新颖类别严重限制了传统检测器的通用性。我们提出了 UniDetector,一种通用的物体检测器,能够识别开放世界中的大量类别。UniDetector通用性的关键点是:1)它通过图像和文本空间的对齐,利用多源图像和异构标签空间进行训练,这保证了通用表示的足够信息。2)由于来自视觉和语言模式的丰富信息,它可以轻松推广到开放世界,同时保持可见类别和不可见类别之间的平衡。3)通过我们提出的解耦训练方式和概率校准,进一步提高了对新类别的泛化能力。这些贡献使 UniDetector 能够检测超过 7000 个类别,这是迄今为止最大的可测量类别规模,而只有约 500 个类别参与训练。我们的 UniDetector 在 LVIS、ImageNetBoxes 和 VisualGenome 等大词汇量数据集上表现出强大的零样本泛化能力 - 在没有看到任何相应图像的情况下,它平均超过传统监督基线 4% 以上。在 13 个不同场景的公共检测数据集上,UniDetector 也仅用 3% 的训练数据量就实现了最先进的性能。

3.Idea2Img: Iterative Self-Refinement with GPT-4V(ision) for Automatic Image Design and Generation

标题:Idea2Img:使用 GPT-4V(ision) 进行迭代自我细化,用于自动图像设计和生成

作者:Zhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang

文章链接:https://arxiv.org/abs/2310.08541

项目代码:https://idea2img.github.io/

摘要:

我们推出了“Idea to Image”系统,该系统可以使用 GPT-4V(ision) 进行多模式迭代自我细化,以实现自动图像设计和生成。人类可以通过迭代探索快速识别不同文本到图像(T2I)模型的特征。这使他们能够有效地将高级生成想法转化为有效的 T2I 提示,从而生成良好的图像。我们研究基于大型多模态模型(LMM)的系统是否可以开发类似的多模态自我改进能力,从而能够通过自我改进尝试探索未知的模型或环境。Idea2Img 循环生成修订的 T2I 提示来合成草稿图像,并为提示修订提供方向反馈,这两者都取决于其对探测的 T2I 模型特征的记忆。迭代的自我完善为 Idea2Img 带来了优于普通 T2I 模型的各种优势。值得注意的是,Idea2Img 可以通过交错的图像文本序列处理输入想法,通过设计指令遵循想法,并生成具有更好语义和视觉质量的图像。用户偏好研究验证了多模态迭代自我细化在自动图像设计和生成方面的功效。

0 人点赞