Subjects: cs.CV
1.LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation, Generation and Editing
标题:LLaVA-Interactive:用于图像聊天、分割、生成和编辑的一体化演示
作者:Wei-Ge Chen, Irina Spiridonova, Jianwei Yang, Jianfeng Gao, Chunyuan Li
文章链接:https://rl-at-scale.github.io/assets/rl_at_scale.pdf
项目代码:https://llava-vl.github.io/llava-interactive/
摘要:
LLaVA-Interactive 是多模式人类与人工智能交互的研究原型。该系统可以通过获取多模式用户输入并生成多模式响应来与人类用户进行多轮对话。重要的是,LLaVA-Interactive 超越了语言提示,视觉提示能够在交互中协调人类意图。LLaVA-Interactive 的开发极具成本效益,因为该系统结合了预构建 AI 模型的三种多模态技能,无需额外的模型训练:LLaVA 的视觉聊天、SEEM 的图像分割以及 GLIGEN 的图像生成和编辑。提出了一系列不同的应用场景来展示 LLaVA-Interactive 的前景,并激发多模式交互系统的未来研究。
2.Single-view 3D Scene Reconstruction with High-fidelity Shape and Texture
标题:高保真形状和纹理的单视图 3D 场景重建
作者:Yixin Chen, Junfeng Ni, Nan Jiang, Yaowei Zhang, Yixin Zhu, Siyuan Huang
文章链接:https://arxiv.org/abs/2311.00457
项目代码:https://dali-jack.github.io/SSR/
摘要:
由于现有方法的局限性,从单视图图像重建详细的 3D 场景仍然是一项具有挑战性的任务,现有方法主要关注几何形状恢复,忽略对象外观和精细形状细节。为了解决这些挑战,我们提出了一种新颖的框架,用于从单视图图像中同时高保真地恢复对象形状和纹理。我们的方法利用所提出的单视图神经隐式形状和辐射场 (SSR) 表示来利用显式 3D 形状监督和颜色、深度和表面法线图像的体积渲染。为了克服部分观察下的形状外观模糊性,我们引入了包含 3D 和 2D 监督的两阶段学习课程。我们框架的一个显着特征是它能够生成细粒度纹理网格,同时将渲染功能无缝集成到单视图 3D 重建模型中。这种集成不仅可以将 3D-FRONT 和 Pix3D 数据集上的纹理 3D 对象重建分别提高 27.7% 和 11.6%,而且还支持从新视点渲染图像。除了单个对象之外,我们的方法还有助于将对象级表示组合成灵活的场景表示,从而实现整体场景理解和 3D 场景编辑等应用。我们进行了大量的实验来证明我们方法的有效性。
3.De-Diffusion Makes Text a Strong Cross-Modal Interface
标题:去扩散使文本成为强大的跨模式界面
作者:Chen Wei, Chenxi Liu, Siyuan Qiao, Zhishuai Zhang, Alan Yuille, Jiahui Yu
文章链接:https://arxiv.org/abs/2304.05977
项目代码:https://dediffusion.github.io/
摘要:
我们将文本展示为强大的跨模式界面。我们的方法不是依靠深度嵌入来连接图像和语言作为界面表示,而是将图像表示为文本,从中我们享受自然语言固有的可解释性和灵活性。我们采用自动编码器,该编码器使用预先训练的文本到图像扩散模型进行解码。编码器经过训练将输入图像转换为文本,然后将其输入固定的文本到图像扩散解码器以重建原始输入 - 我们称之为去扩散的过程。实验验证了去扩散文本表示图像的精度和全面性,这样它就可以很容易地被现成的文本到图像工具和法学硕士摄取用于各种多模态任务。例如,单个去扩散模型可以泛化为不同的文本到图像工具提供可转移的提示,并且还可以通过简单地用很少的提示来提示大型语言模型,从而在开放式视觉语言任务上实现新的技术水平。拍摄示例。