每日学术速递11.24

2023-11-24 14:27:34 浏览数 (1)

点击上方蓝字关注我们

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CV

1.Concept Sliders: LoRA Adaptors for Precise Control in Diffusion Models

标题:概念滑块:用于扩散模型中精确控制的 LoRA 适配器

作者:Rohit Gandikota, Joanna Materzynska, Tingrui Zhou, Antonio Torralba, David Bauo

文章链接:https://arxiv.org/abs/2311.12092

项目代码:https://sliders.baulab.info/

摘要:

我们提出了一种创建可解释概念滑块的方法,可以精确控制扩散模型生成图像中的属性。我们的方法识别与一个概念相对应的低秩参数方向,同时最大限度地减少对其他属性的干扰。滑块是使用一小组提示或示例图像创建的;因此,可以为文本或视觉概念创建滑块方向。概念滑块是即插即用的:它们可以有效地组合并连续调制,从而能够精确控制图像生成。在定量实验中,与以前的编辑技术相比,我们的滑块表现出更强的针对性编辑和更低的干扰。我们展示了天气、年龄、风格和表达的滑块,以及滑块的组成。我们展示了滑块如何从 StyleGAN 传输潜在变量,以直观地编辑文本描述困难的视觉概念。我们还发现,我们的方法可以帮助解决 Stable Diffusion XL 中持续存在的质量问题,包括修复对象变形和修复扭曲的手。

2.GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration

标题:用于机器人技术的 GPT-4V(ision):来自人体演示的多模式任务规划

作者:Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi

文章链接:https://arxiv.org/abs/2311.12015

项目代码:https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/

摘要:

我们引入了一个管道,通过整合对人类行为的观察来促进机器人操作,从而增强通用视觉语言模型 GPT-4V(ision)。该系统分析人类执行任务的视频,并创建包含可供性见解的可执行机器人程序。计算首先使用 GPT-4V 分析视频,将环境和动作细节转换为文本,然后是 GPT-4 授权的任务规划器。在下面的分析中,视觉系统根据任务计划重新分析视频。对象名称是使用开放词汇对象检测器来确定的,而关注手与对象的关系有助于检测抓取和释放的时刻。这种时空基础允许视觉系统进一步收集可供性数据(例如,抓握类型、路径点和身体姿势)。各种场景的实验证明了该方法能够以零样本的方式从人类演示中实现真实的机器人操作。

3.Memory Augmented Language Models through Mixture of Word Experts

标题:通过单词专家的混合记忆增强语言模型

作者:Cicero Nogueira dos Santos, James Lee-Thorp, Isaac Noble, Chung-Ching Chang, David Uthus

文章链接:https://arxiv.org/abs/2311.10768

摘要:

事实证明,增加语言模型的参数数量是提高性能的有效方法。对于密集模型,增加模型大小会成比例地增加模型的计算占用量。在这项工作中,我们寻求通过专家混合(MoE)风格的模型与基于大量知识丰富的词汇的路由函数和专家来积极地解耦学习能力和失败。我们提出的方法被称为单词专家混合(MoWE),可以被视为一种记忆增强模型,其中大量特定于单词的专家扮演稀疏记忆的角色。我们证明,在各种 NLP 任务中,MoWE 的表现明显优于具有相似 FLOP 数量的 T5 系列模型。此外,MoWE 在知识密集型任务上的性能优于常规 MoE 模型,并且与更复杂的内存增强方法具有相似的性能,这些方法通常需要调用自定义机制来搜索稀疏内存。

0 人点赞