CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.VeRA: Vector-based Random Matrix Adaptation
标题:VeRA:基于向量的随机矩阵自适应
作者:Dawid Jan Kopiczko, Tijmen Blankevoort, Yuki Markus Asano
文章链接:https://arxiv.org/abs/2310.11454
项目代码:https://rl-at-scale.github.io/
摘要:
低秩适应 (LoRA) 是一种流行的方法,可在微调大型语言模型时减少可训练参数的数量,但在扩展到更大的模型或部署大量每用户或每任务适应模型时仍然面临严峻的存储挑战。在这项工作中,我们提出了基于向量的随机矩阵自适应 (VeRA),与 LoRA 相比,它可将可训练参数的数量减少 10 倍,但仍保持相同的性能。它通过使用在所有层之间共享的一对低秩矩阵并学习小缩放向量来实现这一点。我们在 GLUE 和 E2E 基准测试中展示了它的有效性,并使用 Llama2 7B 模型展示了它在仅 140 万个参数的指令跟踪中的应用。
2.AgentTuning: Enabling Generalized Agent Abilities for LLMs
s标题:AgentTuning:为LLMs启用通用代理能力
作者:Aohan Zeng, Mingdao Liu, Rui Lu, Bowen Wang, Xiao Liu, Yuxiao Dong, Jie Tang
文章链接:https://arxiv.org/abs/2310.12823
项目代码:https://github.com/THUDM/AgentTuning
摘要:
视频在各种任务中具有出色性能的开放大型语言模型(LLM)极大地促进了 LLM 的发展。然而,在充当代理来处理现实世界中的复杂任务时,它们远远不如 ChatGPT 和 GPT-4 等商业模型。这些代理任务采用 LLM 作为中央控制器,负责规划、记忆和工具利用,需要细粒度的提示方法和强大的 LLM 才能获得令人满意的性能。尽管已经提出了许多提示方法来完成特定的代理任务,但缺乏专注于提高法学硕士本身的代理能力而不损害其一般能力的研究。在这项工作中,我们提出了 AgentTuning,这是一种简单而通用的方法,可以增强 LLM 的代理能力,同时保持其一般的 LLM 能力。我们构建了 AgentInstruct,这是一个包含高质量交互轨迹的轻量级指令调整数据集。我们通过将 AgentInstruct 与来自通用领域的开源指令相结合,采用混合指令调整策略。AgentTuning 用于对 Llama 2 系列进行指令调整,从而产生 AgentLM。我们的评估表明,AgentTuning 可以在不影响一般能力的情况下启用法学硕士的代理能力。AgentLM-70B 在看不见的代理任务上与 GPT-3.5-turbo 相当,展示了通用代理功能。我们在此 https URL 开源 AgentInstruct 和 AgentLM-7B、13B 和 70B 模型,为代理任务的商业 LLM 提供开放且强大的替代方案。
3.Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning
标题:视觉语言模型是强化学习的零样本奖励模型
作者:Juan Rocamonde, Victoriano Montesinos, Elvis Nava, Ethan Perez, David Lindner
文章链接:https://arxiv.org/abs/2310.12921
项目代码:https://sites.google.com/view/vlm-rm
摘要:
强化学习(RL)需要手动指定奖励函数(这通常是不可行的),或者从大量人类反馈中学习奖励模型(这通常非常昂贵)。我们研究了一种样本效率更高的替代方案:使用预训练的视觉语言模型(VLM)作为零样本奖励模型(RM)来通过自然语言指定任务。我们提出了一种使用 VLM 作为奖励模型的自然且通用的方法,我们将其称为 VLM-RM。我们使用基于 CLIP 的 VLM-RM 来训练 MuJoCo 人形机器人学习复杂的任务,而无需手动指定奖励函数,例如跪下、劈叉和盘坐。对于每个任务,我们仅提供一个句子文本提示,以最少的提示工程来描述所需的任务。我们在以下位置提供经过培训的代理的视频:此 https URL。我们可以通过提供第二个“基线”提示并投影出与区分目标和基线无关的 CLIP 嵌入空间部分来提高性能。此外,我们发现 VLM-RM 具有很强的扩展效应:用更多计算和数据训练的更大 VLM 是更好的奖励模型。我们遇到的VLM-RM的故障模式都与当前VLM已知的能力限制有关,例如有限的空间推理能力或视觉上不真实的环境,这些环境与VLM的分布相距甚远。我们发现只要 VLM 足够大,VLM-RM 就非常稳健。这表明未来的 VLM 将成为广泛的 RL 应用中越来越有用的奖励模型。