NeurIPS 2023 | 分享10篇值得阅读的paper，其中减少batch，可有助提升训练效果

引言

上个月，NeurIPS 2023 官方放出了录用结果：12343篇有效论文投稿，接收率为 26.1％，几家欢喜几家忧。最近抽时间看了下已接收的论文，整理了十篇还不错的文章给大家分享一下，主要涉及：大模型推理提升、预训练、强化学习、数据集等。如需原文的可以回复：NeurIPS2023 获取

LLM定向刺激Prompt

本文提出了一种新型的框架：定向刺激Prompt，用于指导黑盒大语言模型（LLM）实现特定的所需输出。本文方法不是直接调整LLM，而是采用小型可调策略模型（例如T5）为每个输入实例生成辅助定向刺激提示。这些定向刺激提示充当细致入微的、特定于实例的提示和线索，引导LLMs生成所需的结果。

实验表明，该框架可以使用最少的标记数据持续提高LLMs（例如 ChatGPT、Codex、InstructGPT）在这些监督任务上的性能。该方法仅使用MultiWOZ 数据集上的80个对话，就将ChatGPT的性能提高了41.4%，超越了一些完全监督的最先进模型。此外，与人工制作或自动生成的提示相比，本方法生成的特定于实例的思维链提示提高了InstructGPT的推理准确性。

提升LLM推理可信度

大型语言模型(LLM)在执行各种推理任务时显着受益于思维链(CoT) 提示。虽然CoT允许模型产生更全面的推理过程，但它对中间推理步骤的强调可能会无意中引入幻觉并造成错误积累，从而限制模型解决复杂推理任务的能力。为此，本文寻求让语言模型能够执行明确而严格的演绎推理，并通过自我验证来确保其推理过程的可信性。

基于以上背景，本文将推理验证过程分解为一系列子过程，每个子过程仅接收其必要的上下文和前提。为实现这一功能，作者提出了一种基于自然语言的演绎推理格式。该方法使模型能够生成精确的推理步骤，其中后续步骤更严格地基于先前的步骤。它还使语言模型能够逐步进行推理自我验证。通过将此验证过程集成到每个演绎推理阶段，显着增强了生成推理步骤的严谨性和可信度。

SATLM提升LLMs推理能力

将CoT Prompt与程序化表示相结合可以提升大型语言模型的推理能力。该方法对于前向推理（例如，简单的算术）的任务效果很好，但是对于需要复杂推理能力的问题来说效果较差。

为提高LLMs复杂推理能力，本文作者提出了一种新的辅助语言建模方法：SATLM，其中利用LLM来生成声明性任务规范而不是命令式程序，并利用现成的自动定理证明器来得出最终答案。在GSM算术推理数据集的一个具有挑战性的子集上，SATLM 的性能比程序辅助的LM提高了 23%；SATLM还在LSAT和BOARDGAMEQA上实现了新的SoTA。

预训练不要停？

在大量未标记数据上训练的语言模型(LMs)极大地推动了自然语言处理(NLP)领域的发展。在本研究中，作者通过在半监督和全监督环境下对8个单句任务和8个句子对任务的实验，「发现传统的持续预训练并不能始终获得好处」，甚至对于句子对任务或使用基于提示的FT时可能是有害的。

为此，本文作者提出了基于提示的持续预训练(PCP)，它将指令调整的思想与传统的持续预训练相结合。该方法旨在通过在对目标任务进行微调之前，通过无监督的预训练目标向LMs展示任务相关文本和提示模板，从而提高基于提示的FT的性能。

多模态红酒品鉴

作者提出了一个「大型多模型葡萄酒数据集WineSensed」，用于研究视觉感知、语言和葡萄酒风味之间的关系。该数据集包含 89.7 万张葡萄酒标签图像和 82.4 万条葡萄酒评论。通过对256名参与者进行品酒实验，获得了子集的细粒度风味注释，这些参与者被要求根据风味相似性对葡萄酒进行排名，从而产生超过 5000对风味距离。

作者还提出了一种低维概念嵌入算法，将人类经验与自动机器相似核相结合。实验结果表明，这种共享概念嵌入空间改进了粗风味分类（酒精百分比、国家/地区、葡萄、价格、评级）的单独嵌入空间，并与人类对风味的复杂感知保持一致。

RL中的Transformer

强化学习(RL)算法面临两个不同的挑战：学习过去和现在观察的有效表示，以及确定行为如何影响未来的回报。这两个挑战都涉及对长期依赖关系进行建模。Transformer 架构非常成功地解决了涉及长期依赖关系的问题，包括 RL 领域的问题。然而，基于 Transformer 的 RL 方法表现出色的根本原因仍不清楚：是因为它们学习了有效的记忆，还是因为它们执行了有效的置信分配？

在引入内存长度和学分分配长度的正式定义之后，作者设计了简单的可配置任务来测量这些不同的量。实证结果表明，Transformers可以增强RL算法的记忆能力。

中文妇幼护理数据集

随着生成大型语言模型（LLMs）的发展，越来越多的应用场景逐步开始尝试对接大模型来优化应用功能。尽管LLMs可以流畅与人们进行交互，但是它们也会无意中生成偏离事实的错误信息，这在一些医疗护理等应用场景中会产生严重的后果。然而，之前很少有研究关注评估大模型长篇（LF）生成中的错误信息，特别是对于知识密集型主题。

为此，本文提出了CARE-MI基准，它可以评估LLM在妇幼护理领域场景下的生成错误信息，且支持中文。除此之外，作者还提供了一种用于构建 LF 生成评估基准的创新范例，可以将其转移到其他知识密集型领域和资源匮乏的语言。CARE-MI基准填补了大模型的广泛使用和缺乏用于评估这些模型生成的错误信息的数据集之间的差距。

提升大模型Zero-Shot性能

通过将时间序列编码为一串数字，将时间序列预测构建为文本中的下一个标记预测。基于该方法，发现GPT-3和LLaMA-2等大型语言模型(LLM)在零样本时间序列推理上面表现出了强悍的性能。为了进一步提升LLMs性能，作者提出了有效标记时间序列数据并将标记上的离散分布转换为连续值上的高度灵活的密度的程序。

作者认为时间序列LLMs的成功源于它们自然地表示多模态分布的能力，再加上简单性和重复性的偏差，这与许多时间序列中的显着特征相一致。本文还展示了LLMs如何自然地处理缺失数据，而无需通过非数字文本进行插补，容纳文本辅助信息，并回答问题以帮助解释预测。

机器人学习

本文推出RoboHive，这是一个用于机器人学习和嵌入式人工智能领域研究的综合软件平台系统。该平台涵盖了各种的环境，包括Shadow Hand的灵巧操纵、Franka和Fetch机器人的全臂操纵任务、四足运动等等。所包含的环境在多个领域进行组织和覆盖，例如手动操作、运动、多任务、多代理、肌肉等。

与之前相比，RoboHive提供了一个简化且统一的任务界面，具有高物理保真度和丰富的视觉多样性的任务，并支持用于实际部署的通用硬件驱动程序。RoboHive的统一界面为模仿、强化、多任务和分层学习的算法研究提供了方便且易于访问的抽象表示。此外，RoboHive还包括大多数环境的专家演示和基线结果，为基准测试和比较提供了标准。

小批量强化学习

在具有重放记忆的基于值的深度强化学习中，批量大小参数指定了每次梯度更新要采样的过渡次数。虽然对学习过程至关重要，但在提出新算法时通常不会调整该值。

在这项工作中，作者提出了一个广泛的实证研究，表明「减少批量大小可以带来许多显着的性能提升」；这是令人惊讶的，因为训练神经网络时的总体趋势是更大的批量大小以提高性能。作者通过了一系列实证分析来更好地理解这一现象。