论文速递 | 模型训练加速、文本生成框架、强化学习、知识图谱（NeurIPS2022）

引言

今天论文速递给大家分享四篇NeurIPS2022的文章，第一篇模型训练加速（加快模型训练收敛速度）、文本生成框架COLD（应对不断变化的约束条件）、强化学习QWALE（应对中间过程突发场景）、知识图谱DRAGON（联合文本知识图谱进行预训练）。.

另外，NeurIPS2022第五波更新，下载方式回复：历年NeurIPS

模型训练加速

梯度下降法是一种只使用梯度信息的一阶方法。它计算简单，但收敛速度慢。二阶方法如牛顿方法使用二阶导数来解释景观几何。这些方法具有更快的收敛速度，但是计算二阶导数在高维空间上的计算成本很高。

为此本文「提出了一种新的基于参数空间对称性的优化方法（symmetry teleportation），这是在在参数空间上保持损失不变的一组动作，它允许参数移动很大的距离，以提高后续步骤的收敛速度」。本文算法利用了高阶景观几何，但在大多数步骤中只使用梯度信息，从而避免了二阶方法的计算成本。

实验表明，在测试函数、多层回归和MNIST分类等优化问题上，本文方法提高了梯度下降和AdaGrad的收敛速度。如上图所示：从左至右以此是梯度下降方法、二阶方法、本文方法。

文本生成框架COLD

许多文本生成的应用程序需要合并不同的约束来控制生成文本的语义或样式。这些约束可以是硬的(例如，确保输出中包含某些关键字)，也可以是软的(例如，使用左上下文或右上下文对输出进行上下文化)。

各种文本生成应用程序的主导范式是使用任务特定训练数据的监督学习。然而，「不同的应用程序需要不同的、可能不断变化的约束」，并且为每个不同的约束组合标注大量特定任务的训练数据，这需要高昂的代价。

为此本文提出了基于能量模型的Langevin动力学约束译码框架(COLD)，如上图所示，该译码框架通过能量函数指定约束，然后通过基于梯度的采样对约束进行高效的可微分推理。「COLD解码是一个灵活的框架，可以直接应用于现成的从左到右的语言模型，而不需要任何特定于任务的调整」，这可以通过三个具有挑战性的文本生成应用程序来证明:词汇约束生成、溯因推理和反事实推理。

强化学习QWALE

强化学习算法通常设计用于学习可以重复和自主完成任务的高性能策略，通常从头开始。然而，「在许多现实世界的情况下，目标可能不是学习一个可以重复执行任务的策略，而只是在一次试验中成功执行一项新任务」。例如，一个救灾机器人的任务是从倒塌的建筑物中取回物品，它无法得到人类的直接监督，它必须在一定测试时间内取回这个物体，在此过程种必须克服一些未知障碍，尽管该机器人可以利用预先学习的相关知识，但是总有一些障碍是未知的。

为此，本文将以上问题设置形式化，称之为单生命强化学习 (SLRL)，其中代理必须在没有干预的情况下在单个情节中完成任务，利用其先前的经验，同时应对某种形式的新奇事物。SLRL提供了一个自然的环境来研究自主适应不熟悉情况的挑战，发现为标准情景强化学习设计的算法通常难以在这种环境下从分布外状态中恢复。受此观察的启发，「本文提出了一种算法，Q 加权对抗学习 (QWALE)，它采用分布匹配策略，利用代理的先前经验作为新情况下的指导」。实验表明，基于本文分布匹配公式的方法成功率提高了20-60%，因为它们可以更快地从新状态中恢复。

知识图谱 DRAGON

在文本处理上，预训练语言模型(LM)已被证明有助于各种下游NLP任务。最近的研究表明，知识图谱(KG)可以补充文本数据，提供结构化的背景知识，为推理提供有用的支架。然而，「目前模型方法并未经过预训练以大规模学习这两种模式的深度融合，从而限制了获得文本和 KG 完全联合表示的潜力」。

为此，「本文提出了DRAGON（深度双向语言知识图预训练），这是一种自我监督的方法，用于从文本和 KG 大规模预训练深度联合语言知识基础模型」。具体来说，本文模型将成对的文本段和相关的 KG 子图作为输入，并双向融合来自两种模式的信息。通过统一两个自监督推理任务、掩码语言建模和KG链接预测来预训练这个模型。DRAGON在各种下游任务（包括一般和生物医学领域的问答）上优于现有的LM和LM KG模型，平均绝对增益为 5%。特别是，DRAGON在关于语言和知识的复杂推理（在涉及长上下文或多步推理的问题上 10%）和低资源QA（在OBQA和RiddleSense 上 8%）和新的状态方面取得了显着的性能--各种 BioNLP 任务的最新结果。

论文

NeurIPS2022第五波更新，下载方式回复：历年NeurIPS

知识图谱 NLP服务编程算法强化学习

0 人点赞