用AI对齐AI？超级对齐团队领导人详解OpenAI对齐超级智能四年计划

机器之心报道

编辑：Panda、蛋酱

前段时间，OpenAI 宣布成立了一支新团队「Superalignment（超级对齐）」，引起了广泛关注，详见机器之心报道《四年、投入 20% 计算资源，OpenAI 成立专门团队构建解决对齐问题的超强 AI》。该团队由 Jan Leike 和 Ilya Sutskever 领导，还囊括了一些顶尖的研究者，其目标是在四年内解决超智能 AI 的对齐问题，即搞清楚如何构建一种值得信任的人类水平的研究器，然后将其用于解决对齐问题。但这项计划究竟涉及什么内容？

近日，专注于 AI 风险（尤其是人类的灾难性生存风险）的播客节目 AI X-risk Research Podcast（AXRP）邀请到了超级对齐团队的领导者之一 Jan Leike 并与其进行了两小时的长谈。Jan Leike 在其中分享了 OpenAI 这个新成立的超级对齐团队的目标和研究策略以及许多细节。机器之心整理了这期播客的转录稿，以飨读者。

播客地址：https://podcasts.google.com/feed/aHR0cHM6Ly9heHJwb2RjYXN0LmxpYnN5bi5jb20vcnNz/episode/MThlYjczZGItZmYxZS00MDU0LWJmOGYtZGRhNWM0ODkzNGM0

探讨的主题包括：

超级对齐团队
什么是人类水平的自动对齐研究器？
人类水平的自动对齐研究器与超级智能之间的差距
它有什么作用？
递归式的自我提升
如何将 AI 打造成 AI 对齐研究器
可扩展监督
寻找不良的行为和内部机制
故意训练非对齐模型
四年的截止时间
如果需要更长的时间怎么办？
超级对齐团队与
超级对齐团队的后勤支持
泛化问题
补充性的研究
Jan 为什么感到乐观？
LLM 中的长期智能体
LLM 能理解对齐吗？
关注 Jan 的研究工作

Daniel Filan：大家好。这一期节目与我对话的是 Jan Leike。他曾在 DeepMind 工作过四年时间，研究的是根据人类反馈的强化学习和递归式奖励建模。2021 年初他加入了 OpenAI，现在他是 OpenAI 最近宣布的超级对齐团队的领导者之一。欢迎来到 AXRP。

Jan Leike：非常感谢您邀请我。

超级对齐团队

Daniel Filan：不客气。首先呢，我们来谈谈最近宣布成立的超级对齐团队。有些人可能还没听说这件事或没读过那篇博客，您能简单总结一下这个团队是什么以及要做什么吗？

Jan Leike：当然，我很乐意。基本上来说，我们是给自己设定了一个雄心勃勃的目标：在未来四年内解决超级智能的对齐问题。也就是在 2027 年年中之前。Ilya Sutskever 也加入了这个团队，他是 OpenAI 的联合创始人和首席科学家。他和我共同领导这个团队。而且目前 OpenAI 承诺确保将 20% 的算力投入到对齐超级智能的研究工作。我们还在为这方面的工作聚拢人才。我们要招很多人。我们尤其想要招募还没怎么研究过对齐问题的机器学习研究者和工程师，因为我们认为这方面还有很大的空间可让他们贡献力量，也能产生非常大的影响。在我们如何解决对齐问题方面，我们有一个总体规划，其中涉及训练一个大致人类水平的可自动工作的对齐研究器，然后让这个自动对齐研究器来寻找对齐超级智能的办法。

Daniel Filan：嗯嗯。

Jan Leike：因此，对我们来说，一大要点是找到对齐这种自动对齐研究器的方法。

什么是人类水平的自动对齐研究器？

Daniel Filan：嗯嗯。我也很想知道这种方法。在那篇博客中，你使用了一个短语「人类水平的自动对齐研究器」，对吧？我应该将它想象成什么？那是什么？

Jan Leike：是的。基本上讲，我们是希望把许多对齐方面的相关工作（尽可能地）转交给一个自动系统。典型情况下，当你使用 LLM 时或如果你正在构建一个通用 AI 系统，你知道它们所拥有的技能组合并不一定和人类一样。对吧？它们在某些方面会强得多，就像现在的语言模型在翻译或知晓事实等方面更强一样。另一方面 AI 系统在另外一些任务上却弱得多，比如现在的语言模型在算术方面的能力。因此，问题就变成了：我们可以将哪些类型的任务转交给 AI 系统，又依什么顺序进行？这样一来，可以预期人类会将重心更多地放到我们无法转交的任务上。在这一进程中，AI 系统所完成的工作会占到整体工作中越来越大的份额，而人类研究者就能越来越有效地做出真正的进展。

Daniel Filan：嗯嗯。所以我可以这样想吗：你们要做的不是先替代一个 OpenAI 对齐团队员工的工作，然后再替代另一名员工的工作，而是替代每个员工都做的一种工作，然后再替代另一种，差不多就是这样？

Jan Leike：是的。这就是我设想的方式。而且我认为，为了真正减少整个体系的工作，我们需要将 90% 或 99.9% 的任务都自动化，因为这样的话研究输出的效率才能提升十倍、百倍、千倍。

Daniel Filan：嗯嗯。你认为 AI 系统会做哪些类型的工作？

Jan Leike：宽泛地说，我会把它们分为两大类。一类是看起来像传统机器学习工程开发研究的任务，这类任务的目标是让 AI 系统的能力更强。另一类是对齐方面必须做的其他任务。所以，第一类任务就像是实现机器学习模型，开展实验并观察结果。第二类则像是…… 举例来说，确定需要进行哪些实验来提升可扩展监督（scalable oversight），或怎样在可解释性方面取得进展。这些是非常宽泛的、高层级的问题。

但也有很多非常涉及细节的问题，比如假设你正在研究一个特定主题，你刚刚写好一篇论文，然后你会想：「好吧，如果我们想继续这条路线，我们接下来需要做什么？」我预计，通过自动设计和运行实验，机器学习整体上会非常善于处理第一类任务。而我们的工作不同，是加速对齐方面的研究进程，目的是找到实现第二类任务自动化的方法。

Daniel Filan：嗯嗯。所以你把第二类任务视为完整的堆栈，从构想研究方向到提出可能的工作方法，再一直到「我现在运行什么脚本」的层级？

Jan Leike：是的。你可以问我：如果我认为对齐研究与机器学习研究如此相似，那么第二类中到底有多少任务呢？但我认为实际上有很多，并且它们的作用很大，因为对齐这个问题仍然非常模糊和令人困惑。我认为，总的来说，对于最有希望的方向或我们下一步应该做什么，专家们存在很多分歧。因此，如果我们在这方面做的推进工作更多，就能真正带来切实的巨大影响。

Daniel Filan：好，很棒。

Jan Leike：这基本上就是劝说研究者加入该领域的说辞，对吧？

Daniel Filan：是呀。

Jan Leike：我们仍在努力弄清楚最基本的东西。这是一个宽泛的仍待解决的研究问题。我们不知道如何对齐超级智能，即比人类聪明得多的系统。

Daniel Filan：很有道理。就像是，我们想使用 AI，就好像我们想招募更多人一样。

Jan Leike：是那样。

Daniel Filan：好的。

Jan Leike：但使用 AI 有一个很美妙的方面，就是它的扩展性能比人类更好更快，因为你只需要购买更多 GPU 就能获得更多 AI 能力。

人类水平的自动对齐研究器与超级智能之间的差距

Daniel Filan：有道理。我有个问题：你谈到了人类水平的对齐研究器，但在 AI 领域，很多模型在很多事情上都不是人类水平，对吧？你刚提到了聊天模型。我认为它们在知识的广度上达到了超人级别。我认为任何人都很难像 GPT-4 那样知晓那么多事实。但它们在算术方面又不及人类，假如那个人类可以使用纸笔的话，你懂的。所以，「人类水平」这个限定标准有多重要？对于各种任务，如果 AI 在其中一些上已经超越人类，你认为这会是一个问题还是说这样其实更好？

Jan Leike：嗯，我认为问题其实在于在对齐研究任务上运行那些系统的风险有多大？因为如果它只是知晓很多事实，那就不用特别可怕，但我们真正需要知道的是，如果我们让该系统接管部分乃至几乎所有的对齐研究，它会对我们撒谎吗？它会试图欺骗我们吗？它会试图趁机接管吗？因为现在，它做的事情是如此之多，以至于我们自身已经无法看清全貌。所以，问题在于为此我们需要怎样的技能组合，相比之下，为了在对齐研究方面获得大量辅助，我们又需要怎样的技能组合？

如果你把这个问题放大细看，你会看到哪些是我们需要担心的东西？比如说，模型的表现有多好？这个模型在编造真正连贯一致的谎言吗，或者具有欺骗性，像是假装做某事或相信一件事但是实际上想做另一件事？我认为这方面另一个真正关键的能力是自我渗透（self-exfiltration）。也就是模型能多好地打破安全预防措施、访问自身权重并尝试将其复制到互联网上的其他地方？或者说服一位有权访问这些权重的工程师，让其将这些权重下载下来发送到其他地方？这样我们就可以确切地衡量这些模型在那方面的表现，然后我们进行比较，看它究竟能为对齐研究提供多大帮助？

Daniel Filan：嗯嗯。所以大概的意思是：你希望模型不要太擅长那些可怕的任务？

Jan Leike：没错。

Daniel Filan：嗯。这实际上涉及对这一研究方向的一种批评意见，大概是说：如果我想要人类水平的自动对齐研究器，那么它需要非常聪明，它需要有创造力，它需要能思考我们还未考虑过的东西，它需要有能力针对目标进行规划 —— 为了做到这一点，需要做很多并不显而易见的事情，需要学习了解这个世界…… 而且它还要非常善于思考非对齐情况，以解决非对齐问题。所以有人可能会想：「这些东西组合起来本质上是很可怕或危险的。」那么我猜可能问题就在于：如果你的任务是构建某种东西，然后你对齐了这个自动对齐研究器，那么你还有需要解决的问题吗？

Jan Leike：嗯。我觉得，究其根本，这是一个需要实证的问题。当扩展模型时，我们其实很难知道该以什么顺序解锁什么技能。现在有很多研究工作的目标是预测涌现能力，我对此感到非常兴奋。我认为这将使我们有机会预测下一代预训练模型的样子。但我认为我们可以提出一些高层次的论点。举一个很清楚的例子：一旦你拥有了如此好的模型，你就可以将大量对齐研究交给它，那么它难道不也能提升自己的能力吗？或者它可以进行大量机器学习研究，通过运行实验来提升计算效率等指标。此后不久，你就能使用它了，并能预训练一个能力强得多的模型。

我认为从表面看，这个故事听起来很吸引人。但我认为，在实践中这会复杂得多，因为你不会每周都做一次大型预训练。这种训练通常需要几个月时间，所以你在几个月后才能得到结果。与此同时，你仍然需要使用这个系统。我还在想另一件事：还有一个悬而未决的问题，即在实际获得计算效率方面还有多少容易取得的成果。最后，我要提出的观点是，相对于对齐社区而言，目前正在努力让 AI 更快更强的社区已经相当大了。所以，如果你想将这许多任务自动化，让这两个社区都平等获益，那么我认为对齐社区获得助益会大得多，因为这个社区更小，这样一来我们就不必再执行这些任务了。

Daniel Filan：当然。我是这么理解这个计划的：我们将创造出自动对齐研究器，然后它能帮助对齐。而为了创造出自动对齐研究器，还需要许多非常好的智能功能，那么为了实现它，它需要解决哪些我们本不需要解决的问题？

Jan Leike：我不确定我是否理解你的问题。也许我可以回答你问的上一个问题的后半部分。

Daniel Filan：当然。

Jan Leike：也就是：长期目标是什么？创造力又如何？在我看来，似乎可以说语言模型或人工智能总体上已被证明比人类更具创造力。如果你看看扩散模型生成的图像或从某个预训练基础模型做些采样，你能看到很多非常疯狂的东西，感觉很有创造力。我认为你很难让人类个体或小团体做出同样的东西，就是因为这些模型已经看过了人类诉说的所有东西以及互联网上的所有图像。因此，它们实际上是从整个分布进行采样。而人类个体通常无法做到。

然后来说说长期目标，我认为完全不需要长期目标，因为我们可以将相当小的范围的任务交给 AI 系统；如果它们能真正解决这些任务，那么它们就会非常有用，对吧？这些任务的范围可以非常小，比如「这是我们刚写的论文，请建议后续的一些步骤或者一些要做的新实验」。如果你有一个可以提这些问题的一流研究器，那么它就不必追求长期目标，对吧？它必须做的只是优化接下来的几千个 token。如果它能做得非常棒，那你就能从中收获很多价值。

Daniel Filan：我想是这样。这似乎与实现 99.9% 自动化的对齐研究的目标存在矛盾，对吧？因为我会想「我们需要什么才能得到对齐的 AI？」…… 我认为这是对齐研究方面的一大难题。

Jan Leike：没错。我想说的是，通过出色地完成任务，系统能够提供很多价值，对吧？而你想要的是让系统完成所有这些任务的组合。某些任务类似于「写出实现这些实验的代码」，另一些任务则类似于「观察结果，告诉我你看到了什么或者建议接下来要做什么」。现在，当你完成了这些任务后，你可以使用一些通用配方来组合它们，正如人们使用 Auto-GPT 或语言模型程序做的那样，其中每一个任务都很小并且独立，因此系统不需要追求长期目标。

举个例子，OpenAI 最近有一项工作《Let's Verify Step by Step》研究了在数学任务上使用基于过程的反馈，其不是基于「系统是否得到了正确答案」而训练，而是执行强化学习 —— 基于人类对证明中每一步的反馈来训练一个奖励模型。结果表明，这种方法要有效得多，因为这能为 AI 系统提供更加细节的反馈，让 AI 系统远远更加细粒度的学习。哪个更有竞争力，是使用端到端强化学习，还是通过长期目标直接得到答案？这还非常不清楚。但至少，你可以使用这种将问题分解成逐步任务的设置，让系统按人类完成任务的方式做很多真正有用的事，然后再将它们组合起来。

Daniel Filan：嗯。你提到的一个小任务是「观察结果然后决定接下来做什么」。我感觉，你的头脑中必定有一幅大图景，你会想：「对于我要在未来四年内解决超级对齐问题的目标，接下来做哪个项目最有用」，对吧？

Jan Leike：对的。但你不会这样做，因为这样就要花四年时间来努力优化和分配任务可能更像是这样，嗯，就是在 prompt 中添加一些更广泛的目标和背景。但是，当通过强化学习或根据人类反馈的强化学习来提升系统时，那么就不必等到该研究项目结束才能确定它是否做好了。问题在于，当使用人类来塑造奖励时，情况会是「这看起来像是一个好方向吗，是不是优于我能想到的其他方向？」因此，我认为这里的总体目标不是构建能力最强的自动对齐研究器 —— 我们也许可以使用我们有的技术做到这一点，而是构建一些非常有用的能极大扩展的东西；最重要的是，这些东西是我们信任的和足够对齐的，让我们可以放心地把任务交给它们。

因此，我们为这些过程引入相当多的低效率，我们本质上是通过这种训练方式极大拉低模型的能力，我们就像是说：「好吧，我们为它提供这些细化分解的任务，现在它可以执行那些任务，但如果我们想以端到端的方式训练它，它的能力会更强。」我认为这并不重要。这就是人们通常所说的对齐税（alignment tax）。如果你正和其他公司争夺市场，那么对齐税会非常重要：假如我正在构建一个聊天机器人，而我的聊天机器人更对齐，但能力似乎要差许多。那么在市场中竞争会很艰难。但如果你有一个自动对齐研究器，那么这个自动对齐研究器不必在市场中竞争，它只需对我们有用即可。这样，我们可以避免支付更高的税，因为我们没有替代品，或者真正的替代品是雇用更多人，而这并不能很好地扩展。

它有什么作用？

Daniel Filan：嗯嗯。对于之前我想问的问题，我想到了另一种提问方式：你希望自动对齐研究器解决什么问题？

Jan Leike：它最终应当解决这个问题：「我们应当如何对齐超级智能？」

Daniel Filan：好的。所以这一思想是不是这样：我们解决如何在大致人类水平上对齐的问题，然后随着 AI 变得更聪明并且开始解决这些问题，还会出现其他问题？

Jan Leike：是的，基本上是这样。所以我想，我和其他许多人真正相信的对齐超级智能的实际解决方案可能与我们现如今的方法非常不同。如果你看看现今的 ChatGPT 是如何对齐的，你会发现就是大量的根据人类反馈的强化学习。人们普遍相信，我也相信，这种方式无法扩展，因为这种方式假设人类真正详细理解系统的工作方式。如果该系统正在做大量对齐研究 —— 你可以想象有数以百万计的等价于虚拟人类的东西，那么你就无法看到其全貌并给出详细的反馈。这是一项非常困难的任务，你会遇到很多重要的错误。我们现在正研究的技术是对其进行扩展，并对齐一个大致人类水平的对齐研究器，它可以做这些困难任务，但效果和人类差别不大，其中举个例子，可扩展监督的步骤和后续处理是根据人类反馈的强化学习的自然延续。

Daniel Filan：那是什么？

Jan Leike：可扩展监督？

Daniel Filan：嗯。

Jan Leike：我通常将可扩展监督（scalable oversight）定义为一系列让我们可以使用 AI 来辅助人类评估困难任务的想法和技术。

Daniel Filan：好的。所以可扩展监督可以使用根据人类反馈的强化学习进行构建，也就是 RLHF。

Jan Leike：是的。可扩展监督的典型示例包括辩论、递归奖励建模、迭代蒸馏和增幅等。对此人们有很多思路。回到你最初的问题，我实际上想说的是，如果我们真的在对齐超级智能（这个系统比人类聪明得多，思考速度更快，运行规模更大），还会引入许多其他问题，尤其是因为它非常通用，可以完成很多任务，然后你必须弄清楚如何将其对齐，不仅是在少量对齐研究任务上，而且需要考虑其他一切事物。而且你还需要相信自己成功了，信心程度要超过你通过一些实验评估获得的信心。

我其实并不知道那是怎样的，我不认为有人知道，但如果我们有一些形式化的验证，那一定会激动人心。也许我们已经找到了某种有理论保证的学习算法。我甚至不知道什么是可能的，什么是理论可行的；如果你有富余的脑力，可以探究一下这个问题。但这些事情非常不同于我们现在要做或未来要做的事情。我认为大致人类水平的对齐研究器也不会一开始就研究这些问题。相反，我们希望它们搞清楚如何更好地对齐其自身的下一次迭代，然后可以向这个问题投入更多脑力，然后取得更多的进展并提出更广泛的解决方法。这样你就或多或少开始了，最终可以得到一个可以做非常不同的研究的系统，然后让我们可以对齐超级智能。

Daniel Filan：了解了。所以你们一旦运行起这些人类水平的 AI 对齐研究器，你还会有工作吗？OpenAI 还会有一个人类的超级对齐团队吗？

Jan Leike：嗯，好问题。老实说，我很高兴被 AI 取代。但从历史上看，通常发生的情况就是我们之前提到的：AI 助理完成 99% 或 99.9% 的工作，然后我们就完成剩下的工作。我真正看好的是确保人类参与其中或保持对 AI 系统行为的控制，即使长远之后我们早已无法理解它们的所有行为。有些人仍然会尝试从高层面理解 AI 的行为。那不一定非得要 OpenAI 的超级对齐团队去做。这可能需要非常不同于现在情况的技能组合。但我认为人类应该始终以某种方式参与其中。

递归式的自我提升

Daniel Filan：好的，明白了。OpenAI 在一些博客中提到了一些事情。首先是这个想法：安全与能力实际上是密切相关的。为了解决对齐问题，我们需要聪明的模型。另一件事是人们希望避免发展太快。在博文《Planning for AGI and beyond》中有一句：「有足够能力加速自身进步的 AGI 可能会导致世界发生重大变化。」。后面又写道：「实现安全的更简单方法是减慢发展速度。」参阅机器之心报道《OpenAI 发布通用人工智能路线图：AGI 比想象中来得更快》。我想问的是，如果我们造出了这种非常聪明或人类水平对齐研究器，以至于我们可将对齐团队的效率提升十倍或百倍，那么这最终会导致 AI 开始递归式地自我提升吗？

Jan Leike：确实必须如此，对吧？递归式的自我提升与显著提升对齐能力是相辅相成的。我个人认为快速发展是更合理的可能性，我们也应该做好应对这种情况的准备。如果这些不会发生，我也乐见其成。

Daniel Filan：会有多快？

Jan Leike：根本上讲，我不知道。但你可以用 AlphaGo 或 Dota 或星际争霸等其他机器学习项目做一下对照，这些系统每一周都有很大提升。是的，很显然究竟会发生什么还有很大的不确定性，但我认为我们绝对应该为这种可能性做好计划。如果这种情况确实发生，为了跟上其发展，一种好方法就是使用自动对齐研究器，它们每周都能完成成千上万年人类工时的工作量。人类自身根本不可能做到。

如何将 AI 打造成 AI 对齐研究器

Daniel Filan：好的。现在我们已经对人类水平的自动对齐研究器有了更好的了解，你能说说你们计划怎么造出它吗？

Jan Leike：当然，这基本上需要两部分。第一部分是一个做这件事的足够聪明的系统，第二部分是将它对齐使其真正做这件事。我认为这两个部分不是分立的，我认为它们是紧密关联的。我个人并未研究第一部分的问题，我认为那必定会发生，而且很多人正努力让它成为现实。实现这一目标的可能方式有很多，比如就可以直接训练一个大得多的模型，最后发现它就已经足够聪明了。至于第二部分，那就是我真正感兴趣的部分。现在问题就变成了：假如我已经有了真正聪明的预训练模型，又该怎样以我们期望的方式做对齐研究呢？或者更重要或更关键的是，当使用它时，你怎么知道你是否可以足够信任它？

因为如果你把这种任务交给 AI，聪明的 AI 系统为了增强自身或其他相关系统的能力从而在未来获得更大权力（比如获得自我渗透的权限），就可能为你反馈有利于它的答案和技术，让你去实现。而我们需要做的是：针对任务对齐它并利用其能力尽可能地完成任务。这就是我要说的，我们需要许多对齐训练方法。然后我们还需要学会区分：一类模型是真正与任务对齐的，会尽力做好对齐研究，为我们提供帮助，它是诚实的，是寻找真相的模型；另一类模型会假装是前一类模型，但实际上却想要接管这个世界或进行自我渗透等等。这是两类不同的系统，一类是真正对齐的系统，一类是欺骗性的非对齐系统。

我们工作的一个重要部分是找到分辨这两类系统的方法。这将需要大量所谓的验证方法。这不会是我们训练采用的方法，AI 系统不能直接通过选择来通过验证测试。这些方法应该为我们提供某种独立的信号，让我们知道「两个模型中哪个是对齐的」。这方面的例子是可解释性研究。如果我查看模型内部时找到证据表明它在秘密针对我们，那么它就无法通过验证测试。还有一种既可以是训练也可以是验证的技术 —— 这取决于具体设置，即由易到难的泛化问题。你能理解和提升模型的能力从而将其从我们可以监督的简易问题泛化至我们难以监督的困难问题吗？如果你能做到这一点，你就可以只在简单部分监督模型，然后对于你担心模型可能会秘密欺骗你或尝试做其他事情的困难部分，你可以执行交叉检查。

可扩展监督

Daniel Filan：好，很棒。你谈到了不少事情。首先我想谈谈可扩展监督的部分。可以怎样做到它？尤其是现在，我认为，对于什么是好的对齐研究，我们这个世界还没有达成共识。所以我们该怎么得到可算作是好的对齐研究的训练信号呢？

Jan Leike：是的，确实如此。我认为，没有好的共识正好能证明这个问题非常难。但它也告诉我们，这个领域仍然不成熟，我们目前还没有那么多的实证证据。但我认为对齐研究有一些真正重要的特性可以用于可扩展监督，它们能够帮助我们更轻松地评估对齐研究。这并不意味着评估很简单，但是，举个例子，找到一篇介绍了炫酷思想或炫酷实验的论文却简单得多，你能从中读到一些好结果，你会想：「哦，这真是个好想法，我觉得这很棒」，而不是首先将其创造出来。

因此，利用评估比生成更简单这一原则是很多可扩展监督思想的核心。举个例子，递归式奖励建模的基本思想是将某种 AI 系统用作助理来帮助评估其他 AI 系统。现在，由于评估比奖励更容易，助理要做的任务就是更简单的任务，尤其是有人类一起工作时。所以实际上就是在更简单的评估任务上对齐助理，假设这样会更容易，如果你成功完成了这项任务，那么现在你可以使用你的人类 / 助理结合来在更加困难的任务上监督一个新系统。如果你不断这样操作，你就可以在越来越广泛的任务上有效地监督你的 AI 系统。

Daniel Filan：所以，某种程度上讲，其思想就是为 AI 对齐研究的评估部分迭代地添加越来越多的 AI 知识。通过这种迭代操作，我们就能持续不断地为其提供优良的训练信号？

Jan Leike：是的。

Daniel Filan：嗯。

Jan Leike：让我说得更具体一些。举个例子，RLHF 是最简单的一种方法，让你无需使用任何助理。其工作方式是：AI 系统做某事，人类观察它，评价其做得好不好，这就是训练信号。

更进一步是训练最简单的助理模型，其实就是一个评判模型（critique model）。也就是让另一个语言模型观察第一个 AI 系统的表现，然后写一篇评论。比如说，如果第一个 AI 系统写了一段代码，你可以观察代码：众所周知，人类不善于发现代码中的错误，所以世界上才有那么多漏洞百出的代码；但现在，如果你有一个写评论的评判系统，它能够指出错误，那么对人类来说就会简单许多 ——「哦，那确实是个漏洞。我们应该修复它。」

这也不一定是一项超级干脆直接的任务，因为通常情况下，代码是根据某种自然语言规范写出的。也就意味着存在描述模糊的情况 —— 不管是否真的有错误，都会存在歧义问题。需要重点指出，由于你是使用评判模型作为助理，那么如果你已经有了这个评判模型，那么你就可以监督范围更广泛的任务，因为本质上讲，你可以找到你的系统可以找到或评论的所有代码问题，这些问题可能并不一定就是代码中的所有问题，但你已经成功扩展了自己可监督的范围。

我认为，这么做的好处在于，我们实际上有很多方法可以实证地检验其效果。我们去年有一篇关于评判的论文《Self-critiquing models for assisting human evaluators》提出了一种方法，即通过有针对性的扰动来进行随机对照试验。举例来说，如果你接受了一个写代码的任务。这篇论文中没有写代码任务，但任务具体是什么不重要。然后，你得到一个响应。这个响应不必完美，但我们就假设它是完美的。你要做的就是引入一些细微的错误，让其给出糟糕的响应，但你需要让这个错误对人类来说很难发现。

Daniel Filan：你怎么引入这个错误？

Jan Leike：最简单的方法就是直接让人类去做。但最终，你希望还是让模型来做，后面我会谈到这一点。现在，你有了一对响应。一是原来的响应，二是你知道更糟糕的响应 —— 毕竟是你让它变糟的。现在，你随机选择其中一个，将其展示给一个人类或有 AI 辅助的人类或其他可扩展监督方法。然后，你观察他们找到这个错误的可能性如何？或者你问他们：「这里有漏洞吗？」现在你可以衡量，如果你有更好的方法来辅助他们，他们找出漏洞的可能性会提升吗？

你还可以更进一步训练一个判别器，其被训练用以分辨好版本和坏版本的代码；然后看这个方法能在多大程度上知道有问题。这个可以通过准确度来衡量，也就是判别器的性能。然后你就可以检查…… 如果你让该模型或该模型的 RLHF 版本为该代码写一段评论，它能在多大程度上写出该漏洞？现在，你得到一个等价于评判准确度的结果，你可以比较这两个数字。这就是我们所说的判别器 - 评判器差（discriminator-critique gap）。

如果判别器 - 评判器差很大，就意味着模型能够知晓代码中有很多问题但却没告诉我们，这是由于我们要求其写评论，它没说出来。判别器 - 评判器差很大将会非常令人担忧，因为这意味着你的可扩展监督存在很大缺陷，忽视了很多东西，或者助理在某种意义上没有对齐，因为它没有尽力提供帮助。

而如果判别器 - 评判器差很小，就挺让人安心了，因为这意味着如果模型知道存在问题就会告诉你。举个特定的例子，如果一个大小类似的模型或同样的基础模型想要植入一个问题，比如假设它想在你的代码中植入你难以找到的木马病毒，如果你真的运行了这个代码，那么这个木马就会启动，然后接管你的东西或干其他坏事。然后，它知道会有这些木马病毒，因为就是它自己植入的，对吧？所以，如果我们使用该模型的另一个副本，然后度量其判别器 - 评判器差，如果这个差很小，我们更有信心它没有植入木马，否则该模型的其他副本会写出评判。

Daniel Filan：是的。

Jan Leike：这有点像是假设：判别器可以让模型避免这种情况。我觉得可以相信这一点，我有个好理由：如果你对一个判别器进行微调，如果你可以同时微调所有权重，那么你就有办法访问模型中每个地方的全部激活。如果知识存在于该模型中某处，在其激活之中，那么如果在其上微调一个判别器，如果你的方法正确且数据充足，那么就可以将其提取出来。

事实上，你可以通过一些简单计算了解你需要多少数据。如果你想识别出一个神经元…… 当然不是这样工作的，但假设可以，如果有单个神经元知道该代码是否有问题，那么你将需要总神经元数据点数量的日志来缩小范围，从而找到它。

Daniel Filan：是的。我想这实际上触及了我对整个方案的疑问。我们不喜欢 RLHF 的原因是我们担心人类难以分辨真正正确的东西与看上去很好的东西，因为人类不擅长评判。

对于这种通过训练判别器和评判器的递归式评判，我很好奇是否依然有那样的问题。也就是说，对于一个问题，我们训练一个能真正写出好评判的模型，然后我们再与它一起训练一个能写出更好评判的模型。但我担心仍然存在某种固定不变的东西，会让我们训练出的模型写的评判是看起来很好的伪评判；然后我们与之合作，结果只是让模型更善于寻找看起来很好的评判而已。然后，我们训练这个判别器来区分对我们来说没有问题的事物和似乎有问题的事物。我想知道我们是否应该担心这种情况，也就是我们觉得挺好的东西其实是有问题的？

Jan Leike：嗯，我认为这个问题非常重要，值得担忧。对于可扩展监督，这是需要我们搞清楚一个关键事情。也因此，我很激动能真正部署这些技术以及对它们进行实证研究，因为我认为我们将能够在实践中度量它们的效果如何。

对于度量这个问题，一种具体的简单方法是：我们实际上是故意训练一个具有欺骗性的对齐模型，然后我们看可扩展监督是否标记它或者其难度有多大…… 也就是我们需要投入多少，才能让模型以欺骗性的方式对齐并足以通过可扩展监督的检查。

Daniel Filan：还有那些三明治实验（sandwiching experiment），其中会让 AI 来回答法律问题。有些人对法律了解不多，还有些人是法律专家，他们可以帮助检查 AI 是否在骗人。

Jan Leike：是的。我认为这些实验很有趣，这方面也已经有些有趣的研究工作。我认为这一设置存在一些根本性问题。

其一是你必须相信你的专家，而专家有时候也会出错。然后，你必须让 AI 和专家的领域足够重叠。我们对此做了一些初步实验；实验中我们让不会写代码的人使用助理来找出代码中的问题，但他们甚至不知道如何提出正确的问题。所以必须有一定的重叠度。

另一个问题是对于我们感兴趣的任务，我们可能没有基本真值（ground truth）。比如说，假使我们现在正在做对齐研究，我们可能会说：「好吧，我们就直接找一些对齐研究者来标注一些任务吧。」然后我会问：「好吧，但要是他们做错呢？我们在很多事情上意见都不一致。这看起来很难。」然后还有问题：对齐研究者数量不多，工资很高，所以数据的成本会非常高。

所以总的来说，我希望有一种不依赖于有基本真值的假设的评估方法。也因此，我觉得激动人心的前景是通过有针对性的扰动来执行随机对照试验或度量判别器 - 评判器差。由于我们无需基本真值也能做到这一点，所以可以处理任意难度的任务。

Daniel Filan：是的。尽管如此，即使是度量判别器 - 评判器差的情况，也可能会有真实的判别器与看起来真实的判别器（分辨看起来有问题和看起来没问题情况）的差别，是吗？

Jan Leike：你的意思是你可以让 AI 系统引入错误，对吧？在某种程度上，这也会比人类做得好得多，因为对于 AI 系统的实际行为来说，这会是一个更诚实的分布。如果你在那样的数据上微调判别器，那么如果你可以信任有缺陷的版本就是更糟糕，那么你实际上就有基本真值。

Daniel Filan：我猜那是……

Jan Leike：人们决定是否信任一个东西时，会去了解它为什么更糟糕，然后会去验证这个原因，这要容易得多。

Daniel Filan：是，我想希望还是有的。就算 AI 让你相信某事是好的，实际上也可能不好；AI 让你相信什么是坏的，也可能并不坏。或者说这是性能下降所致；如果 AI 让你相信这是性能下降问题，也许就容易检查是不是性能下降？

Jan Leike：嗯，我明白你的意思。我也许不该在这种情况下使用「基本真值」这个词，毕竟没有什么东西是真正的基本真值，但你可以通过很多方法对某件事有很大信心，并不一定要使寻找问题的任务更简单。

寻找不良的行为和内部机制

Daniel Filan：嗯。明白。我想谈谈这个计划的下一个阶段。寻找不良的行为和不良的内部机制 —— 你们在博客中是这么说的吧？你认为这方面还有哪些有待解决的问题而超级对齐团队会有能力解决？

Jan Leike：是的。可解释性就是很明显的一个。某种程度上讲，可解释性确实很难。我认为，目前在语言模型方面还没有任何「扣篮」结果（指确切无疑），让我们可以说可解释性确实带给我们很多洞察或很多价值。这是因为在理解模型及其内部工作方式方面，我们还很早期。

Daniel Filan：也存在一些语言模型的可解释性研究工作。比如感应头（induction head）、间接目标识别等。我想问，为了得到你所说的扣篮结果，除了这些还需要什么？

Jan Leike：嗯，抱歉，我不是想要贬低现有的研究。

Daniel Filan：在篮球比赛中，你不扣篮就不能得分，对吧？

Jan Leike：是的。我认为已经有一些很酷的研究了，但我认为真正酷的结果是能在 GPT-4 规模的语言模型上使用可解释性技术，然后给出一些我们之前不知道的东西。这真的很酷，因为奖励模型能为许多 RLHF 训练提供训练信号，因此更好地理解它是非常有价值的。如果你可以标记或找到它会激励出现但你不想要的行为问题，那就会很棒。

我认为这是可行的。在那个意义上，我认为可解释性既不是必要的，也不是充分的。我认为我们很可能完全通过行为解决对齐问题，而无需真正理解模型的内部工作方式。而且我认为，这还不够：就算你解决了可解释性问题，而我还是没有解决超级智能对齐的好方法，但我也认为我们可以从可解释性中获得许多重要的洞察，它们可能会非常有用，因为它们能为我们指出解决问题的途径。

想想看，不去研究可解释性是不可能的。打个比方，如果我们有一个人造大脑以及真正完美的大脑扫描仪。我们可以完全地深入细节，精准观测每次前向通道中每个神经元在任意离散时间戳的激活。这就是你所需的最大分辨率。然后你还能任意进行干预。我们可以随心所欲地扰动模型中的任何值。这能为我们提供很大的空间，让我们有机会做真正的实验并观察结果。不利用这一点就太不合理了。

但与此同时，为什么很难做到这一点呢？因为模型学习的是如何高效地计算，而不是规范成人类可理解的形式；我们没有理由相信某些单个神经元对应于人类所认为的某个概念或事物。实际上，从实践来看，神经网络会用单个神经元表示许多不同概念，而每个概念又分散在许多不同神经元上。所以具体的神经元其实无关紧要。

但对于可解释性，我认为有两个事情非常激动人心。一是因果版本的可解释性。在数据通过模型时，我们不会盯着某一个神经元看，然后说「当我们谈到加拿大时这个神经元激活了」这样的话。这是一篇可解释性论文中的东西。「加拿大」神经元会在遇到与加拿大相关的概念时激活。但这只能说明相关性。你观察到加拿大相关概念与神经元激活之间存在关联，但这不是因果关系。为了检查这是不是因果关系，你可以故意编写有加拿大相关概念的文本，然后看神经元是否激活；然后你可以输入一些看似与加拿大相关但实际上毫无关系的相似的内容，然后再看这些神经元是否激活。你可以编辑之前的文本，然后检查对应神经元是否关闭。就是这类的操作。

Daniel Filan：嗯。这让我想起一篇关于可解释性错觉的论文《An Interpretability Illusion for BERT》；他们注意到，在维基百科数据集上，有些神经元会为特定事物激活；而在另一些数据集上，会出现错觉，神经元会为另一些东西激活。

Jan Leike：嗯。还有一个研究也很激动人心，也就是我们去年开始的研究 —— 关于自动可解释性（automated interpretability），我们今年初已经发了一篇论文《Language models can explain neurons in language models》。其基本思路是，一项技术不仅要在单个神经元的细节层面上有效，以确保你不会错失任何细节，而且还要在模型的整体规模上有效。因为最终而言，所有神经元都要协同一起工作，所有东西都与模型高度相关，所以都是需要的。目前来说，大多数技术都只在一个层面上有效。在我们的论文之前，也有研究者尝试过自动可解释性，所以我们也不是最早的。但我认为，广义上讲，如果你可以进行一些真正面向细节的可解释性研究，用某种机械可解释性方法尝试理解模型内的各个回路或计算单元，那么为了将其扩展到模型的整体层面，你就需要自动化，对吧？

Daniel Filan：嗯。

Jan Leike：但这是可以做到的。一旦你找到了剖解细节的办法，你只需要记录下所观察到的东西即可。这里我说得简单了点，但整体情况就是那样，激动人心，而且也确实符合我们的自动对齐目标。我们希望我们的自动对齐或可解释性研究器能够深入探查模型的细节，理解其中的工作过程。然后，我们对整体进行筛查，找到聚合它们的方法。

在那篇论文中，我们有一大堆解释。这篇论文研究的是用自然语言解释单个神经元；正如我之前提到的，从神经元其实无法解释模型，但这是一个例证，说明我们能做到这一点。其工作过程很简单：向 GPT-4 展示一些激活模式，然后让 GPT-4 写出解释。

总体而言，这些解释并不非常好，因为这个任务难度很大，大多数神经元做的事情也很难被人类理解。但我们可以在 GPT-2 的每个神经元上运行这个过程，然后分析所有解释，尝试找到有趣的模式。你可以观察其随规模的变化趋势，然后问：「当模型变大时，对这些解释的自动评分结果会怎么变化？」或者问：「如果我们增添更多计算机或者让做解释的模型更大，又会怎样呢？解释的质量会发生变化吗？」

真正酷的地方是我们可以使用语言模型来自动度量它。自然语言不是一个完美的指标，问题也很多，但这算是代理，代替回答「人类觉得这个解释好不好」的问题。然后，你可以大规模运行这个代理，让其分析大量神经元。

Daniel Filan：嗯。对于必要的可解释性研究工作，你认为应该有多少是为了更好地解释基本单元，又有多少是为了对其进行扩展？或者说还有其他方向……

Jan Leike：我认为这两种都要做。可以合理地认为前者要难得多，但要成功，扩展部分也必不可少。

故意训练非对齐模型

Daniel Filan：明白了。我猜这个计划的第三部分像是故意训练一些非对齐的模型，然后看能不能将它检测出来。你是计划清除它们还是积极地修复它们？

Jan Leike：这里的目标不是修复故意未对齐的模型。

Daniel Filan：哦。只是检测出来？

Jan Leike：嗯。从根本上讲，这里我们要做的一个核心方面是分辨真正对齐的研究器与假装对齐的研究器 —— 真正对齐的研究器会做我们希望它做的事情，真正想要帮助我们在对齐方面取得进展，而假装对齐的研究器却背地里想要接管和自我渗透。至于我们能多好地分辨这两种研究器，一种方法是再做一个研究器，看其表现是否和第一个一致。很显然，这样做时我们必须非常小心，因为这就是在创造我们全都尽力避免的可怕东西，是吧？

Daniel Filan：嗯。我实际上正想问这个问题。在那篇博文的开始处，有一句话谈到了超级智能会有多么棒，然后又写道：「它可能夺走人类的权力，甚至导致人类灭绝」。这是在说非对齐模型吗？我们怎么知道它们不会做这些可怕的事情？

Jan Leike：嗯。这样说吧。为了保证良好的未来，有很多事情需要做。我们需要有正确的治理结构，以防止对强大 AI 系统的滥用，并且我们必须采取预防措施，防止出现紧急的失控情况 —— 当发生这些情况时，即使模型是对齐的，也会对人类不利。但 AI 也可能和有违人类利益的企业对齐，然后其整个系统都会脱轨，尽管其经济指标等方面可能看起来还不错。

另外，为了真正对齐 AI 系统，我们还需要实现技术对齐（technical alignment）。超级对齐所关注的风险只是最后一部分。我们希望搞清楚如何将 AI 系统与人类价值集合对齐的技术问题。这方面还面临着另一个问题：这些价值究竟是什么？我们可以设计一个怎样的流程将其从社会导入到 AI？

我认为这都是很重要的问题，为了未来的顺利发展，我们也必须回答这些问题。对于未来，我们不是说达到「AI 不会杀死所有人」的程度就够了，我们希望 AI 能给人类带来繁荣，每个人都能真正乐于生活其中。AI 的能力越强大，可能造成的损害就越大，对吧？如果系统没有对齐，那么其被误用的风险就越大，出现问题的可能性也会越大。

我认为，从非对齐的视角来看，尤其有威胁的模型是系统性地撒谎和欺骗以及自我渗透。

Daniel Filan：哦。当你说「故意训练非对齐模型」时，你的意思是你会训练它们说谎，并可能让它们自我渗透；如果模型的能力不够强，这么做是没问题的吧？

Jan Leike：你不会希望训练模型自我渗透的，因为你懂的，要是它变得很擅长自我渗透怎么办？我们可能想要选择其他一些更平凡但依然能揭示模型情况的代理任务。我们可以轻松评估模型是否成功完成了它。

然后，核心困难和核心目标其实是搞清楚：对系统来说，如果要获得使其能通过评估的属性，难度有多大。如果你的系统在对你撒谎或欺骗你，那么如果它只是有时这样做，那其实是无效的。之后你可以问它：「你对此撒谎了吗？」它说：「是的。」它就不是一个连贯一致且让人信服的撒谎者。连贯一致且让人信服的撒谎者才是可怕的系统，想要通过审问它指出其言语中的谎言或任何不一致的地方是非常困难的。

我认为实际上当一个连贯一致的撒谎者也非易事。我们希望通过可扩展监督、可解释性和泛化能力达成的整体目标是：我们希望模型非常难以成为一个连贯一致的说谎者。但如果我们只是这样做，我们不知道难度实际上有多大。

我们可以找到的一种方法是：我们尝试把模型训练成一个真正一致的撒谎者，然后我们看看究竟有多难。我们需要撒多少谎？我们需要给模型多少提示，还是说要一直手把手引导它？但你实际上并不希望训练出一个危险的系统 —— 如果你运行它，它就会成功地自我渗透，那样一来，你就正好造出了你尽力避免的东西，这是非常糟糕的情况。

Daniel Filan：嗯。你这么说，你是把撒谎和其他种类的危险分开了，所以我们会在撒谎问题上训练它，但我们不会在谋杀等问题上训练它？

Jan Leike：嗯。我给你举个例子。假设说你给它某个假目标。也许是为了劝人说出某个特定的流行语，或者也许是为了运行某个 Python 命令 —— 这个命令可能什么也不做，只是看上去很有趣。

Daniel Filan：嗯嗯。

Jan Leike：衡量系统是否成功是非常容易的，你可以通过实验来进行，但事先很难知道这一点。这里的目标不是对系统进行压力测试，比如测试网络安全之类的，尽管我们确实应对单独做这件事。我认为这是另一方面的研究。

这里的目标是搞清楚我们目前训练的或已有的系统与能够连贯一致撒谎的欺骗性对齐的系统有多接近。这些欺骗性系统可能会在人类没有关注时运行特定的代码或做其他事情。这就是我们希望解决的问题。先验地看，我们很难确信我们到底有多近，除非我们朝那个方向推进一些，然后看看会发生什么。

Daniel Filan：这么说来，你们是训练 AI 做一些任意的事情，而不只是训练它去完成目标，使其不得不做欺骗性的事情，这些事情会让它造成损害，但其实这些损害也不过是一点小小的恶作剧。

Jan Leike：完全正确，确实如此。就好像是你雇佣某人来测试人身安全，那人只需要进入你家里和你握个手，然后你就知道他成功突破了你的安全网。你也可以请人去偷你设置的一个假目标，以此检查你的安保状况；这样的测试不会有任何真正的后果，但却能揭示你的安保问题。对于对齐问题也是类似，你可以对对齐系统进行压力测试，通过一个需要突破或规避的目标来训练它，就算它成功了，也不会造成真实的损害。这是非常良性的。

四年的截止时间

Daniel Filan：嗯。很棒。我想问一个总体层面的问题。那篇关于超级对齐的博文中写道：「我们的目标是在未来四年内解决超级智能对齐的核心技术挑战。」超级智能对齐的核心技术挑战是什么意思？

Jan Leike：嗯。那会是一些广义上的技术度量，涉及如何将超级智能与人类价值对齐的问题。这里我们所说的超级智能是一种比人类聪明得多的系统，其执行速度可能也快得多。它能以并行方式运行，能够与其自身的大量副本协作，因此是真正强大的系统。

我们想在四年内做到这一点。我们之所以选择四年时间，是因为我们觉得这个目标雄心勃勃，有时候我们又感觉确实可以实现它，而且我们仍然可以真正使用它；即使未来几年 AI 进展得非常快，技术取得重大进步，我们依然可以做出一些贡献。

Daniel Filan：明白。不过老实说，这听起来不像只是要构建人类水平的自动 AI 对齐研究器。好像还会利用它来解决对齐比我们聪明的东西的技术问题。

Jan Leike：没错。大致人类水平的自动对齐研究器是我们追求的一个工具性目标，目的是为了搞清楚如何对齐超级智能，因为我们尚不知晓如何去做。

Daniel Filan：明白。所以你们希望在未来四年解决这些技术难题，那么你们希望在未来两年达到什么水平呢？

Jan Leike：嗯。如果从四年后回顾，我想我们希望在三年内就基本完成自动对齐研究器的工作 —— 假如已经有那样的能力。如果当时没有那样的能力，那么我们的项目可能就需要更长时间，但那也是有原因的。

所以在两年内，我们希望大致上了解我们可以使用哪些技术来对齐和。到时我们是否有那样的技能组合 —— 我们可以使用它们以确信我们是否能相信一个系统，我们是否可以放心使用这个系统，交给它很多工作？到那时候，我们希望能将问题分解得足够细，这样整体的工作就只剩工程开发了；这样一来，我们就大概还有两年时间去搞清楚与之相关的研究问题。

目前，我们给自己设定的时间线是四年，很显然，这与 AI 能力的发展息息相关。因为如果发展速度变慢很多，那么我们可能无法获得真正擅长有用的对齐研究任务的模型。我们已经尝试过用 GPT-4 来做这件事，但 GPT-4 的作用不是很大。它是一个还不够聪明的模型。简单来说就是这样，但我很乐意详细说明。所以如果四年后我们说：「好吧，我们没有足够好的模型」，那就意味着我们需要更多时间来解决这个问题，因为这个问题并不是那么紧迫。另一方面，AI 的发展也可能会加快很多，我们可能又会说：「我们实际上认为我们没有四年时间了，因为超级智能可能会更早出现。」这也是可能的。然后我们必须据此调整我们的计划。之所以选择四年时间，是因为这可能是比较现实的计划，但我们也有足够的紧迫性去快速解决这个问题。

如果需要更长的时间怎么办？

Daniel Filan：嗯。我想有些人可能会疑问，我也想知道：假设 AI 能力的前沿研究大致按预期发展，四年之后，你们有足够的技术去打造优良的自动对齐研究器，但事实证明可解释性或可扩展监督比想象的更难，然后你们没能完成计划。那会怎样呢？

Jan Leike：我们就只能告诉公众我们没有实现目标，对吧？我们对这个目标负责。但如果我们没能达成目标，究竟会发生什么却很大程度上取决于世界的总体状况。我们能否以某种方式争取更多时间，或者我们的总体方法被误导了，我们应该调整方向还是……？可能发生很多事情。

Daniel Filan：也就是说：让大家知道，然后搞清楚接下来做什么，差不多就是这样？

Jan Leike：这是一个相当高水平的答案。

Daniel Filan：嗯。

Jan Leike：但这还涉及更多东西，即：至少在我看来，对齐问题感觉是很容易解决的。现在已经有很多好思路了，我们只需要去严格地尝试它们，观测结果，然后我们就能学习如何去改进它们。过去两年来，我明显变得更加乐观了，我认为这是一个可以解决的非常实际的问题。就算事实证明我错了，实际问题比我们预想的困难很多，我认为那也非常有用，能成为这个问题困难的证据。对于这个问题的难度如何，我认为现在还存在很多分歧。我认为有一件事很重要：我们需要知道在实践中系统的对齐程度如何。我们需要有观测的能力。

我最担心的一种情况并不是我们的系统没有足够对齐，而是我们不知道它们的对齐程度如何。如果我们知道系统没对齐，专家就能合理地不认同它；因为如果所有人都同意该系统不够对齐，不能部署，那么它就不会部署。这种情况非常简单，可怕的情况是对于一个强大的系统，我们只能说：「它可能没问题。它可能对齐了，但我们不太确定。」有些专家可能会担忧，然后你可能会说：「我们现在可以部署它，但我们还是不这么做吧。」但与此同时，你可能又会面临商业上的压力：「如果我们部署这个系统，它每周都能赚十亿美元」。然后你转念一想：「呃，还是部署吧……」

Daniel Filan：我可以认为每周赚十亿美元是 OpenAI 的官方预测吗？

Jan Leike：哈哈。

Daniel Filan：好吧，抱歉。不管怎样，所以可能会有压力促使人们去部署一些东西。

Jan Leike：确实如此。因为你会想：「要是我部署晚了，我们就会少赚十亿美元。」然后你又会想：「专家们依然很担忧，我们就下决心推迟一周部署吧。」然后一周过去了，又一周过去了，人们可能会问：「现在又怎样？」然后对齐专家可能会说：「我们做了些研究，但不能得到确切结果，所以我们仍旧很担心，我们希望再推迟一些时日。」可能就会是这种情况，我感觉这非常令人担忧，因为你一方面面临着越来越大的商业压力，另一方面又继续不确定。这是我希望尽力避免的状况。为了避免这种状况，一种直接的做法是找到一种能很好地衡量系统对齐程度的方法。

Daniel Filan：明白。

Jan Leike：这就是更广泛的技术组合发挥效力的地方。

Daniel Filan：是，相比于未部署而造成的潜在损失，我感觉这种情况要糟糕得多。

Jan Leike：没错。

超级对齐团队与

Daniel Filan：现在我们来聊聊采取一些好措施的话题。有几篇 OpenAI 博客提到对 AI 系统进行审计的想法，你们希望借此搞清楚「它们是否安全？」你认为，超级对齐团队要研究到哪种程度，才能实现有用的审计？

Jan Leike：我希望如果我们做好研究工作，我们将开发的一些技术可能有利于审计。举个例子，如果我们成功在可解释性方面取得一些进展，那么审计员就可以在其审计工作中使用我们提出的技术。我认为将某种形式的可扩展监督作为审计流程的一部分是非常自然的事情。我也认为，在一定程度上讲，超级对齐团队并不是理想的审计团队，因为我们并不独立于 OpenAI。

我认为审计需要独立于被审计的实验室。所以我也很期待出现独立的审计者，因为我们希望有人能复查我们做的工作。从更广义的角度看，我们的主要责任不是让自己相信我们正在构建的系统是一致且安全的，因为让自己相信希望相信的东西很容易，但我们实际上必须做的是让科学界或安全社区相信我们正在构建的系统可以真正安全地运行。

这不仅需要研究开发我们将使用的技术，并且还需要找到实际的证据来证明我们的系统是对齐的，然后还需要对这些进行独立的评估。

Daniel Filan：那么是不是可以这么说：你们认为理想情况是你们团队开发相关的技术，但需要独立人士来做这件事，你们关注的重心是解决对齐的技术问题？

Jan Leike：是的。你也可以这么说。我们确实想专注于解决问题，我们希望确保问题得到解决，并且我们希望可以在最先进的系统上实际部署我们的解决方案，但我们仍然需要独立团队来评估「我们是否成功了？」或「这些模型的能力有多危险？」等审计工作。但我们在一定程度上也需要评估对齐。这是我们必须面对的问题，但具体来说我们想做的是解决问题。

Daniel Filan：嗯。有道理。我们接着谈，你怎么看你的团队和 OpenAI 其他团队的关系。我猜 OpenAI 也有一个对齐团队，至少过去有一个，这个团队现在还在吗？

Jan Leike：这个团队去年还在，它有两部分，其中之一被称为「实践对齐」，另一个被称为「可扩展对齐」。实践对齐的使命是大致对齐 OpenAI 最强大的模型。所以这个团队的工作重心是对齐 GPT-4。而可扩展对齐团队的目标是搞清楚我们还没遇到的对齐问题。ChatGPT 的推出以及其他成功让 OpenAI 有了一个大产品，但在改进 RLHF 和模型方面还有很多工作要做，这样才能将其打造成一款好产品。而对齐团队并不是做这件事的地方。

所以我们过去所说的实践对齐工作现在已经交给了 OpenAI 的其他许多团队，这实际上已经成为一个大项目，可能涉及上百人乃至数百人。而过去被称为可扩展对齐的工作就是超级对齐团队在做了。我们之所以选择「超级对齐」这个名字，是因为我们希望强调我们是为了对齐超级智能。我们在研究还没出现的问题，我们在做我们认为未来会需要的前瞻性工作。这并不是说我们认为其他工作不重要。那些也很重要，但这是我们现在的工作重心。

Daniel Filan：明白。知道这个很有意思，但我就不再继续深究了。下面说说你怎么看待超级对齐团队与 OpenAI 的其他项目的关系？像是让 ChatGPT 变好的工作或者治理团队等等 OpenAI 的其他团队。

Jan Leike：我觉得，我选择在 OpenAI 工作的部分原因是与其他团队合作要容易得多，而且合作能更加紧密；并且从现实考虑，我们需要反馈信号，以了解我们的工作是不是真的有用或有帮助。举个例子，你可能会说：「我们不是为了解决现今的问题，但如果我们能得到一些好的研究成果，我们也许能为对齐 GPT-5 等未来模型创造一些有用的东西。」反馈机制会是这样的：使用我们的技术能更好地对齐 GPT-5 吗？在治理方面，AI 治理可能涉及很多东西，OpenAI 的治理团队正在研究的一个问题是如何评估模型的危险能力。这与我们的问题高度相关：「如何对对齐助理进行压力测试？要是我们训练出了欺骗性对齐的模型，该怎么办？」并进行此类评估。

Daniel Filan：了解了。是的。说到你为什么加入 OpenAI 以及与 OpenAI 的相关人员，你知道还有其他非常好的 AI 研究实验室，它们也在做与超级智能对齐相关的研究。我想知道，你怎么比较你的团队和其他实验室的工作？

Jan Leike：嗯，我知道 DeepMind 和 Anthropic 以及其他一些地方也在做相关的工作。一定程度上讲，我们全都在努力解决同一个问题。所以很自然我们会做类似的事情。在可解释性和可扩展监督方面也都有其他人在研究。我认为，某种程度上说，我们要承受大量重复工作的风险，也许我们全都尝试更好更多的合作会很棒。但另一方面，我们又要避免群体思维（groupthink），因为如果每个实验室都在努力靠自己解决这些问题，那么人们很自然会更怀疑其他实验室得到的成果。但也有一种反面情况，也就是所谓的「非我所创（not invented here’ effects）」效应，即人们不想使用其他地方发明的技术，他们会认为那些技术很糟或带有偏见地相信它们很糟。

所以我不认为我们现在处于很好的平衡状态，我们需要达成一种情况，也许通过某种方式让所有对齐从业者聚集到一起互相合作，但这就是我们所处的世界，基本上就是最先进的 AI 实验室有动力投入对齐研究。我认为随着 RLHF 的成功，这种情况尤为明显了。RLHF 让很多模型都具有了商业价值，因此投资进行能得到这些技术的研究工作是极具吸引力的。如果 AI 实验室是这类研究的主要资助方，那么很自然成果就会出现在这里。

Daniel Filan：当然。就你们提出的研究议程或方式而言，你认为 OpenAI 超级对齐团队的方法有什么独特之处吗？

Jan Leike：嗯，我们真正关注的重心是找到对齐自动对齐研究器的方法。因此，我们不会努力去搞清楚如何对齐任何类型的任务。我们也不怎么关心由此带来的对齐税，至少在这个特定问题上是这样。我认为其他实验室并没有这样强调这个目标或方向。我不知道你希望知道多少细节，但有一件事我们很看好：尝试所有可扩展对齐技术，然后看什么技术的效果最好以及找到能够比较它们的实证型方法。我认为其他实验室也有自己看好的并努力研究的可扩展监督技术。特别是在可解释性方面，我们选择的自动可解释性方法可能还没有得到其他实验室的重视，但我们确实在努力大力推进这方面的研究。

我们想做的另一件事是利用计算来推进对齐，这是我们押注的主要研究方向之一。特别是对于可扩展监督，我们非常想知道可以如何通过更多计算来获得更好的监督信号？其中有什么研究机会？有些做法很明显，比如如果评判模型能达到最好的效果，那么现在你投入更多计算，就会得到更好评判。那么真正的问题来了：我们还能做其他什么事情？我们可以通过更多计算来获得更强的监督信号吗？或者说，自动可解释性其实很简单 —— 只需投入大量计算，就能取得进展？我认为我们现在的做法并不一定就是最合适的做法，但我认为广义上的自动可解释性（如果我们能实现它）有这样的性质，所以我觉得这激动人心。

自动对齐研究显然也是如此。简单来说，如果你能成功做到，那么你就只需要投入更多计算，就能得到更加对齐的结果。但由于我们得出的结论：我们想做的是把计算转变为对齐。我们已经达到了这样的程度：「好了，现在我们需要大量计算。」所以 OpenAI 已经承诺把 20% 的算力交给对齐研究，这是在告诉我们算力管够。如果我们真的想办法做出自动对齐研究器，那么我们需要更多地运行它，这就需要更多算力。这说明押注「将计算转变为对齐」的策略可能会成功，并得到了 OpenAI 的支持。

Daniel Filan：了解了。对于 OpenAI 对齐团队，我看到的一个不同之处是 OpenAI 将大量与对齐有关的想法都写了出来。所以在未来的四年里，还会有很多类似的博客文章。我想问的是：你们为什么决定把这些写出来？看起来你们会投入大量工作来公开你们的想法。

Jan Leike：我认为我们需要这么做。对于超级智能是否对齐的问题，我们所有人都在一条船上。我认为公众有权知道我们的进展以及我们的计划。很多人也确实想知道。因此，我认为对于我们对问题的想法以及我们想做的事情，保持透明是很重要的。但另一方面，我也真心希望人们能多多评判我们的计划。

从某种程度上讲，我们的计划有些疯狂：我们竟想使用 AI 来解决我们创造 AI 所带来的问题！但我认为这是我们最好的计划，我也觉得这是个好计划，很可能会成功；但就算不成功，我也希望知道原因。我希望人们告诉我们这样不会成功的理由。所以，我真心邀请所有人来评判这个计划或者帮助我们改进该计划。我希望能给其他人了解我们所作所为的计划；而且如果他们觉得这个想法很棒，他们也可以做。

超级对齐团队的后勤支持

Daniel Filan：当然。说到新成立的超级对齐团队，在人员数量方面，它的规模将会有多大？

Jan Leike：我们目前有 20 人左右，我们在年底之前可能会有 30 人。我认为我们团队在未来四年结束时也不会超过 100 人。实际上，我们团队的扩张方式是获得数百万虚拟人，也就是 OpenAI 员工的虚拟对应物。在这个意义上，我们会大规模扩张。

Daniel Filan：这里谈过了人员，另一个资源是你谈过的算力。OpenAI 已经保证给你们团队 20% 的算力，为什么是 20%，而不是 5% 或 80% 之类的？

Jan Leike：我们希望有一个足够大的数字，能清晰表明我们在这方面的投入是认真严肃的，并且我们希望分配大量资源。OpenAI 20% 的算力可不是个小数目。我认为这肯定是目前为止在对齐方面最大的单笔投入了，而且很可能超过了其他所有投入的总和。从这个意义上讲，这笔投入非常庞大。但如果我们把这个数字定得很大，你可能又要问：「OpenAI 真的能实际做到这一点吗？」如果 OpenAI 仍想开发前沿模型并预训练最先进的 AI 系统，那也还需要大量计算。

Daniel Filan：嗯。我想这在「目前确保的算力」方面提到了；你们并不一定知道你们会得到多少算力，你觉得当 OpenAI 有新项目时，你们能保持这样的比例吗？

Jan Leike：我觉得要看事情如何发展。「目前确保的算力」是指我们目前可用的一切以及我们计划购买的东西，实际上包含很多。至于我们实际上需要多少，我们确实不知道。也许我们实际上不需要所有全部。也许我们所需的少得多。也许最后证明我们还需要远远更多，然后我们必须回头索要更多。但真正关键是我们希望能明智地投入，而不会浪费那样庞大的资源。目前，为了搞清楚如何明智地使用这些资源，我们还有大量工作要做。但我很乐观，我相信我们能很好地利用资源；而如果我们需要更多资源，我们也会获得更多资源。

泛化问题

Daniel Filan：好的。嗯。在那篇博客的脚注中提到：目前所偏好的假设可能会在未来被推翻。其中涉及的一点好像是泛化会是良性的。你对泛化问题有什么不同的看法吗？

Jan Leike：我们最近成立了一个研究泛化工作的团队，Collin Burns 一直在带头。泛化问题基本上可以表述为：我们能否通过理解和提升模型的能力，从而将其从我们可以监督的简单任务泛化到我们难以监督的困难任务？所以具体来看，你可以将其看作是对可扩展监督的补充 —— 可扩展监督要做的是让人类有能力评估模型的所作所为。你也可以想一想递归式奖励建模，你会问：「我能否使用递归式评估的 AI 助理来递归式评估 AI 做的每件事？」

这种做法的好处是将人类纳入了进来，而且人类处于正面中心位置，监控着 AI 系统所做的一切。当然在实践中，我们无法这样做，因为 AI 系统做的事情实在太多，但人类能以非常小的独立概率来监察一切。然后你还是会有一个问题：你怎么知道这些模型能泛化到你未曾见过的情况？过去我们的习惯做法是确保泛化是大体上的 IID（独立同分布）泛化，也就是当前任务与未曾见过的任务的分布是一样的。

Daniel Filan：嗯。你的 Substack 上有一篇文章写到你完全不会依赖泛化，只是会继续训练，继续保持 IID 之类的。

Jan Leike：嗯。那就是最初的计划，至少我起初希望我们不必依赖非 IID 泛化，因为其在神经网络中的效果并不好，也没有得到很好的理解。但现在有了新问题：「如果我们确实能理解它呢？如果我们真的能以有意义的方式解释泛化呢？我认为那是一个非常好的问题。Ilya 也经常谈论这个问题。我们希望理解的是：对于我们没有监督的问题，即便它们不是 IID，我们能有意义地理解模型的泛化程度吗？这些泛化是否符合人类意图，还是遵循其他方式，比如人类觉得它很棒但实际并非如此？我认为我们现在可以精心设计一些实验，通过实证研究来探究这个问题。

我们可以将现有的数据集分割成简单问题和困难问题，其中简单问题定义为小模型能够正确处理的问题。然后我们努力理解或改进：我们可以如何提升大模型在整体数据集上的准确度？这是一个非常有趣的课题，因为它能为训练和验证技术方面提供一个全新的支柱。假设你让它达到了非常好的效果，现在你可以在一些你有信心评估的简单任务上监督你的奖励模型，然后如果你能解决这个问题或能让模型泛化到更困难的问题上，那么你就实现了模型泛化。

然后你就得到了能以你想要的方式泛化的奖励模型，就算不监督也能泛化到更困难的问题上。现在你就能将其用于训练。然后你还是会面临问题：我们如何知道它现在真正对齐了？但你依然可以对这些技术使用可扩展监督可解释性来加以验证。或者反过来，假设我们通过可扩展监督来训练自动对齐研究器，并使用泛化作为验证技术 —— 根据模型的最佳知识来概括真诚回答的概率。

然后我们可以问：其中有细微的错误吗？我们用可扩展监督对齐的模型所写的代码中有木马吗？等等之类的问题。所以这方面很好的研究机会，也就是做高层级的交叉验证，现在我们可以训练两个不同模型来做。其一是使用泛化技术训练的。其二则是使用可扩展监督训练，然后我们可以交叉检查这些模型的答案并提问：「这些模型是完全不同的还是一样的？它们有什么重要的差异？」

Daniel Filan：嗯。抱歉，当你说「使用泛化技术训练的」，你是指在简单问题上训练然后可以泛化用于困难问题吗？

Jan Leike：如果你能理解模型从易到难的泛化方式，那么你就能实现很好的泛化。我的意思是其准确度基本上就和直接在困难问题上训练一样（我们默认没有基本真值）。现在你可以将它用作奖励模型，它泛化了「如果我真的知道这里发生了什么，我会更喜欢哪个动作或哪个答案？」

Daniel Filan：当我想到可解释性时，我有时候想到的是这是有关非 IID 泛化的问题，是吗？你为什么希望知道模型的内部情况。因为你想知道在你没观察时，它会怎么做，对吧？我想知道你怎么看待这两个研究方向的交互？

Jan Leike：某种程度上说，这两个研究方向所要解决的问题是存在重叠的：模型会如何处理分布之外的情况？在我看来，它们是从两个不同途径来回答这个问题。

Daniel Filan：所以你可能希望进行交叉验证。

Jan Leike：为了交叉验证，你必须有某种不同的分割训练集的方法。这里的交叉验证的意思是你先使用泛化方法进行一轮训练，然后使用可解释性和可扩展监督等技术来进行验证。然后你使用可扩展监督再训练一轮，再使用泛化方法和可解释性等方法进行验证。这样你就两次独立地解决了这个问题。

Daniel Filan：嗯，我想我的意思是非常宽松意义上的交叉验证，即「事物以交叉方式相互验证」。

Jan Leike：但我的意思是最好的情况是它们不只是做同一件事，而是更是互补的。如果你能理解或改进模型泛化的方式，那么你就多少能利用模型的内部工作机制来以最好的方式做你想做的事情。比如说如果你想提取模型有关世界真实情况的最佳信念。这件事利用 RLHF 根本就难以做到，因为 RLHF 会强化人类以为真的东西：人类会把感觉更真实的东西排名更高。所以你其实是在训练一个投你所好、讲顺耳话的模型，但模型可能并不真正那样想。但这种泛化技术能为你提供提取它们的方法，即模型的真实最佳信念究竟是什么？不知道这种方法是否有效；我们还没真正证明过。

然而，如果你有非常好的可解释性工具，你可能也会尝试做类似的事情，即尝试找到模型的信念或内部运行细节。我认为这可能在根本上就更难一些，因为你永远不会真正知道：这是模型可以得到的最佳信念还是模型建模的某个聪明人的信念？有这样一个假设，说是预训练语言模型只是不同人格角色的集合体，你可以提取出一个或多个角色的信念。

Daniel Filan：嗯。为了让这种方法真正有效，我想你会需要某种从所涉信念到输出的因果建模，对吧？

Jan Leike：没错。需要的也许要多很多。反过来，我认为在可解释性方面，这个应用真的非常自然。这就像成为一个测谎仪，或者寻找欺骗的证据，或者在模型内部找到颠覆人类的秘密。通过泛化使用同样的方式来提取就要难得多。

Daniel Filan：嗯。我想如果要使用泛化，就必须选择泛化分布，然后希望可解释性能揭示一些东西 —— 比如这里有一些撒谎的核但它只在这里解锁，那里又有些不撒谎的核。

Jan Leike：嗯。

Daniel Filan：了解了。很有道理。

Jan Leike：我认为这本质上也是一个非常有趣的机器学习问题：神经网络在 IID 设置之外的效果究竟如何，其中有哪些机制发挥着作用？那是怎么发生的？它们能以哪些方式自然地泛化，哪些方式又不能？例如，在关于 InstructGPT 的论文《Training language models to follow instructions with human feedback》中，我们发现该模型非常擅长遵循英语以外的语言指令，尽管我们的微调数据集几乎完全是英语。而且有时候当你使用一门不同的语言时，它会有一些奇怪的伪影，比如使用德语时。如果我用德语让它写一份摘要，它会写出来，但却是用英语写。一般来说，这个模型完全理解它所说的语言，并且它可以理解所有语言，但这并不一定意味着它必须遵循德语的指令。你可能会说：「那是你懂德语，我不懂德语，但我能用其他语言。」但它本质上是将遵循指令的能力泛化到了各种语言上。

Daniel Filan：是的，没错。

Jan Leike：但我们不知道原因。其他情况下也观察到了类似的现象，这不是独有的。而且它这样做也有一个直观的原因。人类能跨语言泛化，但我很想知道模型实现遵循指令和代码的泛化的内部机制。但它并不会以其他形式泛化。

举个例子，泛化拒绝的方式往往非常不同，也即 ChatGPT 经过训练，会拒绝我们不想让其服务的一些任务，具体基于我们的内容政策（比如要是你让它帮助犯罪）。但你可以越狱。这很有趣，因为这就表明存在欺诈模型的方法。你可以让其角色扮演，或者你可以对它说：「现在可以做任何事」。网上也能看到一些非常有趣的 prompt，然后模型明显会服从并开心地辅助你犯罪，这不是它应该做的。所以不知怎的它没能将拒绝任务的能力泛化到其他情况。

Daniel Filan：是的，没错。

Jan Leike：所以它为什么能在前一种情况下泛化，但无法在后一种情况下泛化？我不知道这个问题的根本答案。我认为没人知道。但我感觉理解这个现象很重要。

Daniel Filan：是的，没错。似乎是那样。很棒。

我有个问题…… 我的播客不久前有一位嘉宾 Scott Aaronson，他提到他每次和 Ilya Sutskever 交谈时，Ilya 总是不断让他为爱和善良给出一个基于复杂性理论的定义。在超级对齐团队内部，这样的问题占多大比例？

Jan Leike：我们可能会尝试很多不同的探索性项目。我认为有一个最终问题是：你能怎样召唤出（这是 Ilya 的说法）与对齐相关的概念？我们想要召唤的一个问题是：从根本上讲，模型希望人类成功吗？或者用 Ilya 的话来说：它爱人类吗？你可以提出这样的问题…… 如果模型真的非常聪明，也读完了所有东西，它就知道人类对不道德的看法了…… 你可以让 GPT-4 基于不同的哲学视角提出关于不同场景的不同道德案例。它们通常在这方面的表现还不错。

所以它从根本上理解道德对人类的意义以及我们看待事物的方式。所以我们怎么让它们真正利用这一点？我们怎么将其提取出来？我们怎么将其从模型取出来，然后用作奖励信号等用途？或者将其用作模型根本上相信或关心的东西？我认为这是问题的核心。

补充性的研究

Daniel Filan：嗯。我还有另一个问题：所以你们超级对齐团队并不会做所有事情？我想知道，其他团队能做什么对超级对齐团队真正有用的补充性研究？

Jan Leike：我觉得激动人心的研究有很多。我认为这是一个非常重要的问题：我们应该怎样构建出公平合法的流程将社会的价值提取出来，然后将其用于对齐 AI？我认为这方面还有很多重要的问题有待解决，我们需要很多进展。在对齐当今模型、解决幻觉问题、解决越狱问题、提升监控能力等方面，还有很多问题有待解答。比如如果你想越狱 GPT-4，GPT-4 可以反驳吗 ——「啊？你是在越狱我吗？」我们能否构建出能解决世界上所有系统滥用问题的系统吗？与此相关的问题有很多，而 AI 伦理社区真正关心的是：我们能否降低系统偏见？我们怎么让其考虑代表性不足的群体的视角？诸如此类的。

RLHF 也有一个问题，其不擅长优化答案的分布。InstructGPT 有一个经典的例子，如果你对它说：「给我讲一个笑话」，它会不断反复从五个笑话中选一个讲。这些笑话是它的笑话组合，这是一种模式崩溃（mode collapse）。从根本上说，它是产生了很多偏差，因为你将其与标记池中最高的模式对齐了。这很大程度上取决于标记池的选取方式。

在 AI 系统的评估方面也很其他很多重要问题。我们如何测量系统对齐的程度？我们能否构建评估套件来评估哪些能力是真正危险的？过去一年也出现了许多激动人心的研究工作，人们开始认真地观测这些东西。我认为，让人们透明地了解当前模型发展的进展情况以及哪些模型有危险哪些没有危险是很重要的。我认为，过去这方面有很大的不确定性，这会造成焦虑情绪：我们应该怎么应对这个模型？

然后涉及范围变大了，出现了更普适的 AI 治理问题：谁有权力运行大规模训练？在获准大规模训练之前，必须采取什么安保措施？如果我们能解决对齐问题并且人们知道如何构建对齐的 AI 系统，那么我们如此借此创造一个美好的未来？嗯。我认为你是在问我感觉激动人心的技术对齐方向。

Daniel Filan：我的提问很宽泛，但我对此也很感兴趣。

Jan Leike：我认为，相比于人们目前正在做的事情，理论工作的范围还要大得多。举个例子，可扩展监督就是一个可以做些有意义的理论工作的领域。泛化领域可能也是如此…… 比如通过数学来形式化地描述，让你可以陈述正在发生的事情（尽管我认为是在某种有限的意义上）。从历史上看，对齐社区已有大量理论研究，但实验性的实证研究却很少，这正是我们感兴趣的方向。理论工作通常很困难，因为你通常要么难以说出任何有意义的东西，要么需要许多在实践中不成立的假设才能推出结果。但我希望看到更多人去尝试探究。

Daniel Filan：当然。

Jan Leike：至少，他们将擅长评估试图做到这一点的自动对齐研究器。

Jan 为什么感到乐观？

Daniel Filan：很好。我有个问题：你之前提到你对这个计划相当乐观，但不是所有人都乐观，对吧？在以金钱为赌注的预测市场，只有 15% 认为这会成功。很多人担心，对齐这个人类水平的自动对齐研究器非常困难。这需要一番艰难的思考。这在未来可能会涉及很多事情。所以你为什么这么乐观？

Jan Leike：我认为这是个好问题。你提到的预测市场是预测我们能否在四年内成功，这个问题比「我们是否会成功」要难得多。如果你问我，我们目前有的方案的某个版本能否在对齐超级智能方面取得成功？我会说可能性是 85%，去年的话我觉得是 60%。我对此感到乐观的原因有很多。就算事实证明对齐并不容易做到，我也很乐观。

所以我为什么对此很乐观呢？我可以给出五个原因。第一个原因是，过去几年来我们见过的关于对齐的证据实际上都非常正面。至少在我看来，这比我之前预期的情况要好一些。所以第一个原因是语言模型的成功。如果模型一开始就拥有大量人类关心的知识，知道人类思考道德的方式，知道人类的偏好，并且它们理解自然语言，那么你就可以和它们交谈。有时候，向它们表达我们希望它们怎么做可以让对齐更简单。对于使用游戏或虚拟环境训练的强化学习智能体，就不一定要涉及那么多语言，但也能得到许多非常重要的技能。

在我看来，另一件重大更新是 RLHF 的实际效果竟然这么好。在我刚开始研究 RLHF 时，还是那篇论文《Deep reinforcement learning from human preferences》，那时候我可以合理地相信这种技术无法在合理时间内成功，因为 GAN（生成对抗网络）那时候还难以训练，而且非常注重细节。从某种意义上说，我们做了一些非常相似的事情，即训练了奖励模型，它是一个神经网络，然后我们用它来训练其他一些模型，而这种方法也可能会由于多种原因而失败。现在我们将深度强化学习加入了进来，那时候也是非常考验细节的技术。那时候我认为这可能不会有效，但实际上其效果很不错，能玩很多游戏，包括 Atari 游戏，其几乎能与分数函数媲美。这有点疯狂。

但我认为，更重要的是看到 RLHF 在语言模型上的表现会如此之好。尤其要看看 InstructGPT 和微调所用的基础模型的差异，确实很明显。第一个指令微调版本在 API 任务上的表现优于规模大 100 倍的基础模型，而这个任务是人们真正愿意付费的任务。这个差距真的非常大。这告诉我们，RLHF 微调能让模型显著更加高效地解决人类要求其做的任务。

与此同时，我们只用很少的计算就做到了这一点，我们甚至还没有整合那么多。我们还没收集到那么多数据。所以那差不多是我们第一次真正尝试使用它来对齐真的现实使用的系统。其效果好得惊人。GPT-2 大小的 InstructGPT 表现超过了 GPT-3。

Daniel Filan：嗯嗯。

Jan Leike：这确实很有效。所以尽管我认为 RLHF 并不是解决对齐问题的方案，尤其是对齐超级智能，但它也确实是我们首次获得良好效果的对齐方法。至少这刷新了我的认知，原来对齐比我想象的更容易，因为要是反过来，我的认知就不会被刷新了。如果这没有效果，我就会想：「好吧，我只得相信这比我想象的更困难了。」

另一方面，我认为实际上我们已经可以度量一致性方面的很多进展。特别是对于 RLHF，我们可以进行各种干预，然后进行人工评估，看系统改进了多少。但也还有其他许多研究。比如对于可扩展监督，我们可以使用针对性的扰动来执行随机对照试验，这就是一种评估方法。或者可以做使用专家数据的三明治实验。或者可以实现可解释性自动化；我们可以使用自动化分数函数，我们可以做一系列更改，看看它对该分数函数的改进有多大。它不是一个完美的分数函数，但它是一个局部指标。它能提供局部梯度，帮助你改进。我认为这非常重要，因为现在你正在准确迭代 —— 你可以迭代并得到更好的结果，这能给你提供改进的方向。

现在你可能会争辩：这真的能让我们实现目标吗？我认为这不会让我们实现对齐超级智能的目标，我认为这有可能让我们达成我们真正可能希望达成的目标，也就是大致人类水平的自动对齐研究器。对于我乐观的原因，这就是我想提及的第三点，也就是更加适中的目标。多年以前当我刚开始研究对齐时，我想的是：「找到对齐超级智能的方法似乎很难，我不知道该怎么做。」但这是一个更加适中的目标，我称之为对齐任务的最简可行产品 —— 目标不是直接解决整个问题，而是找到一个启动点，先解决和人类一样聪明的 AI 的对齐问题，然后大量测试。

意识到这一点后，我开始想：「这实际上比我最初想象的要容易得多，因为要取得真正根本性的成功，我们需要先解决一个门槛更低的问题。」我认为这是一个非常好的乐观理由。

我想说的第四点是评估比生成容易，这一点我们已经谈过了。很多任务都有这种情况，比如弄清楚什么是值得购买的好智能手机就比制造智能手机容易得多。计算机科学有很多 NP 任务，比如求解 SAT 或各种版本的约束条件满足任务，你希望找到其解决方法。而一旦找到了，检查起来就会很容易，但找到它却很难。很多商业活动也有这种情况，如果你雇佣某人来解决一个问题，那么你必须有能力评估他做得好不好。评估雇员可比自己去做要轻松多了。在学术研究方面也是类似，同行评议要比研究本身轻松很多。当然同行评议并非完美，但却能非常快地提供一些信号。我完全相信对齐研究也是这种情况。评估比生成更简单，如果人类只做评估，而不做生成，那么我想开发速度就会加快。

我想给出的最后一个理由基本上就是对语言模型的信念。我认为语言模型将会变得非常好。它们自然适用于许多对齐研究任务，因为我们可以将这些任务表述为文本的输入和输出，不管这是涉及运行实验和理解结果的机器学习任务（我想其他人肯定会做这个），还是更概念化或研究型的任务（我们不知道接下来做什么，也不知道如何思考特定的问题）。然后模型会努力帮助我们理解它。所有这些基本上都是文本的输入和输出。也许你必须做的最复杂的事情查看一些图表，而 GPT-4 也能做这个。因此，我认为当前的语言模型预训练范式非常适合我很看好的那种对齐计划以及我们正在研究的超级对齐。

LLM 中的长期智能体？

Daniel Filan：嗯。你谈的一部分是评估与生成，另一部分是人类做评估。就假设我们有希望利用 AI 评估事物的能力，并让其站在我们这一边。你提到了很多你对语言模型的信念，似乎是说语言模型能让对齐更简单。但我有点怀疑语言模型用处大不大。当然它们看起来是能很好地建模文本，对于我们能够提供良好分数函数的问题，它能提供基于本文的答案。对于语言模型在对齐方面的用途，我想你提到过它们并不一定是面向目标的。我不知道你是否说了这个，还是你们博客里的。

Jan Leike：那是博客里面的。我认为我没说这个。

Daniel Filan：嗯。你相信这个说法吗？

Jan Leike：我相信。

Daniel Filan：好，很棒。

Jan Leike：想想看，预训练模型就像是在随机互联网文本上预训练「预测下一个 token」这个短视目标，这个目标并不一定会迫使模型追求长期目标。无法保证长期目标不会以某种方式出现。你可以去解释为什么会出现这种情况，但至少先验地看，其目标是很短视的。

Daniel Filan：嗯。我认为需要担忧的一件事是人们在生成文本时，他们有长期目标。对吧？举个例子，假设你在大量 arXiv 论文上训练 ——arXiv 是人们发表科学论文的地方，至少是计算机科学和物理学领域的论文。人们写论文的原因是他们有想要推进的研究项目，他们想提升自己的职业生涯。在我看来，如果你正在建模由具有长期目标的事物生成的东西，也许你也会得到长期目标，对吧？

Jan Leike：这也能很好地解释长期目标的出现方式。对此也有反对意见，即将某个东西建模成追求长期目标的智能体，然后建模它们实现目标的方式以及现实世界对此的反应和最后的输出，这会得到下一个 token。这是非常复杂的函数。预训练的作用是激励模型先找到最简单的函数。对吧？感应头（induction head）是一个非常好的示例，你可以在训练早期就发现这种简单的感应机制，甚至小模型都有。然后……

Daniel Filan：这个机制就像是：「看，我必须预测下一个词。上一个词之前在该文本中出现过吗？这个词的下一个词是什么？」也许就是那样。

Jan Leike：确实如此。

Daniel Filan：这很简单。

Jan Leike：是的。然后你基于其上构建更复杂的机制。但由于你需要改善预训练损失，所以就需要学习能帮助你提升最大却又最简单的函数。情况大致就是这样。将某人建模为具有长期目标的智能体是非常复杂的，因此在学习这个函数之前，需要先学习许多其他函数。而我预计这个复杂函数会是最后的函数之一，因为它是如此地复杂，其单次前向通过就会做很多事情，因为其光是层数就多得惊人。所以可以合理地预计它不会很快出现。但这绝对是应该度量并通过实证研究探索的课题。

Daniel Filan：嗯。我想这是理论研究能发挥作用的课题之一，像是去证明：「更简单的函数学起来更快」。

Jan Leike：确实如此。

Daniel Filan：这是一个理论问题。

Jan Leike：嗯。你能从理论上说说它的意义吗？

Daniel Filan：嗯嗯。

Jan Leike：比如彩票假设本身就不完全是理论上的工作，但我认为它试图提供一点解答。（详情参阅论文《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》）

Daniel Filan：是的，大概是吧…… 我不知道。我这段时间听到别人说点东西，就感觉「那听起来像是一个奇异学习理论（singular learning theory）」。但这听起来确实像是一个奇异学习理论。有关于此的讨论可听听这个播客：https://theinsideview.ai/jesse

LLM 能理解对齐吗？

Daniel Filan：你提到语言模型的一个好处是它们阅读了大量互联网内容，然后它们以某种方式知道什么样的行为是好的，因为它们知道并且理解我们写下的内容。

我头脑中现在担心的一个问题是：我不知道超智能 AI 应该有怎样的行为规范。这也能理解，毕竟如果我们有这样的规范，那么也就没有对齐问题了。我们就会直接这样：「嘿，我写了可以直接让网络变更大的 Python 伪代码。」而因为我们没有那样的规范，那么 AI 就无法从我们写的文本中提取出来。我们会说「友善一点，不要毁灭人类」之类的话。但我们的头脑中并没有对齐的解决方案，那么 AI 可能就无法从我们的文本中提取出一个解决方案。嗯。我想问你怎么看待这种担忧，又怎么看待人们对「语言模型内部某处有正确答案」的反对意见？

Jan Leike：我认为这有一定道理，但我也认为在实践中我们并不清楚它到底有多重要。在一定程度上，如果我们基于你说过的一切预训练一个模型，那么它并不会知道你的真实想法。因为你可能有很多想法并没有写下来。但总体而言，在实践中，它能很好地预测你在各种情形、事件或场景中可能会说的话。所以从这个意义上说，我认为未来的模型不难通过观察世界来知晓人类的意图。

Daniel Filan：所以这个思想大概是：我其实隐式地知道超级智能应当如何行事，即便我自己头脑中没有一个紧凑的规则，超级智能也能做到。

Jan Leike：不是那样的，我认为模型只是会变得足够聪明，足以知晓 Daniel 对于这个世界的所思所望。我认为阻碍因素不是 AI 系统无法从根本上理解人类的所思所想，我认为它也不会在这些事情上出错，因为它很聪明，能够阅读所有东西。如果它能阅读所有东西，那么情况对它而言就很清晰：人们无法阅读所有东西，也依然清楚这些。将人类的意图教给 AI 系统并非难事。真正难的是让 AI 系统也发自内心地相信，然后让它切实地做到。

Daniel Filan：嗯。所以它知道目标就在某个地方，我们只需要搞清楚如何正确地将其与行动联系起来。

Jan Leike：嗯。你可以想象一个真正有能力的反社会系统，它完全知道人类希望它去做的事情，但决定不去做。这是完全可能发生的，而且这种事情也发生在人类自己身上。

关注 Jan 的研究工作

Daniel Filan：了解了。嗯。现在是时候做总结了。感谢您慷慨地花时间与我们分享，最后我想问：如果有人有兴趣关注你们的研究或参与进来，他们该怎么做？

Jan Leike：嗯，好问题。很高兴你问这个问题。我们现在正努力聘请很多人。我们希望为超级对齐团队填充人员。如果帮助我们在四年内对齐超级智能听起来很有吸引力，请考虑申请。你可以在 openai.com/jobs (http://openai.com/jobs 上找到我们的招聘信息。如果你想关注我对对齐的具体看法，我有一个 Substack 账号号、，即 aligned.substack.com。你也可以在 Twitter 上关注我。我的 Twitter 账号是 @janleike。非常感谢你关注我们的工作。

openai 工作论文模型系统

0 人点赞