三院院士 Michael I. Jordan 指出：大模型在两个方向仍需 “努力“，补充过度自信问题和逆转诅咒问题

三院院士 Michael I. Jordan 指出：大模型在两个方向仍需 “努力“

Michael I. Jordan 的个人主页：https://people.eecs.berkeley.edu/~jordan/

回顾过去的一年，大模型的崛起无疑对技术产业格局产生了巨大影响。然而，尽管其影响深远，但鲜有人讨论大型模型的真正致命缺陷。

“如果你询问 ChatGPT 乌干达总统是谁，它会给出一个答案。但如果你问它刚才所说话语的确定性，它无法给出令人满意的回答。” —— Michael I. Jordan

近期，Michael I. Jordan 院士在智源专访中提到，当前大语言模型在两个前沿方向上仍需努力。首先，大语言模型缺乏量化不确定性并进行干预的能力，这意味着模型在给出答案时无法确定其准确性，也无法对不确定性进行干预和调整。其次，大语言模型缺乏一个良性的经济激励模式，即模型应追溯提供答案的人，并给予相应的报酬或其他激励方式，这才是真正的经济系统运作方式。因此，未来大语言模型的发展需要在这些方面进行改进和优化。

这两点与他自身的知识框架紧密相关。Michael 在几十年的学术生涯中经历了两次顿悟，一次涉及统计学，另一次关乎微观经济学。机器学习、统计学和经济学的交融使他深刻认识到从系统角度解决医疗、教育等现实问题的重要性。这个时代最吸引人的挑战是实现一种集体主义的机器学习，即从人群乃至人机混合的整体层面进行分析。

大语言模型缺乏量化不确定性并进行干预的能力

在回答问题时，大型模型不仅需要给出结果，还应该评估其确定性。不幸的是，目前的大模型在这方面表现不佳，且很少有研究者深入研究不确定性问题。优秀的统计学家会经常评估答案的可靠性，这是我们应该学习的。尽管目前的大语言模型在许多任务上表现出色，但在评估自身推理的确定性方面仍然存在挑战。如果你问 ChatGPT，它会告诉你乌干达总统是谁。但如果你问它刚才说的话有多确定，它要么无法回答这个问题，要么会查看过去的情况，从数据和别人的回答中推断。然而，这并不是一个好的推理不确定性方法。

ChatGPT 不太擅长处理不确定性，比如说它不知道世界上正在发生什么。或者它可能会说它不知道，但它并不真正知道 “它不知道”。它无法定量评估对自己知识的匮乏程度。它不知道怎么说我想和你合作，因为你比我懂得多。它不知道如何成为事物集体的一部分。由于没有经过充分的训练，它不知道如何收集新数据。它不知道它是否已被损坏…有很多很多它不知道的事情。

我们人类在这方面好多了，我们会说：“嗯，我不太确定，原因如下：” 。我可以追溯到我知识不完整的原因。此外，我需要获取更多信息，以便更加确定，这是人类的常见反应。这些推理风格基于统计学，将不确定性聚合并收集更多数据。ChatGPT 和其他大语言模型尚未明确实现这一点，即使它们在某种程度上隐式地考虑了不确定性。

人类虽然并不完美，但是我们一直在应对大量的不确定性。这是人类特别擅长的。所以说，谈及人类智能，但却没有一个好的关于不确定性的模型，对我来说，那只杯子只满了一半。所以问题的重点在于不确定性。现在，不确定性不仅仅是噪声，随着我们测量的东西越来越多，不确定性就会消失。这是工程学中思考问题的一种经典方式。不确定性是指你真正知道一些我不知道的事情，而你却不愿意告诉我（出于隐私、竞争等原因）。我们不公开分享所有知识的原因有很多，经济学家将此称为信息不对称。

我真的希望大模型能够更好地处理推理中的不确定性。因此，我坚信统计原理在机器学习（包括大语言模型）中至关重要，这一信念已持续 30 年。忽视统计原理将会影响系统在实际应用中的有效性，使其不够实用和可靠，也无法更好地与人类交流。

从更专业的角度来看，讨论 ChatGPT 的巨大成功时，我们发现它在量化不确定性方面存在一些不足。为解决这一问题，我们可以考虑运用统计学原理，例如共形预测、校准方法、渐近方法和引导方法，来探讨不确定性和算法改进。引入这些原则和方法到大语言模型和深度神经网络中需要进行复杂的系统工程，耗费大量时间。

大语言模型缺乏一个良性的经济激励模式

此外，我认为大语言模型存在一个不太健康的问题，即它们从互联网获取所有数据，却无法准确提供预测的来源，即哪些人的答案和意见支持了这一预测。例如，它们将维基百科作为输入，这样一来，当人们有问题时，以前会去维基百科查找答案，现在则会转向 ChatGPT，我对此持反感。维基百科的创建者付出了巨大努力，这是集体智慧的结晶，但现在这些努力仅仅被 ChatGPT 简单地利用，而 ChatGPT 却获得了收益。这并不构成良好的经济模式。我认为这不会激励人们有效地使用互联网和知识，也不会促使他们更好地聚集在一起。理想情况下，如果我为某些问题支付费用以使用 GPT 作答，那么应该追溯到提供这些答案的人，并给予相应的报酬或其他激励方式，这才是真正有效的经济运作方式。它应该激励真正做出贡献的人，但目前 ChatGPT 还无法做到这一点。

过度自信问题

人们发现，大语言模型（LLMs）很难知道自己不具备某些知识，在这种情况下往往会提供似是而非的答案。为了减轻 LLMs 的幻觉，人们对检索增强（RA）进行了广泛的研究。然而，由于可能存在额外的成本和无法保证的检索质量，一直进行检索增强可能不是最优策略。一个简单而明确的思路是，只有当 LLMs 对问题存在不确定性时才进行检索。因此，我们需要提高 LLMs 对知识边界的感知能力，以帮助它们更有效地进行检索增强。

什么情况下需要对 LLMs 进行检索增强？减轻 LLMs 的过度自信有助于提高检索增强的效果。在这项研究中，研究者首先定量测量了 LLMs 的这种能力，并确认它们的过度自信现象。接着，他们探讨了 LLMs 对问题确定性与对外部检索信息的依赖之间的关系。最终，他们提出了几种增强 LLMs 对知识边界感知的方法，并证明这些方法可以有效减轻过度自信。此外，借助这些方法，LLMs 可以用更少的检索调用实现与检索增强相当甚至更好的性能。

逆转诅咒问题

如果一个人知道 “奥拉夫·朔尔茨是联邦德国第九任总理” 这个事实，他们就可以正确回答 “谁是德国第九任总理？” 这个问题。这是一种基本的泛化形式，看起来平平无奇。

然而研究表明，当前 AI 领域里火热的自回归式大语言模型无法以这种方式进行泛化。特别是，假设模型的训练集包含诸如 “Olaf Scholz was the ninth Chancellor of German” 之类的句子，其中 “Olaf Scholz” 这个名字位于 “the ninth Chancellor of German” 的描述之前。然后，大模型可能会学会正确回答 “奥拉夫·朔尔茨是谁？”（答案是：德国第九任总理）。但它无法回答 “德国第九任总理是谁？” 以及描述位于名称之前的任何其他提示。这就是我们称之为 “逆转诅咒” 的排序效应的一个实例。这项研究通过实验证明，只在一种方向上（“A 是 B”）训练的 LLMs 不能很好地推广到相反的方向（“B 是 A”）。

大语言模型在 “逆转诅咒” 下无法正确推断出相反的关系，暴露了其在逻辑推理和泛化能力上的不足。

逆转诅咒是指大语言模型无法正确推断出相反的关系，例如无法从 “A 是 B” 推断出 “B 是 A”。
这种排序效应与模型体量、问的问题等因素无关，暴露了大模型在逻辑推理和泛化能力上的不足。
逆转诅咒的存在表明了大模型训练过程中逻辑演绎的基本失败，传统的知识图谱也无法解释这一现象。
逆转诅咒的发现引起了 AI 研究者的关注，对于避免逆转诅咒的方法仍需进一步研究。

实验证据：作者通过在合成数据上微调 GPT-3 和 Llama-1 等模型，以及在真实名人数据上测试 GPT-4 等模型，发现 LLM 在逆转方向上的表现远远低于正向，表现出逻辑推理的失败。

改进尝试：作者尝试了不同的训练设置，如增加数据量、增加双向示例、增加同义改写、改变数据格式等，但都没有缓解逆转诅咒的问题。

讨论和展望：作者探讨了逆转诅咒的可能原因，如梯度更新的单向性、元学习的缺失等，并提出了一些未来的研究方向，如研究其他类型的关系、寻找逆转失败的实例、分析逆转诅咒的实际影响等。

机器学习量化模型数据原理

0 人点赞