世界模型算是比较前沿的研究,相较于其他 AI 话题,我觉得「世界模型」比较形而上,有点像是还没完全厘清的概念之争。
大家都知道,图灵奖得主、Meta 的 Yann LeCun 自己是「世界模型」的拥趸,但他同时又是大语言模型的喷子,曾经喷 ChatGPT 不如狗,认为走 LLM 的道路不会做出世界模型。
简单理解,世界模型是一个还未实现的目标,大语言模型则是通过训练大量文本语料得到的相对成熟的模型(比如 GPT-4 和 LLama2)。
而有不少人认为 LLMs 会很快触达瓶颈,然后无法通过 LLMs 迈向 AGI(通用人工智能),同时认为「世界模型」更贴近对真实世界的感受认知推理决策而不仅仅局限在文本内容,所以通过世界模型更可能实现 AGI。
所以这篇论文 尝试用 Meta 自己的 LLama2 模型(而不是 GPT-4 模型)去证明「大语言模型就是世界模型」,或者说「大语言模型可以是世界模型」,就,有点意思了…
这篇论文最重要的结论就是,大型语言模型(LLMs)获取了关于空间和时间这类基本维度的结构化知识,这支持了它们不仅仅学习表面的统计信息,而是真正的世界模型的观点。
延续论文结论往下想,如果 LLMs 是世界模型,那大家之前的争论还有啥意义;如果世界模型可以进化为 AGI,而 LLMs 就是世界模型,岂不是 LLMs 可以迈向 AGI 了…所以也不奇怪大家对这篇论文如此关注了。
什么是世界模型?
要聊这个话题,首先就要尝试给出一个「世界模型」的定义。世界模型是关于认识世界的一些抽象概念和感受的集合,它来源于人类对世界的体验和认知,后来才扩展到机器智能的领域。
在我看来,与其叫「世界模型」,不如叫「心智模型」(这是我自己的看法,不是严谨定义),因为世界模型主要强调的就是不需要专门训练学习而自发认知到的那些「常识」,这些常识可能来自于基因深处,来自于生物体对世界的天然的感知,比如重力,比如色彩,这些天然的常识往往与文字无关,甚至无法用语言准确描述,而与感官感受有关。
所以我会说,世界模型更像是一个概念游戏,因为世界模型强调感官、直觉、常识。换句话说,世界模型对人或者生物来说是不言而喻的从感官习得的常识,但对机器来说就是无法逾越的意识限制,毕竟机器没有生命,不能自主地去感受世界,不能靠直觉在未经训练的情况下自主决策。
如果说真的能实现 AI 领域的世界模型,那么从文字定义上讲,甚至可以说是诞生了「数字生命」。
为什么有人认为大语言模型不是世界模型?
前面提到,支持世界模型的人认为,ChatGPT 之类的 LLMs 只是学舌的鹦鹉,认为单纯依靠对大量文本的死记硬背、随机拼凑,是不可能产生对世界真正的理解的,一个简单的佐证在于,大语言模型很容易给出一些违背常识的、甚至在几岁的小朋友来看来都可笑的幻觉回答。
在一篇去年的论文 里,Yann LeCun 引用了一张关于儿童在哪些早期阶段产生对世界认知的时间轴图片,以此说明在儿童早期阶段,大部分只是都是靠观察自然获得的,而不需要外界干预。
如果拿类似的学习过程和 AI 学习的过程相比较就会发现,机器不能自主地通过观察并感受世界实现自我学习,也因此表现得缺乏常识。这也是为什么说 LLMs 不如狗,因为狗都天然地拥有对世界的感知能力,天然地明白重力、惯性、视觉、嗅觉这些真实世界的信息。
所以 Yann LeCun 会说 LLMs 不是世界模型是因为它们不能感知世界。
在 Yann LeCun 看来,如果能够构建起一个「世界模型」,最重要的两个因素是:
- 通过观察世界,从真实世界感知信息;
- 通过观察,预测未来可能得状态。
甚至再进一步,通过执行和观察结果,继续调整自身模型。
这些概念性的东西太哲学了,我的能力就只能理解、解释到这里了。这些观点和看法,在 Yann LeCun 去年的论文 A Path Towards Autonomous Machine Intelligence 里,有详细系统的讲述。除了论文,在 Introduction to Latent Variable Energy-Based Models: A Path Towards Autonomous Machine Intelligence 中也有一份类似内容的讲稿。
今年 6 月,Meta 发布 I-JEPA ,可以准确地分析和完成缺失的图像,被看做是探索世界模型的实践。可以参看:
如何证实大语言模型就是世界模型
不过在我看来,现在的证明都还比较早期,只能说在一定程度上观察到了大语言模型学习了时空维度知识,但距离论证 LLMs 就是或者说一定能实现世界模型还不够充分。
意义何在?
前面已经说过了,「大语言模型」和「世界模型」是实现 AGI 道路上的「路线之争」,如果论文可以证明「大语言模型」就是「世界模型」或者可以实现成为「世界模型」,即使不是成为「世界模型」的唯一方式,也在很大程度上消弭、整合了两条路线,能更好地推动对 AGI 的研究。
总之,大语言模型究竟是不是世界模型,如果不是,二者谁能够真正实现 AGI,这些问题都需要更多时间、更多研究去检验,而我充满期待。