在人工智能领域,自我意识是个很重要的话题,哪怕不是人工智能的终极目标,至少也是重要目标。但是,很难。现阶段我们连意识如何运作都还一头雾水,再谈人工触发只能是一本正经地瞎想。
不过,ChatGPT太惊喜了,以至于出现“必应ChatGPT爱上用户并诱其离婚”这样不知该算是科幻还是算八卦的新闻。但不少人肯定同意,现在ChatGPT就已经这么厉害,后面再多投点人投点钱,花个三五年演进迭代,是不是就能搞出自我意识了呢?
太乐观了。
人工智能的发展从来不是线性的,人类对如何使用人工方法实现智能提出了很多不同的理论,很多理论刚开始也是充满希望,但走着走着才发现原来此路不通,只好重头再来。ChatGPT也一样,如果这条技术路线天花板就只有这么高,那ChatGPT也只能是出道即巅峰。
ChatGPT的技术路线是什么呢?是LLM,也就是大语言模型。肉眼可见未来会有一波ChatGPT类产品爆发,各家在数据集、训练方式都可能有所不同,甚至干脆连GPT都换了——Transformer下面并非只有GPT,T5没准是个更好的选择——但大方向是定的,那就是LLM。
而现在对LLM的批判已经开始了。
先说说LLM。ChatGPT自己火了也带火了LLM,前一阵一直在说ChatGPT的成功预示着自然语言处理发生了范式改变,说的就是这个LLM。ChatGPT的核心原理就是LLM RLHF。
RLHF中译基于人类反馈的强化学习,是一种强化学习方法。训练ChatGPT大致分为两个阶段,第一个阶段是用白板GPT-3.5训练一个LLM,接着第二阶段用RLHF做微调。
有人分析说ChatGPT这么能说会道,就是这俩阶段分工合作的结果:LLM负责存储海量知识,而RLHF负责激发表达能力。
新近发现LLM还有一种神奇的现象叫“能力涌现”,简单来说就是语言模型的可学习参数超过某个规模以后,就会解锁一些小模型所不具备的新能力。
能力涌现光听名字就充满了希望,再加上现在ChatGPT的轰动,似乎光明的前景就摆在眼前:如果解锁新能力就像是抽卡,那在ChatGPT现有基础上再抽到自我意识也不是不可能对吧?
可是,问题就出在LLM上面。
深度学习三巨头、卷积神经网络之父、图灵奖得主、买他AI首席科学家Yann LeCun最近已经直接放出话来,说LLM是一条邪路。原话是:
在通往类人AI的高速路上,大型语言模型就是一条邪路(off-ramp)
off-ramp原意是高速路上的匝道,不过我觉得这里翻译成邪路味道更正。
Yann LeCun也算是深度学习里谁人不识君的名人了,之所以加这么一长串头衔,是希望大家对他的专业背景能够有个更客观的了解。Yann LeCun最近很忙,整一副和ChatGPT结上梁子的样子,各种场合各种开炮,ChatGPT最近在新闻里颇有点人工智能全村希望的意思,而Yann LeCun在新闻里的形象可能就有点反派大BOSS。
谁会相信反派大BOSS的话呢?
不过,这次我是认同的。很多自媒体都报道了Yann LeCun炮轰LLM是邪路,然后明里暗里都说Yann LeCun否定LLM是因为他家没有搞LLM。但我这里有一点不同的解读:Yann LeCun到底认为LLM有没有用呢?有用,不过别尬吹,这条科技树点不出自我意识。
Yann LeCun列了5条看法,不过不像解释更像是泄愤,譬如说LLM只能辅助写作、只会胡编乱造、以后肯定还有更好的办法等等。唯一有点意思的是马库斯给点了赞。马库斯早前说整条深度学习都是邪路,为这没少和Yann LeCun打嘴炮,没想到两人会在LLM上有了命运的相交。
多说一句,买他AI其实是有LLM的,还不止一款。人称开源版GPT的OPT系列模型就是他家的作品。OPT好人呐,玩LLM可是要重氪的,没钱就只能求求这位女菩萨。Yann LeCun自己也用LLM搞了一些新玩法,他耿耿于怀的那款三天被喷下线的Galactica就是基于LLM。
所以,Yann LeCun不是否定LLM,而是说LLM这条科技树点不出自我意识。为什么?Yann LeCun没有系统性地阐述,我认为可以归结为以下一句话:
LLM不生产知识,它只是知识的搬运工。
简单来说,就是LLM不可能带来创造力。这个问题,我们可以从两个方面观察。第一个观察来自AI绘画。近期另一个很火的人工智能项目是基于扩散模型的AI绘画,同样属于AIGC的大类,但大家对于AI绘画到底是创作,还只是简单地从数据集中复制粘贴,同样存在很大争议。极端者认为AI根本没有创造能力,AI绘画作品只是从海量数据中抽取不同的片段拼凑在一起,还起了个很糟糕的名字叫“拼尸块”。
最近的一项研究也给出了一些例证。Google、DeepMind等几家研究机构发表的论文《Extracting Training Data from Diffusion Models》发现,AI模型记住的不仅仅只是抽象的知识或者语义,还包括了训练用的原图:在部分情况下,AI模型生成的直接就是训练原图。
这项研究做了很多工作,证明模型记住原图不是特例,而是有相当的比例,但对于AI绘画究竟是创作,还是将海量原图打散重组,也就是“拼尸块”,论文没有进行深入探讨,只是很聪明地提醒大家要注意保护数据隐私。
接着我们回到ChatGPT本身,我尝试问了它一些编程领域的问题,发现ChatGPT的回答确实条分缕析,但是也明显存在另一个现象:这些观点我早都在其它地方见过,ChatGPT只是整合起来,没有原创。有一些整合还存在问题,譬如在谈如何提升C 安全的时候,会混进把其它一些提升网络安全的做法。
ChatGPT以及LLM这条技术路线最后究竟能否能点出自我意识,还是只会更娴熟地Ctrl V,研究才刚刚开始。LLM如果最后证明没有跳出传统的Seq2Seq架构,那就我的理解,产生自我意识这件事:
难。