ChatGPT大杀特杀以后,最常问的问题之一就是能不能替代搜索引擎。最初我的回答是“不能”,现在我的回答同样是“不能”。
回答相同,但问题不同。最开始我认为大模型最大的问题在于极度消耗资源,新必应似乎也在说明,就算微软这种家里真的有矿的地主,算力也架不起大模型消耗。不过,对于这个问题,最近开源社区有了不少乐观的进展。
但是,还有第二个问题,而且非常严重。进入ChatGPT时代以后,大家都很焦虑,连医生、律师等等一大票光鲜亮丽的高端职业,忽然发现居然也面临着被AI替代的职业焦虑。不过,因为存在第二个原因,至少现在这些职业已经从死刑转成了死缓。
这个问题有时候会有一条长长的描述,譬如说模型生成内容失实甚至有毒。现在学界一般称之为模型幻觉( Hallucination)问题。
这几个月,有些媒体一直在忙着制造大模型焦虑,但如果你真的去用你就会发现,大模型真的要像他们说的取代这个取代那个,首先要解决的就是幻觉问题。
什么是幻觉问题?简单来说就是模型”一本正经地胡说八道“。
我不太确定术语最初的源头,不过,很多研究幻觉问题的文献都会提到一篇论文《Survey of Hallucination in Natural Language Generation》。这篇论文给出了幻觉问题的定义,方式很有意思。
现在大家谈到幻觉问题,大概都知道是指什么,但要下个准确定义不太容易。作者可能也觉得颇为棘手,所以首先引了一段心理学上的幻觉定义,说没有外界刺激却体验到的感觉叫幻觉。接着,作者说NLG也有一种类似现象:模型生成的文本可能出现不真实或无意义的问题。作者认为二者如此相像,所以干脆把模型的这个问题也称作“幻觉”。
二者相像的点到底在哪呢?这里我简单理解一下,那就是真实情况和感觉上存在差异。模型有没有自我意识这是个哲学问题,姑且不去深究,假设模型生成的内容是”跟着感觉走“,那么模型生成的内容失实,自然说明模型的”感觉“与真实情况存在差异。
这就是幻觉问题。作者后面还用了一长段文字描写幻觉问题的具体表现,用我们更熟悉的话概括,那就是“一本正经地胡说八道”。
注意,刚才我一直说的是“模型的幻觉问题”,而不是“大模型的幻觉问题”幻觉问题是生成式模型的通病,不是大模型特有,但大模型病得尤为厉害。
很多大语言模型甚至专辟一章介绍幻觉问题,OpenAI在发布GPT-4的时候就专门写了一段,说GPT-4的幻觉问题仍然存在,但较前有所缓解。这段话是写在Limitations里面的,我认为这说明OpenAI很重视这个问题,也做了一些尝试,有效果但不太理想,仍然属于模型局限性的重点部分。
那么,幻觉问题好不好解决呢?不好解决,原因有二。
第一个原因,研究幻觉问题的论文已经积累了不少,解决方法从模型结构到数据再到训练方法都有人提。效果怎样呢?前GPT-4已经剧透了,有效果,但也就只是有效。
根源在于第二个原因。上面替到这篇论文很长,讨论了很多话题。前面我们提到了”真实“,论文就以此进一步区分了内在幻觉和外在幻觉。
如果模型输入包含了一些事实,而模型的生成内容明显不符合,这就是内在幻觉。
各种意义上说,内在幻觉都比较简单,容易理解,也容易识别。外在幻觉则复杂一点。论文的说法是”生成内容无法通过输入内容证明或证伪“,都称为外在幻觉。
说起来拗口,举个例子就知道了。譬如我问”马里奥兄弟大电影的导演是谁?“,模型回答”宫本茂",这个内容就没法通过输入证明或证伪。
这就麻烦了,模型幻觉问题的影响远比我们想的范围要广。
现在到处都说生成式人工智能、生成式人工智能,看重的是什么?是模型的生成能力吗?不是!看重的是模型的创造力,从无到有的创造能力。
过去NLP的生成式任务,主要是翻译、摘要,最疯狂的也不过是风格变化。这些传统任务说穿了就是形式上的变化,最终生成结果不会增加新内容。不存在新信息,所以真实性完全可以通过输入内容来判断。
但是,OpenAI从GPT-3就开始注意挖掘模型在创作方面的能力,譬如说给小说编写一些剧情。这些任务就不再只是简简单单的形式转换,而必然需要增加新的信息内容。这就是模型的创造力。创造力放在上面这个分析框架下,就会有另一个名称,就叫模型幻觉。
第一次想到这里的时候,我觉得不可思议,肯定是我读错了什么地方。但是,论文作者显然已经预料到了我的困惑,还专门写了一段话:
外在幻觉未必就是错的,可能来自正确的外部信息源,但因为额外增加了信息难以验证,所以容易导致安全问题。
看明白了吗?为什么大模型的幻觉问题不好解决?因为它的病灶和它的价值长在了一起。
最后,回到最开始的问题,为什么我认为现阶段大模型还无法替代搜索引擎?因为大模型存在幻觉问题。
我需要在搜索引擎上搜某个问题的时候,通常说明我并不了解这个问题的答案,这时如果是用大模型返回一个结果,那么对于我来说,无论这个结果是真实还是虚构,我都无从验证。所以对我来说,这都是模型幻觉。
模型幻觉未必都是错的,但是,我们有多大的勇气,敢把自己的问题交给幻觉?如果对象不是搜索引擎,是医生呢?是律师呢?