现在所有的生成模型(本来想严谨一点,加个“大语言模型”限定一下AOE,后来脑子快速过了一遍感觉不加也挺稳,欢迎打脸)都存在一个问题,就是“幻觉”问题。
只要生成模型还有幻觉问题,用来做开处方药或者其它什么姓名有关的任务,那就是要命的事。字面意义上的要命。
要说明白什么是大模型幻觉不太容易,首先给个清晰的定义就不太容易,即使有也很不统一。幻觉不是原生的人工智能术语,是从心理学进口的舶来品,心理学本身对幻觉定义就不统一。《Survey of Hallucination in Natural Language Generation》引了其中一种:
a percept, experienced by a waking individual, in the absence of an appropriate stimulus from the extracorporeal world
大概可以概括为凭空而来的感觉吧。这篇综述对模型幻觉也算给了一个定义:
NLG models generating unfaithful or nonsensical text
也就是生成了不忠实的、无意义的内容,都叫幻觉。
这种定义怎么说呢,人家都用上了形容词来叠甲,满满都是求生欲。虽然不好说错,可是要准确理解,形容词本身是不是也该追加一个定义?总之这种不好说清楚的定义,就算定义了也是陷入到无穷的套娃中去。
不过,好在大模型出来也有一段时间了,我们对模型幻觉有一个更接地气的表述,就是一本正经地胡说。这个表述不好钻牛角尖,一眼就是胡说的胡说算不算模型幻觉?当然也算。
总之,问题就出在这里:模型是会胡说的。最关键的是,模型不知道,谁也不知道,模型到底什么情况下会胡说,甚至还没有很好的办法判断生成的这一条是不是胡说。
模型胡说的危害大不大呢?得分情况。
对于简单的聊天打屁,胡说是无关紧要的。对于部分生产环境,譬如说用来应付老师布置的作业,胡说可能会把老师惹毛,但至少不会出人命。但像开药,特别是开处方药这类轻残重死的工作,是万不能交给生成模型的,不然真就叫草菅人命。
那么,要不要专门出台规章约束呢?
模型研究领域是很清楚幻觉问题的,但在模型应用领域则未必。我以前也不以为然,但最近刚好有个机会聊过,确实有医生对ChatGPT过分迷信了,觉得这玩意很先进,啥都会,开方抓药自然不在话下。更重要的是,不少大模型确实能够开方抓药,面上看起来确实挺像这么回事,只不过疗效怎样就不好保证了。
现在已经有很多领域限制使用生成模型,考虑的因素各种各样,其中之一就是真实性。这玩意未来不好说,但目前无解,哪家都无解。而且模型还有另一个研究不太提但同样严重的问题,那就是随机性。这一次准确回答了问题,不能保证下一次不出现幻觉,哪怕输入一模一样,回答照样可能跑偏。
生成模型毫无疑问是好东西,在医疗领域一定也能打出一片天地,不过,在推广应用的同时,一定要破除迷信,先把模型幻觉问题说清楚,哪怕一百次给出权威回答,仍然可能有一百零一次的要命瞎说。毕竟是性命攸关的地方,再谨慎怎么说都不为过。