生成大模型能不能用在医疗领域

现在所有的生成模型（本来想严谨一点，加个“大语言模型”限定一下AOE，后来脑子快速过了一遍感觉不加也挺稳，欢迎打脸）都存在一个问题，就是“幻觉”问题。

只要生成模型还有幻觉问题，用来做开处方药或者其它什么姓名有关的任务，那就是要命的事。字面意义上的要命。

要说明白什么是大模型幻觉不太容易，首先给个清晰的定义就不太容易，即使有也很不统一。幻觉不是原生的人工智能术语，是从心理学进口的舶来品，心理学本身对幻觉定义就不统一。《Survey of Hallucination in Natural Language Generation》引了其中一种：

a percept, experienced by a waking individual, in the absence of an appropriate stimulus from the extracorporeal world

大概可以概括为凭空而来的感觉吧。这篇综述对模型幻觉也算给了一个定义：

NLG models generating unfaithful or nonsensical text

也就是生成了不忠实的、无意义的内容，都叫幻觉。

这种定义怎么说呢，人家都用上了形容词来叠甲，满满都是求生欲。虽然不好说错，可是要准确理解，形容词本身是不是也该追加一个定义？总之这种不好说清楚的定义，就算定义了也是陷入到无穷的套娃中去。

不过，好在大模型出来也有一段时间了，我们对模型幻觉有一个更接地气的表述，就是一本正经地胡说。这个表述不好钻牛角尖，一眼就是胡说的胡说算不算模型幻觉？当然也算。

总之，问题就出在这里：模型是会胡说的。最关键的是，模型不知道，谁也不知道，模型到底什么情况下会胡说，甚至还没有很好的办法判断生成的这一条是不是胡说。

模型胡说的危害大不大呢？得分情况。

对于简单的聊天打屁，胡说是无关紧要的。对于部分生产环境，譬如说用来应付老师布置的作业，胡说可能会把老师惹毛，但至少不会出人命。但像开药，特别是开处方药这类轻残重死的工作，是万不能交给生成模型的，不然真就叫草菅人命。

那么，要不要专门出台规章约束呢？

模型研究领域是很清楚幻觉问题的，但在模型应用领域则未必。我以前也不以为然，但最近刚好有个机会聊过，确实有医生对ChatGPT过分迷信了，觉得这玩意很先进，啥都会，开方抓药自然不在话下。更重要的是，不少大模型确实能够开方抓药，面上看起来确实挺像这么回事，只不过疗效怎样就不好保证了。

现在已经有很多领域限制使用生成模型，考虑的因素各种各样，其中之一就是真实性。这玩意未来不好说，但目前无解，哪家都无解。而且模型还有另一个研究不太提但同样严重的问题，那就是随机性。这一次准确回答了问题，不能保证下一次不出现幻觉，哪怕输入一模一样，回答照样可能跑偏。

生成模型毫无疑问是好东西，在医疗领域一定也能打出一片天地，不过，在推广应用的同时，一定要破除迷信，先把模型幻觉问题说清楚，哪怕一百次给出权威回答，仍然可能有一百零一次的要命瞎说。毕竟是性命攸关的地方，再谨慎怎么说都不为过。

0 人点赞