最近这段时间上了很多大语言模型,有企业的也有开源的,性能提升肯定是有的,只是总感觉名字千变万化,功能不离其宗,过去——其实就是不到两个月前——那种一天刷好几次邮箱看邀请码的激情跑得一干二净,现在就算拿到内测资格也躺了很久才打起精神去用。
这段时间印象最深的反倒是miniGPT-4,性能也许不是最佳的,但好在现在就能用,而且最大的优点就是让我吊了一个多月的胃口得到了满足,终于搞明白大语言模型的多模态该是怎样一回事。
这就要说到GPT-4。GPT-4的效果确实很好,不但效果好,而且作为下一代的ChatGPT是称职的。
就算不看OpenAI官方宣传的,GPT-4在职业考试吊打真人,实测理解能力和知识储备都比ChatGPT强不少,遇事不决问ChatGPT,ChatGPT也不决问GPT-4多半就能得到答案。去年说ChatGPT是最先进的大语言模型也许还有一点争议,现在再说最先进的大语言模型是GPT-4应该就实至名归。
GPT-4其实还留了一手,就是多模态问答。效果官方有过演示,牛在什么地方?我觉得是手绘图案线条 手机随机拍照丢进去,最后模型还给生成一模一样的网页前端代码。
这项演示看似随意,绝对是专门设计过的。不了解的可以留意一下,手绘图案线条 手机随机拍照可以说是图像识别最大的Debuff,别说这个了哪怕角度调整一下,甚至光线改变一下,模型都能给你识别出天马行空的玩意。那说的还是分类任务,而这里可以生成任务。
结果这两项Debuff叠上去,GPT-4毫无压力交出满分答卷。当时我看了倍感震惊,前一阵ChatGPT带起风潮NLP是哀嚎遍野,不知道现在CV怎样,尚能饭否。
非要说有什么不满意的话,这功能至今没开放使用,反倒是MiniGPT-4先让大家体验上了。不知道OpenAI在想什么。
接着说说下一代的GPT-4,有人说叫GPT-5。
ChatGPT出来以后我认为最大的不足,或者说提升方向有两个,一个就是多模态交互,另一个则是联网。前一个已经由GPT-4实现了,后一个也在做了,就是插件。
说说联网。模型联网这事挺重要,而且还应该细分出一个更广义的概念。
大语言模型再怎么厉害,也不可能把全部知识搜罗进去,知识面有限很可能成为限制大语言模型广泛应用的重要因素,说具体一点就是数据不足。
那怎么办呢?最直接的办法就是联网,互联网是当前人类最大的数据库。但肯定也有些数据是不联网或者不能联网的,那怎么办呢?上面说了,联网的本质就是查库,走别的渠道查库也行。
联网不一定就是上网,而是想办法让模型使用其它数据。这就是我认为的广义的模型联网。这个方向插件功能不能完全实现,不过大概意思是考虑到了的。
那么,GPT-5等等下一代大语言模型该加点什么呢?
OpenAI的下一代大模型未必叫GPT-5,不过,先不管名字,下一代最该加的肯定都是这一代最欠缺的,我认为就是真实性,业界俗称“模型幻觉”。我认为是阻碍大语言模型在生产环境中部署的重要障碍。
简单来说,模型幻觉( Hallucination)问题是当前大语言模型最突出的问题之一,也是大语言模型研究最重要的一个研究方向。什么叫模型幻觉?就是我们经常说的大语言模型“一本正经地胡说八道”。
这个我们都见过,也许已经习以为常觉得没什么,但仔细想一想,平日聊天打屁也就算了,真的在生产环境混进了模型吐出来的胡说八道可能会有非常严重的后果,比如说我们写论文用了模型生成的不存在的文献参考,导师发现了劈头盖脸骂一顿是免不了的。
被骂其实还是小事,要是刊发在知名度很高的期刊上面出去,那就是学术造假。类似的譬如新闻调查机构或者企业发布的什么东西出现同样问题,那就是公关危机了,如果涉及商业、经济利益,那事情就要复杂了。
之前专门写过文章:
你的工作会被AI替代吗?
简单来说,模型幻觉最大的问题在于模型不知道自己在胡说。知道了还好办,叫它不说就完了。可它认为胡说八道就是“真的”,真的以为那事就是这样,所以叫“幻觉”。
好改吗?不好改,大家都在研究,大家都说不好改。那下一代怎么改进?我想就两个字知道。如果技术还不能根本杜绝,至少从模型知道幻觉是幻觉开始。