OpenAi现在有点牙膏厂的意思了。
这次GPT-4发布可谓万众瞩目,最重要的升级就是多模态,也就是不止支持文本,还支持图片了。
前面ChatGPT很强大,但是有个明显的短板,就是只支持文本,半点图片都不能沾。结果表现越好,能力越强,短板越明显,对强迫症特别不友好。
前面对于GPT-4到底要升级什么,我猜得到,相信很多人猜得到,微软也提前剧透了,就是多模态。所以,这次万众瞩目的GPT-4点出了多模态的科技树,可谓众望所归。
不过,今天真的试了试,心情却很复杂,先不说这平均每小时25次的限制符不符合尊贵的Plus会员,但至少有一点,这次GPT-4的多模态我觉得只能叫半双工的多模态。
半双工是信息通信里面的词。什么叫半双工?通信都是一边收一边发的,半双工有个限制,要么只能收,要么只能发。最典型的就是对讲机,别看电影玩得挺溜,初上手都觉得挺别扭。没有限制的叫全双工。
这次GPT-4的多模态就搞了个半双工,只能收不能发,效果就是给出一张图片,GPT-4生成一段文字。这种图-文多模态过去也有许多,不过基本都停留在图上有只鸟,有辆车,有个熊孩子在打猫之类的看图写话水平。
但是GPT-4不一样,不是用更精致的文字语言来描述图上有什么东西,而是用了更GPT的方式。由于尊贵的Plus会员也没法发图,多模态效果只能看官方演示。有两个我印象很深,一个是根据一幅潦草的手绘来编写前端代码,制作一个布局类似的网页,另一个根据一张照片,照片上有鸡蛋和一些食物原材料,生成一份这些食材能做什么菜的菜谱。
没啥好说,这才是用GPT搞多模态该有的样子。
但是,问题还是很突出,那就是半双工。GPT-4仍然只能生成文字,不能生成图片,图文并茂的回复仍然只能在梦里。两个字,别扭。
是OpenAi能力不足吗?不可能。就算OpenAi赶工期来不及,直接后端接一个文-图生成模型总行了吧。这波Ai绘画据说都快把画师赶尽杀绝,用的就是文-图生成。始作俑者是谁?DALL-E 2模型,OpenAi家的另一位当家花旦。
没错,最早用文-图生成带出这波Ai绘画风潮的正是OpenAi,各位画师,别砸错别家店了。
是OpenAi觉得图片生成不重要吗?不可能。都说了DALL-E 2是OpenAi的当家花旦,而且点出了图片生成技能,可就不止文-图这么简单,还有图-图这种形式。CV的玩法很多,譬如什么语义分割,风格变化,不过说到底都可归结为图-图形式,图片生成一打通,想象空间和野心就能马上广阔起来。
是找不到训练语料吗?更不可能。C站就有成吨的现成语料,而且图片和提示文本已经一一对应,是爬是买多的是办法。就算看不起C站,前面就有训练CLIP时整理好了的高质量数据集,用GPT-4的图-文能力随便努一把力,想不到办法肯定要比想到办法还困难。
那为什么非得留个尾巴?不知道。
GPT-4这次公布技术资料动作很快,比起还在天国的ChatGPT论文,这次GPT-4的产品和论文是同步发布,当然,严格来说不叫论文,叫技术报告(Technical Report),说明OpenAi早有准备,而且图文并茂写了98页,粗看好像十分厉害。
仔细一看发现确实厉害,洋洋洒洒98页,关键信息是半点没有,用了多大的模型?不知道。用了多大的数据?不知道。用了多大的算力?不知道。98页,一问三不知,厉害厉害。
没有资料,下面就全是瞎猜了。为什么OpenAi要留给尾巴呢?我的观点前面就说了,三个字挤牙膏。GPT-4出来,ChatGPT就成了牛夫人,可是Google还跟在牛夫人后面边跑边喘呢,第二梯队更是连牛夫人的车尾灯都看不到,急啥,挤牙膏。
挤牙膏还有两个好处。一个给竞品留点门槛。这几天除了GPT-4,其它大模型也是风起云涌,斯坦福基于LLaMA搞出来的Alpaca,据说已经可以GPT-3.5五五开,而且关键是,这玩意要求低,才600美元就能训练,买不了吃亏买不了上当。
大模型最重要的门槛就是重氪,斯坦福这是用了什么理财黑科技么?还真是,用了GPT-3.5生成语料,最后反过来还要干掉GPT-3.5,这叫什么?这叫草船借箭,岂不妙哉。
在干这事不止斯坦福一家,还有好几篇用ChatGPT做数据增强都发了论文,大家都在琢磨怎样用OpenAi的氪金成果来跨过氪金门槛,只有OpenAi受伤的世界眼看就要形成了,OpenAi肯定得想点办法。想什么办法呢?文本生成已经无法可想了,那就想想图片生成吧。
第二是给留点想象空间。之前我说NLP已经不存在了,现在GPT-4出来,又有人说CV也不存在了。哪这么容易不存在,前面说了,很多CV任务可以归结为图-图,GPT怎么说也是NLP出身,估计也就做做分类还行,不可能马上就能在主流任务上制霸,急着放出来表现不好,还不如先扣着给大家留个念想。
最后猜一下GPT的下一步吧,其实也没啥好说的,就是图片生成,OpenAi说了要搞AGI,具体来说就是用大模型搞全任务制霸,现在江山打下一半,就差文-图和图-图,也就是剩下图片生成。我是不信OpenAi自己内部没有强迫症,把另一半也给占过来。