先说结论:商业大模型范式可能发生改变,7B大模型标配开源成为免费体验版。
最开始ChatGPT刚出来的时候,我们都以为未来NLP甚至AI的开发范式是:巨头炼丹,虾米调参。总之,后端模型从此与散户无缘 。
后来买它开源了Llama,点开了开源大模型这条科技树,然后一发不可收拾。初代Llama其实不怎样样,但架不住开源的buf太强,巨头都瑟瑟发抖。现在出到2了,更不是同日而语,一句话,未来可期。
关于Llama专门写过文章,本该放在这里,总是忘了怎么插链接,后面想起来再补。
Llama点开的开源大模型科技树也颠覆了大模型原本应该出现的巨头炼丹、虾米调参范式,也颠覆了巨头想靠炼丹躺赢的预定路线。
ChatGPT刚出来的那段时间,国内好几家巨头都说要搞大模型,但是有两点我认为当时是恨不明朗的,第一点就是炼好了产品怎么用。这一点现在我看还似懂非懂。
第二点就是开源。我不好十分武断,说那时候百分百没人想着要开源,但最初应该都不会是奔着要开源去的,毕竟这玩意要重氪,高校搞搞还说能提升学术地位,企业可就没这慈善了。最初的想法,应该也是认为世界线会朝巨头炼丹、虾米调参收束,有了大模型,未来总会有办法卖钱。
但是,在开源大模型用爱发电的冲击下,这条世界线崩塌了。你花老大价钱搞个大模型,最后无非三种情况:如果性能还不如开源模型,那炼了等于白炼。如果性能稳赢开源模型,那你已经甩开了OpenAI和谷歌,因为这两家也没这种信心。
那么通常只有最后一种情况,你的性能比开源模型要强一点,但说不好什么时候就被超过去,再加上还有买它这种自爆式开源的奇葩角色搅局,这个时候直接卖API肯定卖不好,买家肯定犯嘀咕。
怎么办?给免费体验版。
为什么开源大都是7B大小?最直接的答案是致敬Llama,因为Llama最先开源的就是7B。但这个答案显然没有说到点子上。
我觉得7B天然适合当免费体验版,概括三个字:好把玩。
7B大小刚刚迈入大模型门槛,有点大模型的能力,但又不是很多。训练成本不高,运行要求也不高,搞个好一点的游戏显卡甚至还能微调。你在论文上读来那些事,都可以亲手试试。自己跑模型那种感觉是独一份的。
不过,你真要琢磨拿7B干点事,你就会发现这玩意就只适合于把玩,想要形成生产力模型规模还得往上。现在13B的模型也很多,但要求一下就上去了,全参数就不要想了,只能走Lora,即使Lora也费劲,最重要的是,效果不好。
这个时候,你就自然想到要氪金了。
设想一下,如果我用了A的7B开源模型,效果还行,但上生产环境还差点意思,更大的模型没法在本地,我就会想,那试试它的商用版本会不会也行呢?再一看API价格,比本地跑便宜。好嘛,那就氪金嘛。
别忘了,免费体验版积累流量,氪金服务变现流量早就是成熟到烂的一种互联网模式,大模型这里只是阳谋罢了。