就在昨天,Llama 2来了,开源社区一片沸腾。
未必所有人都知道Llama是什么。Llama是买它AI(MetaAI)推出来的开源大语言模型,所谓开源,主要是指开放模型结构和权重文件,有了这些,既可以直接使用模型能力,也可以搞二次开发。
Llama是英语羊驼的意思,正因为可以基于Llama搞二次开发,现在一众开源模型的名字都变着法子往各种驼类上靠,甚至骆驼也不放过,原因就在此。
Llama几乎是以一己之力开创了开源大模型领域,现在Llama 2出来了,就模型本身来说,起点高了,官方自带RLHF版本,门槛低了,二次开发可以直接放权重,节省很多工序。最重要的是,模型结构变化不大,昨天专门试了,1能用的2基本也能用,没有出现因为模型升级导致配套工具断代的情况。
还有一个讲得不多但很重要的地方是氪金。谷歌前面说,因为有开源社区,我们(指谷歌和OpenAI)没有护城河,但大模型多少还是有些地方是氪金密集型,讲究用爱发电的开源社区这块是短板。现在买它AI推了Llama 2,氪了多少?有人估计训练成本高达2500万刀。
什么概念呢?之前估计GPT-3训练一轮大概140万刀,总成本大概1200万刀,这些数都是投行估的,但大致可以给一个结论,这次的Llama 2是重氪,野心自不待言。开源生态接下来会有怎样的飞跃就更值得期待了。
再说说Llama和开源生态。
时间拨回2022年12月,那时候ChatGPT刚出来,大家反应分成截然相反的两种,一种是兴奋,一种是绝望。
兴奋说的人很多,不说了,说说绝望。当时我就是绝望派的一份子。
LLM的效果如此拔群超乎所有人的意料,整个NLP领域为之震动。举个例子,现在LLM已经很多了,很多人测新的LLM都喜欢要求解释梗。玩得多了大家都觉得没什么,但在以前这是个很难的问题,可能要专门训练,可能还得搞几套系统配合。
但是LLM轻而易举。需要说明一点,主流LLM是没有专门针对解释梗进行训练的,单纯就海量知识储备和强大推理能力大力出奇迹的副产品。同样,用LLM去做从前需要专门训练的任务,很多也取得了很好的成绩。
所以现在NLP多了一个词,叫通用大模型。别因为熟悉就小看了这个,以前远在天国的AGI因为通用大模型的出现,感觉近了不少。
但是,绝望来了。LLM效果拔群归拔群,但想想训练一个LLM所需要投入的成本,太多的不说,以后你想研究NLP?8卡A100,你能不能掏得出来?
结论两个字,绝望。
但是,Llama出来了。
准确来说,开源大模型背后靠的是一个庞大的开源生态做支撑,有开源数据,有训练方法,有加速工具,有落地方案,更重要的是,开源大模型已经产生了足够的生态位,哪怕你只有一张3090,你也可以找到合适的位置嵌入其中。
开源大模型是无数人用钱用爱发电的结果,甚至强如谷歌、OpenAI也要敬畏三分。背后庞大的开源生态规模更是难以想象。
而Llama其实只是其中的一部分。
Llama刚出来的时候很不完善,纸面性能距离ChatGPT不太远,但上手感觉差太多,是开源社区用愚公移山的精神,一点一点把它缺的都给补上。最直观一点,Llama不支持中文,这个问题很严重,不是说训练数据加点中文语料就行了,人家是从token层面就不支持。大家想了很多办法,在很多版以后,才成功用扩充词表 Lora的方法,让Llama基座也能执行中文任务。
到了现在,其实也就半年,Llama的重要性已经大为削弱,因为现在已经有了太多的选择。得益于开源生态的正向buf,炼LLM的成本一下低了很多,很多家里有点钱但不多的企业和研究团队也都炼起了自己的LLM,国内就搞了很多开源模型。有人说国内的开源模型是别人做好了直接抄,那是搞不懂什么是开源,更贬低了开源生态的价值。
不过,Llama有它的历史地位。如果说开源大模型和背后的开源生态是一座雄伟的殿堂,Llama则是开启这座殿堂的钥匙。OpenAI的闭源是让很多人都憋着一股劲,但正因为有了Llama,大家有劲才有地方使。