中国开源是需要一些理想主义在其中的。
作者丨张 进
编辑丨陈彩娴
近日,TII研究中心推出的开源大模型Falcon 180B一经发布,便被认为是当前最好的开源大模型。
原极狐Gitlab创始人、现大模型解决方案OpenCSG的创始人陈冉&王伟在其发布后率先试用了,他告诉AI科技评论,“Falcon 180B能力很强”,但也有一部分大模型创业者告诉AI科技评论,还没试用,因为推理成本太高,根本用不起。
从官方发布的测评结果来看,Falcon 180B 在自然语言任务上的表现优异。它在 Hugging Face 开源大模型榜单上的评分68.74 ,超过Meta 的 LlaMA 2 (67.35),是当前评分最高的开放式大模型。在MMLU上的表现超过了 Llama 2 70B 和 OpenAI 的 GPT-3.5,在 HellaSwag、LAMBADA等十余个测评上与谷歌的 PaLM 2-Large 不相上下。
「超越LlaMA 2」「优于GPT-3.5」「接近GPT-4」,一个个赞美之声让Falcon 180B冲上云霄,一时风光无限。
其背后的TII研究中心总部位于阿联酋阿布扎比,今年5月底该研究中心刚开源了阿联酋第一个大规模人工智能模型“Falcon 40B”,供研究和商业使用,并在发布Falcon 40B时便期望在不久后开发和宣布Falcon 180B。
时隔4个月时间,TII便开源了Falcon 180B,从架构维度来看,Falcon 180B 是 Falcon 40B 的升级版本,并在其基础上进行了创新,比如利用 Multi-Query Attention 等来提高模型的可扩展性。
Falcon 系列是由TII的AI and Digital Science Research Center (AIDRC)团队研发的成果,该团队还在去年推出了世界上最大的阿拉伯文NLP模型,即NOOR。一位基金公司的投资人告诉AI科技评论,Falcon团队中有部分华人,其中几个来自阿里。
当我们猜测Falcon 180B比Llama 2更懂中文是否是团队刻意为之,Hugging Face 的中国区负责人王铁震告诉AI科技评论,Falcon 180B的作者对此也很诧异,说他们绝对没有在数据集里刻意加一些中文的东西,但是他们在训练的过程中就已经发现这个模型好像可以做一些简单的中英文转换。
在一片赞美声中,也夹杂着一些质疑和疑惑。比如英伟达的资深研究员Jim Fan就公开指出:Falcon-180B的训练数据中,代码只占5%,没有代码能力,就不能声称「优于GPT-3.5」或「接近GPT-4」。上述基金公司投资人也认为,Falcon 180B的表现可能并如它官方所宣传的那样强,鉴于这家公司的往常操作,Falcon 180B的性能可能要打八折后才是它的实际表现。
同时,国内开发者讨论最多的点在于:1、已经有Llama 2了,中东土豪再搞一个Falcon 180B的意义在哪里?2、Falcon 180B到底有没有用,因为推理成本太高,根本用不起来。
除此,我们还关心如LlaMA 2、Falcon 180B的国际开源大模型接二连三呼啸而出,会给国内的大模型创业环境带来哪些影响?国内的基础大模型厂商中谁会受到怎样的冲击?这会影响国内大模型的开源与闭源走向何方?
1
一些争议
在今年年初时,大家看到ChatGPT出来后还很担全世界的大模型,未来的知识产出都要被OpenAI一家公司给垄断了,当时Hugging Face的CEO Clement Delangue就表示过,让大家不要慌,到年底肯定会有超越GPT3.5的大模型出来,然后7月Llama2开源了,9月Falcon 180B开源了,意味着提前小半年便完成了开源社区的任务。
而每一次大参数模型开源都会在社区中引起一阵狂欢,因为这无疑壮大了整个开源社区,给整个大模型开源注入一股更大的力量。
在hugging face 中国区负责人王铁震看来,对于网上有关Falcon 180B的一些争议,他认为首先,要训练这样一个1800亿参数的大模型,耗费肯定在千万美元级别,它背后的公司愿意开源出来就是一件值得敬佩的事情。
因为每个模型训练的思路都不一样,特别是在整个行业刚刚上坡的阶段,各家愿意分享出自己的训练思路,对整个行业都是一种启发。例如TII开源便给外界研发大模型提供了一种新思路、新启发。
据官方消息,Falcon 180B是使用 Amazon SageMaker 在多达 4096 个 GPU 上同时对 3.5 万亿个 token 进行训练,比Llama 2多了近一倍的数据集,是最多token的一个大模型。
Falcon 180B用的主要是RefinedWe数据集(大约占85%),王铁震告诉AI科技评论,Falcon 180B的出现也告诉行业不仅特别精细地去清洗数据会提高模型的效果,数据量够多也会对模型效果有一个明显的提升。
另一个讨论是Falcon 180B到底有没有用,因为推理成本太高,根本用不起来。
王铁震的看法是,先把模型能力做上去是最重要,大家知道最远的边界在哪里,再通过开源社区的力量,群策群力来降低模型的推理成本。
“大家普遍预测gpt3.5可能是一个在175B左右的模型尺寸,所以理论上来说,OpenAI能做到什么样的推理成本,开源社区就能做到什么样的推理成本,甚至说还能往下压。”
在王铁震看来,如果在开源模型的尺寸跟chatgpt3.5的模型尺寸差不多的情况下,那么开源模型的推理成本有可能会比openAI的更低,这样自然而然会改变现在的大模型开发流程。
一旦入Falcon 180B这样的大模型能做到跟OpenAI的gpt3.5模型一样的推理成本,甚至更低,那么企业一上来就会愿意选择在开源模型上去跑,而不是都选择gpt3.5。
而且,王铁震还告诉AI科技评论,一位资深的开源社区开发者GGML的Georgi Gerganov已经在4比特压缩时,成功地把180B 跑在了苹果电脑上,这意味着180B并没有想象中的那么大,他还预测苹果电脑可能是未来个人开发者做大模型的一个最好的工具。
在另一位受访者看来,Falcon似乎想要成为参数、性能、实用落地的难易程度均衡的“六边形战士”,之前的Falcon 40B的表现超过了65B的LLaMA,而且所需的显存也低于LLaMA 65B。如果180B与40B的指导思想还是一致的,那么从长期来看对开发者的吸引力还是很大的。
相较于上述几点争论,王铁震更担心的是Falcon 180B已经用到了3.5万亿个token,因为根据Falcon 180B的经验,只要堆数据,给它喂更多更好的数据,模型就会变得更好。如果未来网上公开的数据集不能再有更大的规模,这个模型要如何scale?
同时,随着越来越多大模型出现,未来大模型很快会吞噬掉全世界能找到的高质量数据,数据之争将会变得更激烈。
而在大模型创业者蒋磊看来,Falcon 180B架子搭建的这么大,竟然只用了3.5万亿的token?
在他看来,Llama 2接受了2万亿个token训练,刚刚推出的baichuan2是在2.6万亿的token上训练的,而Falcon 180B的规模是 Llama 2 的 2.5 倍,baichuan2的规模只有13B,连Falcon 180B的十分之一都不到。
所以蒋磊觉得Falcon 180B很可能跟Bloom一样是欠拟合的,当然参数增大以后,CoT,涌现等能力还需要更复杂的实验才能看出来。
同时,因为是在多于 Llama 2两倍的token上训练的,Falcon 180B比Llama 2更懂中文。因为中文很差,导致国内应用用Llama 2用不起来。
虽然作者声称并没有刻意在数据集中添加中文的东西,但王铁震猜测是因为它用了更多token或者使用了跟Llama 2不同的数据集的缘故。
Llama 2在研究论文中几乎没有透露使用了哪些数据,Falcon 180B 训练数据主要来自 RefinedWeb 数据集 (大约占 85%)。
这也是让蒋磊非常惊讶的一点,作为一个诞生在中东的LLM,竟然没有使用阿拉伯语作为主要训练语料,甚至不是次要训练语料,在他看来Falcon 180B跟当年的BLOOM一样充满理想光辉。BLOOM刻意避免英文称为最主要的训练语料,使用了大量不同语言的语料,还发布了自己的数据集,甚至检索工具,可惜训练不足,模型处于欠拟合的状态。
2
开源大模型带来了怎样的冲击
除了来自开发者的一些争议,我们更关心的是,这样一个大模型开源会对国内大模型圈产生什么样的影响呢?它的出现是一种怎样的力量?
在蒋磊看来,Falcon 180B对于中国公司影响有限,Falcon 180B主要是在英语、德语、西班牙语和法语上进行训练的,如果要扩展其中文能力,还需要做大量的工作,即使使用LoRA或者QLoRA等方式,小的团队和开源社区也很难进行扩展。
面壁智能CTO&OpenBMB开源社区主要发起人之一的曾国洋告诉AI科技评论,Falcon 180B模型因为参数量非常大,要微调和使用它对于普通人和中小型企业来说成本很高。对于一些想用大模型的大厂可能是一个还不错的选择。
原极狐Gitlab创始人、现大模型解决方案OpenCSG的创始人陈冉&王伟认为,Falcon 180B对国内大模型厂商的短期影响并不会太直接,虽然Falcon这次的模型规格和打榜效果都很惊艳,比之前40B提升明显, 但目前看来不少场景还有提升空间, 实测微调效果也还需要更多的验证。
短期的影响主要是技术层面,中长期看,对国内大模型厂商的小规格模型开源 大规格模型商用的模式会有一定的冲击,因为客户多了一个基于开源微调的选项;
但即便在Falcon180B模型上微调, 需要投入的软硬件资源和人力时间成本对于企业客户都是不小的开销。
王铁震预测,国内应该很快就会出现Falcon 180B的微调版本。因为如果能把Falcon 180B的推理成本降到跟GPT3.5一样低,甚至更低,大家都不会排斥拥抱Falcon 180B。
对于国内来说,未来的状况是,头部几家是自己从0开始训练的大模型,其余大量必然都是微调出来的,所以有一个更强的开源模型并不是坏事。
他认为Falcon 180B开源对中国这些大模型圈有冲击,但不大。因为即便Falcon 180B有一些中文能力,但肯定没有国内这些拿大量中文语料的大模型做的好。
如果国内出现一个千亿级以上、并用大量token去训练的大模型,那么所有人都会争着抢着去用这个模型,补足它的应用,就不用担心试用国外开源模型的合法合规问题。
在目前国内大模型开源这一脉,以智源研究院为首,创业公司中百川、面壁、智谱AI、澜舟科技、深势科技纷纷跟进,互联网大厂中目前唯有阿里云一家开源了通义千问,百度、腾讯、华为、字节都选择了闭源。
一位行业内人士告诉AI科技评论,Falcon 180B这一轮开源对于选择To B 与To C 两种路径的商业模式的公司造成的冲击不一样,对一些To C的基础大模型公司冲击比较大。
上述人士告诉AI科技评论,Falcon 180B这一轮开源对国内某家大模型创业公司冲击最大,因为他们选择的“开源 闭源”模式做To C,并没有全系开源,他们的策略是先把小参数的大模型开源出来给用户试用,占据了生态位之后,再用大参数的闭源大模型来实现降维打击。
但没想到Llama2、Falcon 180B相继开源,对这家公司每一次都是降维打击。
一位业内人士告诉AI科技评论,一家大模型厂商感觉拼不过其他基础大模型,就直接选择开源了,投入了多个团队在做,但每个团队开源的都不是自己核心的模型。
上述人士还吐槽起另一家大模型厂商的打法,专门做了一个平台接入了大量别家的模型,但它自己的大模型并没有开源出来。
陈冉&王伟认为,国内大厂大多押注闭源模型,目前竞争还比较激烈,是因为各个公司还在摸索是做大模型的应用场景和商业模式, 而且是不是真的要All in 大模型也很难说得清,所以对于是否开源可能并不会那么着急给出答案。但他始终认为大模型开源是一种有效的竞争策略。
目前国内免费可商用的大模型分别有:百川智能的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat与其4bit量化版本;智源的悟道3.0中的悟道・天鹰大语言模型;智谱AI的ChatGLM-6B 和 ChatGLM2-6B;面壁智能的CPM-Bee 10B;通义千问的Qwen-7B和Qwen-7B-Chat……
一个现象是,从上述可以看到国内迄今还没有出现一个100B量级的开源大模型,这是为什么呢?
原因是对于国内的大模型,其背后的机构和公司大多都有自己的商业考量,开源只是他们的商业策略中的一环,即开源对他们有价值就开源,没价值就不开。
一位魔搭的人士近日告诉AI科技评论,他明显感觉前期在魔搭贡献了多个开源大模型的一家大模型公司,现在的开源意愿逐渐降下来了,该人士猜测可能是跟这家公司着急商业化有关。
毕竟,坚持开源意味着无止境的投入,融上千万、上亿资金对大模型来讲都烧不了多长时间。
面壁智能CTO曾国洋认为,超大规模的模型训练需要很大的资金投入,如果没有良好的商业模式支撑,大家对大模型的投入很难持续。开源大模型目前在国内外还没有很好的商业模式,所以在国内,未来开源模型可能会长期停留在百亿规模以内。
而还有一些人士认为开源对国内的基础大模型厂商的影响是致命的,例如李开复曾说过,当更强的开源模型出来,国内一些基础大模型厂商会发现过去的投入都打了水漂,会发现原来训练的那些模型基本没啥用。
3
开源VS闭源
有句俗语这样说,一个人会走的更快,一群人会走的更远,这可以贴切地形容闭源和开源的存在。
行业需要大力投入钻研自身技术、探索落地场景的闭源大模型,也需要一些充满理想主义情怀的开源大模型。
澜舟科技的周明老师曾对AI科技评论说过,活着比什么都重要。周明觉得自己读懂了毛主席的论持久战之后,认为创业需要有雄心壮志,要不服输;其次是要审时度势——回到现实就是说你到底要干什么?从哪里突出你的重点?哪个东西是你的菜?
大模型创业无疑是一场艰难的持久战。对许多创业者来说,经费是支撑整个公司能否走下去的一个很大因素,许多原先也想做基础大模型的企业开始重新思考创业的生态位,随着Llama2、Falcon 180B这些优质开源大模型逐渐出来,积极拥抱开源也许是另一条出路。
所以我们可以看到,为了能打赢这场持久战,澜舟科技现在的策略是拥抱开源:把开源模型当作L0底座,在这之上,做 L1 语言模型、L2 行业模型、L3 场景模型。
在这波创业潮中,越来越多大模型创业者开始希望积极拥抱开源。有人形容这波开源潮,就像把自来水厂免费接到自己家里,但如果自来水厂没人愿意开闸,惠及范围变小,行业势必会走的更慢。
所以,开源社区急需来自中国的大模型力量。
而现如今国内开源的一些大模型,在一位业内人士看来,跟Llama2、Falcon 180B根本构不成竞争力,还不在一个竞争层面,都是小玩具,等什么时候开源出一个千亿参数的再说吧。
不过不用担忧太多。上述多位人士告诉AI科技评论,国内如智源、上海人工智能实验室这样的不靠模型赚钱的官方机构,最有意愿去把开源模型做的更大,因为他们没有商业公司需要大模型赚钱这样紧迫的欲望,他们更多为了推动整个行业的发展前景,一旦他们的大模型准备好后,国内就很有可能会出现100B的开源大模型,助力国内开源大模型突破不过千亿的坎。
在未来,开源和闭源都会长期存在,闭源大模型会由少量在技术、人才和商业上占据领先优势的超级玩家占据,而开源大模型会出现一个更加广泛、百花齐放的生态。
陈冉&王伟认为,在国内,闭源大模型一定是对应用更友好,而开源大模型一定是对生态更友好。
同时,开源与闭源并不是对立的关系,相反密不可分,在王铁震看来,开源是闭源发展的一个脚底板,闭源实际上是开源发展的天花板。
因为如果要做一个闭源大模型,无论是从0开始研发的,还是微调开源大模型得来的,如果你做的比开源还差,就没有价值。
开源注定没有闭源的好,因为闭源的这些商业公司一定要比开源做的好,才能卖出钱。
纵观开源软件历史,取得大范围成功的开源软件未必是当时技术最遥遥领先的,但一定是对用户和生态建设最友好的。
开源的竞争其实就是生态的竞争,谁对开发者最友好,就能吸引到最多的开发者去围绕它的大模型生态去开发,一群人致力于把这个社区做的更好,再吸引更多的开发者,不断壮大生态。开源的价值在于不停地往前走,像滚雪球一样,推动整个行业往前走,等商业公司赚到钱后他们可能会想着反哺整个开源社区,开源自己的模型、或者一些数据集等等,来回馈社区。
陈冉&王伟认为,开源大模型的后续竞争除了模型规格与能力之外,后续趋势可能会在配套工具能力、生态建设、垂类领域能力、安全与推理性能优化等领域。
就像令蒋磊疑惑的一点是,为什么到了现在还没有出现MoE的Llama。他曾在WizardLLM的Discord里倡议大家一起构建一个Wizard MoE,但没有得到响应。所以他认为这也是开源的无奈之处,构建一个大模型,还是需要一个中等体量的公司或者一个团结的、有赞助的开源社区才能完成。
他觉得国产大模型真的想做好开源的话,一定要有一些理想主义在其中的,开源难道不是互联网最美的最深刻的理想主义么?