面壁李大海:行业大模型是历史阶段性产物

2023-09-07 08:43:09 浏览数 (1)

大模型,通用才是未来。

作者丨孙溥茜

编辑丨陈彩娴

近日,在北京市石景山区人民政府、北京市经济和信息化局、北京市科学技术委员会中关村科技园区管理委员会联合主办的服贸会分论坛——“通用人工智能算力论坛”(A GICF)上,面壁智能发布了千亿多模态大模型露卡 Luca,并正式开启了 Luca 2.0 的全民公测。

Luca 寓意地球生命始祖,The Last Universal Common Ancestor。

最在今年5月27日的2023数博会上,Luca1.0首次公开亮相。

随后的三个月里,Luca迭代了85次,大语言模型能力整体提升39%。其中推理能力提升119%,推理、知识、生成等多项能力已媲美 ChatGPT。

这一次的 Luca 2.0 版本除了具有优秀的大语言模型能力外,还具备强大的多模态处理能力。图片理解能力已达中文全网最强。

其中多模对话、细节描述和复杂推理三项整体得分为92.5分,而行业其他模型的平均得分是78.4分,远超现有支持中文且具备图片理解能力的大模型。

会后李大海接受了媒体群访,针对行业或通用大模型、近来火热的一体机话题、知乎数据集对 Luca 训练的帮助、大模型评测榜单等热点问题表达了自己的看法。

以下是李大海与 AI 科技评论等媒体的对话精选:

1

坚定走向通用大模型之路

Q:目前资本圈和科技圈对大模型的态度冰火两重天,前者冷淡后者火热,请问您正在关注哪些问题?

李大海:现在大家普遍思考大模型如何落地的比较多。我的精力目前主要分配在几个方面:

首先,我们的模型在以专项的形式封闭式开发,封闭式开放效率很高,以至于我们能在三个月的时间里,成功将百亿模型做到今天的千亿模型,这个过程很辛苦。

另一方面是思考到底有哪些应用可以去做,以及看应用如何与大模型结合,这里面就有一个大模型与应用二者关系的问题。

我会认为我们一定要做大模型原生的应用,将应用建立于大模型之上,如果没有大模型,应用就不应该存在。

然而,一些应用在现有场景中已经在使用大模型,尽管在使用过程中可能会带来一些效率提升,但我认为这种不算是典型的大模型应用。

另一方面,我们也不认为大模型原生应用就是100%使用大模型,这样就像拿着锤子找钉子,我们还是要关注用户的真实需求,看这个需求在引入了大模型这一变量后,能否得到更好的满足。

Q:您如何看待 B 端的大模型业务,以及行业大模型发展?

李大海:B 端业务我们在同步开展,但是现阶段我们更侧重 C 端。

过去半年我们看到很多同行被需求追着走,有很多客户非常希望使用大模型。我们有能力解决客户的问题,但是在模型的标准化工作还没有做的特别好的情况下,就需要花费大量的人力填补服务。

我们在思考如何用更高的效率运营 ToB 业务。

其实回归到商业的本质,我们必须关注效率,思考 Profit and Loss 是否是健康。ToB 这件事如果纯做成项目制,其实很难定位,也很难有好看的毛利。

无论怎么做,要想高效交付只有两个选择:或者是面向场景做出相对好的模型,然后模型在场景里面对每一家客户进行微调;或者是做出足够通用的大模型,面对任何场景,只要微调就可以。

我认为未来一定是通用人工智能这个方向。

现阶段行业大模型可以用更小规模的模型承载垂直领域的应用,所以在成本上更有优势。并且通用大模型的能力也没有那么强,但是我相信未来一定会产生既能力强,成本也低的通用模型,这个通用模型会把所有的行业模型的空间抹杀。

行业大模型是现在阶段性的产物,我尊重现在的历史阶段。

Q:面壁大模型从百亿跃升到千亿,与悟道2.0时期从百亿模型进化到千亿量级有何区别?

李大海:从技术上,我们当时推出的 CPM2 (Chinese Pretrained Model) 千亿模型是一个 MoE 的稀疏模型,和我们现在推的千亿模型不太一样。

我们现在的千亿模型是 Decoder-only 网络结构的千亿模型。

值得一提的是,CPM 大模型是面壁智能从零自主研发的预训练大语言模型,其中包括国内首个中文大模型 CPM-1。

最新的大模型训练直播项目 CPM-Live的第二期百亿模型CPM-Bee是国内首个开源免费商用基座模型,目前已授权给数百家企业合法商用。

Q:面壁发布的千亿多模态大模型是否会影响大语言模型的研究进展?

李大海:这里要说明,我们公司的重点资源是做大语言模型,这是基础,必须先做好,这也是我们的阶段性战略。

而我们的优势在于,我们是一个产学研结合的团队,大语言模型不只在用公司资源在做,而是实验室的同学和公司合作的结果。

大语言模型作为一个基座,把多模态的东西对接进来,对原有的模型没有影响,所以把基座模型做的越来越好,我们才能够更加顺滑地增加不同模态的数据和学习意见。

Q:知乎提供的数据集有哪些优势?

李大海:我们的模型取得非常好的成绩,离不开知乎里大量的高质量图文数据。

知乎是一个社区,很多用户在知乎在上传图片时会给图片精心配上文字,这种 UGC的内容(用户生产内容)比第三方标注平台提供的数据质量要高出很多。

2

开源、独角兽、一体机

Q:您如何看待现在的开源大模型在 ToB 领域的影响?

李大海:目前开源这件事,对于开源厂商主要诉求还在于模型影响力的提升。因为模型开源现在还没有形成像安卓系统一样的生态,比如客户拿自己的数据去训练,数据不会集中到一个中心化的场景,甚至模型好不好用,都没有反馈的声音。

模型影响力的提升对于做 ToB 的业务是有帮助的,但是它的链条比较长,比较间接。

当竞争进行到一定阶段时候,大家的模型都差不多,客户会更关心,服务提供商自己的存续能力有多强,能否保障售后能力。就像电动车制造,一开始所有品牌百花齐放,早期的用户都是尝鲜者,但是一旦大众涌入后,车厂的售后能力、综合能力就会暴露出来。

Q:您认为通用大模型会出在大公司还是创业公司?

李大海:其实参考美国,我们也没有看到说头部公司就是通用大模型的天下,这事并没有发生。

我认为这件事还是要看公司的创新。

这本身还是一个综合的变量。一个公司能否在最新的技术浪潮中胜出,由很多因素决定,有没有足够好的人、资源、组织能力、创新力度、对创新的容忍度、战略方向等,没有一定之规。

Q:您怎么看待现在流行的一些大模型评测标准 ?

李大海:我认为在大模型领域,榜单就是一个悖论。

一旦出现大家都很认可的榜单,就一定会出现刷榜,这个事很难避免,除非榜单是完全随机的,由大模型随机生成题目,而且权威性得到大家认可。

未来也许可以,现在我觉得还是太早了。

因为大模型背题非常厉害,只要能拿到题目,喂给大模型它很快就能背会。我们现在观察到,大模型一旦能够背会,它就一定不会去理解。

Q:LUCA 现在收到的使用申请大概是什么情况?

李大海:我们正式发布后收到了很多申请,同事们在逐一批准,现在是一个有限的推理量,不太方便透露。但我们会基于服务量,不断提高供给效率。

Q:传闻面壁也即将推出一体机,您对一体机持什么看法?

李大海:一体机这件事只能说我们在和合作伙伴有一些密集的推进,但是进展还不方便透露。

我认为一体机是一个顺应国内 ToB 市场的,特殊国情的产物。

但是为什么会产生一体机,就像我刚才所说,国内一些企业习惯于低估软件价值,高估硬件价值。软硬一体结合更能把产品的价格抬起来。

我个人还是更看好云服务,将繁琐的运维工作丢给云厂,模型厂商才可以更专注模型研发。

0 人点赞