对话智源总工程师林咏华:深聊关于大模型开源、闭源背后的系统性难题

2024-06-27 18:10:09 浏览数 (1)

AI未来指北-AI探索者系列,对谈AI产业的躬身入局者,关注AI大模型落地第一程的关键问题。本期嘉宾为智源研究院副院长兼总工程师林咏华,请她分享了关于大模型开源与闭源背后的商业与产业生态问题。

作者 |  郭晓静

编辑 | 苏扬

大模型究竟要开源还是闭源?无论单独从技术发展的角度还是从商业的角度,这都不是一个二元论的问题。

从技术发展来看,大模型的开源比传统软件的开源,会更复杂,也面临更多新的问题。它不仅仅涉及到模型的算法,还有背后的数据,以及最终训练出一个完整的模型,需要消耗的巨大算力成本。

基于软件开源的许可政策,是否还能适用于大模型,是否需要做新的改变?

从商业的角度来看,一家公司选择开源或是闭源,甚至是既开源又闭源,背后都有其基于商业战略的考虑。大模型时代的开源,和软件的开源,是否在商业模式的打造上,也会有根本性的不同?

从整体的AI生态考虑,大模型的最大特点是“大”,行业中一直有讨论,人类社会产生的高质量的数据,是否足够大模型训练使用?如此庞大的数据集,是否更需要开源的力量共建。如果共建,数据的安全性、隐私性如何考虑?是否需要一套新的规则来去约束?

伴随着大模型技术的发展,这些都是产业界在积极探索的问题。早些时候,“开源模型一定会落后于闭源模型”的论断曾经引起业界的激烈讨论。

智源研究院副院长兼总工程师林咏华对腾讯科技说:“开源与闭源并不是评判模型好坏的标准。一个模型的能力如何,是与模型的算法、数据质量以及算力的投入大小来决定,而不是简单的由“开源”还是“闭源”来决定。

大模型开源 VS闭源的讨论,核心也并不是“二元论”地分出好坏,而是更本源的问题——AI行业如何以开放的心态共建产业生态,以微观的每个企业来讲,从长远的战略来讲,考虑究竟如何去综合决策模型的开源与闭源。

2024被行业称为大模型落地应用元年,在产业落地的第一程,腾讯科技对谈了智源研究院副院长兼总工程师林咏华,她曾任IBM中国研究院院长,2022年加入智源,最重要的任务之一就是“打造大模型的开源技术基座”。在这次访谈中,林咏华基于自己对于产业的观察,分享了以下精彩观点:

● 在大模型时代,最终的模型文件,其实比源代码重要。这就给传统的软件管理和版权带来了新的挑战。

● 评测机构更容易对开源模型做全面客观评估。因为闭源模型只能调取API,但是API背后究竟是仅仅一个模型来完成任务,还是有其它系统来辅助,还是说用了不同的模型组合回答完成这个任务,这些细节其实是不能得知的。

● 数据相关的工作其实还在起步阶段,现在数据孤岛的现象也还比较严重,中文原生数据集还是比较稀缺。

● 虽然Llama的影响力很大,但是随着国内基座模型的能力越来越强,尤其是中文的能力也越来越突出了,国内的企业其实反而会先选国内的开源基座模型。

以下为对话内容精选:

腾讯科技:大模型的开源主要分为哪些方面?

林咏华:主要包括模型本身的开源、算法开源、数据集开源、整个工具框架的开源,主要包括这些方面。其中工具框架里面还包含很多,比如并行训练、推理框架、算子库、编译器、甚至芯片的工具链。

腾讯科技:与传统软件的开源,最大的差异在哪里?

林咏华:传统软件的开源,一般分为两个部分--源代码开源和可执行的二进制文件。

大模型开源如果对比传统软件,大模型也有源代码及它的输出物模型文件(类似于二进制的可执行文件)。但是大模型的开源是一个新的命题,为什么新?首先开源部分的重要性改变了。传统软件中,我们认为源代码更重要,而编译成二进制的文件,就没那么重要了。比如在商业中,交付一个软件的源代码,要比一个二进制文件贵得多。

而在大模型时代,最终的模型文件,其实比源代码重要。原因在于,哪怕我有一份模型的训练代码,但是我没有训练模型的数据,我是无法训练出一个模型的;即使我有数据,用这份源代码,也需要消耗很多的算力,巨大的资金成本,才能训练出这样的模型文件。所以,在大模型开源中,这两部分的重要性翻转了。

另外,大模型的开源也带来的新的复杂问题。首先是版权问题。传统软件要升级迭代,我们改的是源代码,会生成新的二进制文件,所以不存在基于最终输出的二进制文件再做二次加工的问题。

但大模型不一样,在输出好的模型文件上,可以添加一些行业数据把它变成某个行业的模型,也可以加上一些指令数据,把基础模型再变成一个应用。它可以在模型文件的基础上,一代一代迭代下去。

这就给传统的软件管理和版权带来了新的挑战。一般我们只对源代码进行类似GPL或Apache这样的开源协议。例如,GPL开源协议要求,一旦在软件代码上进行了加工迭代,生成一个套新的代码,就必须把新加的代码也要开源出来。Apache协议更宽松一些,新的代码可以不开源出来,但需要声明使用了该开源代码。

所以大家目前也在探讨模型文件本身应该可以有不同的开源授权协议。

另外一个问题是安全性,模型文件并非传统的二进制文件,而是“明文”的权重文件,仅对它的少部分参数进行修改,是可以保留它的基本能力的。

这个“明文”的模型文件,是花几千万到上亿重金打造的,所以安全分发模型文件就成了一个新的命题。英伟达在其H100芯片上就提出了把CPU的可信执行环境扩展到GPU一侧。倘若我们对模型文件进行加密分发,因为GPU不能直接进行安全解密,所以需要在CPU侧解密后再加载到GPU进行运行。这样会带来安全隐患,例如在CPU侧通过底层软件截获解密后的模型文件。

现在,我们正在探讨,是否可以利用英伟达这样的方法,在GPU端也具备可信执行和安全解密的能力。如果可以,就不需要在CPU端进行解密,而是在GPU执行环境中再解密,从而增加对模型文件的安全保障。

安全分发是一个需要重视的问题,这对保护商业利益相当重要。因为大模型的模型文件是新生事物,使得包括它的版权、安全分发,这些都是新的命题。

腾讯科技:所以最终大模型的开源,其实已经包含了数据集了?是把训练数据已经“封装进去”了,可以这样理解吗?

林咏华:大模型的数十亿、数百亿参数,在训练的最开始只是被初始化为一堆随机数,没有意义。通过GPU集群,使用海量训练数据去从头开始对这些随机数进行训练,慢慢就让这些海量的模型参数形成了新的分布,具备了这些“知识的压缩”,就不是随机数了。

为什么模型文件开源很重要?假设有金融公司希望去开发金融的大模型,它只有两个选择,如果没有开源模型,就需要从0开始训练,一两百亿参数的模型可能就是上千万的投资。

如果有了开源模型,基于开源的模型加入金融领域的数据,然后进行后续的训练,成本可能是基础模型的1/10,甚至是1/100,这就变得很普世性了。

腾讯科技:但是对于Meta来说,迭代一次Llama,就需要继续付出巨大的成本?

林咏华:Meta开源Llama,对自己的定位就是基座模型的提供者,所以他们势必会不断投入去提升基座模型的能力。

所以这是一个产业分工,在大模型时代,AI产业的分工更加明确。一部分有雄厚资金、技术能力的企业,专注在基座模型的迭代升级。还有一些企业基于基座模型去做行业模型、应用。

腾讯科技:前一段时间有国外媒体消息,美国可能要限制这些开源先进模型的使用,如果真的落地的话,对我们影响大吗?

林咏华:具体条款没有出来,还要再进一步观察。其实国内也有能力不错的开源基座模型不断迭代,即使美国在开源模型上管控,对国内产业的影响没那么大。

腾讯科技:开源模型一定会落后于闭源模型吗?

林咏华:我觉得不是这么绝对的,需要客观来评定。模型的算法如何、参数量、数据质量如何等,这些才是决定一个模型是否先进的因素。开源和闭源,并不是判定模型质量的评定标准。

腾讯科技:闭源模型我们看不到细节,是不是反而是开源模型,我们对它的能力会有一个更客观的评定?

林咏华:是的。智源长期做大模型评估的工作,我们认为开源模型更容易被全面评估。因为闭源模型只能调取API,但是API背后究竟是仅仅一个模型来完成任务,还是有其它系统来辅助,或者是用了不同的模型组合完成这个任务,这些细节是不能得知的。

换句话说,对于开源模型能力的评估结果,反而是更客观更有说服力的。

腾讯科技:我们知道大模型开源中,数据集的开源十分重要。在全球的大模型背后都离不开一个数据集Common Crawl。得益于17年前一群志愿者,他们以公益的方式在全球不断爬取网页、积累数据,至今积累了超过2500多亿的网页,并以免费方式提供给全球研究和开发者使用。未来如果我们想获得更多的高质量的数据,除了这类组织,企业、机构等还应该做哪些贡献?

林咏华:Common Crawl是全球现在目前最大的互联网数据的汇聚,并且每个月还有几十亿的数据增量,坦白说如果没有它的话,语言大模型不会发展的那么快。

大模型数据相关的工作其实还在起步阶段,当前数据孤岛的现象也还比较严重,一些高质量的文献、书籍数据留在各种机构中。

中文原生数据集还是比较稀缺,能够用于模型训练的原生高质量数据,英文和中文的比例只有10:1。多模态的中文数据就更少,哪怕是Laion 5B,其中的数据也都缺乏中国元素,或者其中文标注质量十分差。

智源团队在2020年开始训练悟道大模型时就发现了数据的问题,我们找不开源可用的中文数据集。也是从那时候开始,认识到推动大模型科研和产业的发展,数据开源平台的建设、开源高质量中文数据集是很重要的工作

从去年到现在,智源已经发布了许多重量级的开源数据集,包括特别是这次智源大会发布的全球最大的多行业数据集IndustryCorpus 1.0和高质量指令微调数据集InfInstruct-3M。截至至今,我们打造的北京人工智能数据运营平台上面已经汇聚了超过百个数据集,总量超过700TB。这些数据集来自于全国近80家单位共建,包括智源研究院、上海人工智能实验室,腾讯、阿里、百度、快手等知名互联网企业,还有一些大模型企业,比如智谱AI、百川等等。科研机构加上有责任心的企业,一起共建,这样庞大的数据,单靠某家机构一己之力是很难的。

腾讯科技:所以行业所流传的大模型的数据不够用了,是不是这样?

林咏华:目前我们所说的大模型的参数量-百亿参数、千亿参数,其实是说模型有能力去学习这么多的数据。

通常,更大的模型需要更多的数据,这就涉及到底有没有这么多数据让模型去学。的确现在模型的参数量往上增长的很快,有效汇聚在一起的数据量的增长速度未必能够跟得上。但是这并不意味着全人类的数据已经不够用了,而是还是有很多数据孤岛还没打破。

腾讯科技:合成数据能解决数据短缺的问题吗?还是会造成模型能力的下降?

林咏华:重点要看如何使用合成数据——场景是能够被合成的,而知识不行。

比如自动驾驶领域大量使用合成数据、仿真数据没有问题,真实数据太少了,可以通过合成数据去仿真模拟场景,包括机器人领域也会大量使用合成数据。物理世界加上数字世界的合成仿真,确实能够提供使用,减少数据收集难度。但是我们不能用合成数据来替代新的知识数据

腾讯科技:开源社区在大模型的开源生态中有什么样的地位呢?国内为什么还没有像Github、HuggingFace这样的开源社区出现?

林咏华:GitHub本身并非一个独立的开源社区,而是一个包含众多社区的开源仓库平台。针对大模型技术,智源打造了一个名为"FlagOpen"的大模型开源技术栈,也是希望能够打造大模型领域内的"Linux"。Linux作为操作系统,无论在个人电脑还是服务器上,都扮演着连接硬件与上层应用的中间角色。有了Linux,我们无需关心底层CPU的使用或内存访问等细节,它为我们提供了一个便捷的软件层。我们打造"FlagOpen"也是希望能在大模型领域,打造一个好用、一站式的技术栈。

尽管GitHub上存在许多开源的大模型工具和算法实现,它们的质量参差不齐,开发者在进行大模型开发时,往往需要进行大量调研、踩坑,才能确定哪些算法及其实现是可用和适配的。

为了解决开发者的这些烦恼,我们在2022年启动了"FlagOpen"项目的研发。去年,我们首次发布了"FlagOpen",这是一个一站式的开源大模型技术栈。它沉淀了智源团队多年打造的创新技术,包括大模型算法、优化工具、训练数据工具和评测工具等。使开发者能够少走弯路,快速找到适合自己需求的组件。

腾讯科技:在开源大模型中,Llama的声量似乎是越来越大的?行业内是不是都更有意愿用Llama做后续的一些开发?

林咏华:国内和国外其实不太一样。国内有实力打造基础模型的机构,包括智源,都会重新去做,其中一个原因是LlaMA训练数据包含的中文数据很少,其中文能力较差。

随着国内的这些基座模型的能力越来越强,尤其是中文的能力也越来越突出了。现在看到国内的企业反而会先选国内的基座模型。

腾讯科技:国内的大模型企业,很多都是选择既开源又闭源,这是基于什么考虑呢?

林咏华:同一个公司既有开源又有闭源,这种方式很常见。像MySQL本身是开源的,Oracle当初也有它的闭源版本。

开源的意义就是可以把开发者生态用更低的门槛建立起来。当一个开源项目,外部贡献慢慢大于内部贡献,它的生命力是可以不断延长的,而不会因为一些商业化的原因而终止。

还是以MySQL举例,它最早来自某个创业公司,后来被Sun Microsystems以10亿美元收购。到了2009年,Oracle公司以74亿美元收购了Sun Microsystems,MySQL随之进入Oracle时代。但是这些变化并没有影响MySQL的影响力,因为来自开源社区的开发者已经成为了MySQL的主要力量,它的生命力得以完全延续。

商业化往往是在开源之上,提供更加高质量的叠加能力,通过商业化,可以让交付更加有保障、问题解决更及时、服务更加定制化。所以很多企业选择开源闭源结合,这是很好理解的。

0 人点赞