随着社区努力定义开源人工智能,它正在应对前所未有的复杂性。
译自 Why Open Source AI Has No Meaning,作者 Alex Williams。
Meta 通过使用“开源”一词来推广并非开源的大型语言模型 (LLM),正在赢得 开源 AI 的故事。但实际上,Meta 阵营可以随心所欲地称呼 开源。
人工智能给开源社区带来了一个悖论:一方面是务实的开放者,另一方面是希望开源 AI 能够实现其原则并充满抱负的人。问题在于:随着 AI LLM 提供商将其服务称为开源(无论它们是否是开源的),开源的意义正在减弱。
但这些论点背后隐藏着自 开源促进会 在 20 多年前定义开源以来开源社区从未见过的复杂性。
我们看到的是:一个管理问题,它允许在各方都宣扬自己版本的真相的同时利用开源。OSI 正在制定定义。 但它会得到社区的重视和支持吗?目前,这是一个悬而未决的问题。
谁拥有开源的语言?
Ashley Williams 在接受 The New Stack 采访时表示,开源已经屈服于语言漂移,部分原因是缺乏对定义开源的语言的管理。
Williams 是 Axo 的创始人和首席执行官,Axo 是一个面向构建可移植和安全软件的开发人员的打包和分发平台;她共同创立了 Rust 基金会,并被公认为开源战略家。
她说,管理不仅仅是 OSI 管理定义和保持方向。语言会随着时间的推移而发生变化。它变成了人们如何使用语言的问题。
“我真正的意思是管理开源的口语定义,”Williams 说。“我认为这种管理方式的消失体现在几个方面。”
开源最初是开发人员创建可以修复的软件的一种方式,而不是依赖微软。后来,开源商业实体采用了开源,导致更多担任业务技术角色的人(担任主管或其他职位的人)塑造了商业开源。
发生了转变。开源成为降低技术开发成本的一种方式。它通过依靠志愿者来管理开源项目来服务于商业利益。
Williams 说,开源的含义在不断变化,尤其是在云原生时代。随着开放治理等努力,它随着开源的开放性而扩展。
因此,当您查看开源时,您必须查看谁在使用这些词以及他们为什么使用它们。“开源”一词现在被 Meta 使用。它拥有话语权。
Meta 可以将其 LLM Llama 称为开源,因为人们对如何定义开源 AI 首先感到非常困惑。
甚至 OSI 的领导者也提到了使用“开源 AI”一词的挑战,并指出了 ChatGPT 背后的组织 OpenAI 的名称。
“如果它没有被用作名称,那就太好了,因为从技术上讲,它里面没有‘源代码’,”OSI 执行董事 Stefano Maffulli 在接受 The New Stack 采访时说。“所以使用‘开源 AI’这个词有点用词不当,但事实就是如此,对吧?它已经存在了。我们必须处理它。”
Maffulli 说,当欧盟表示开源 AI 系统或开源的 AI 系统具有特殊优势并且不受某些要求的约束时,这无济于事。
“这是 [Mark] Zuckerberg 努力与‘开源、AI’一词联系起来的另一个动力。”
OSI 已 发布了定义草案,供人们发表评论。这就像一片泥潭——深陷泥泞之中。
OpenUK 执行董事 Amanda Brock 告诉 The New Stack,这正在破坏制定开源 AI 定义的努力。
“我们不能限制商业化,多年来,每当有人试图限制商业化,甚至试图加入道德条款时,我们作为一个社区,都会与之斗争到底,因为自由流通对我们来说真的很重要,”Brock说道,他曾在OSI董事会任职21个月,并于2023年7月辞职。
“这使得开源软件可以被使用、重用,而不用担心限制,也使得大规模采用成为可能,这对开源模式至关重要。”
仅仅管理一个开源定义就已经够难了。Brock说,当第二个开源定义出现时,“你就会面临混淆和破坏开源软件核心的风险”。
实用主义与理想主义
实用主义定义与理想主义定义之间的差异,让社区一直在思考训练数据的影响。与此同时,这种混淆将取决于LLM提供商可以勾选哪些选项来符合开源定义。如果提供商可以限制修改,这是否意味着LLM仍然是开源的?
OSI关心定义,但在其网站上坚持认为“将训练数据定义为一种好处,而不是一项要求,是最好的做法”。
正是OSI关于训练数据的立场引发了最大的争议。
模型的来源是数据和代码,开发者倡导顾问Steve Pousty在OSI网站上关于开源AI定义草案的评论中写道。
“这个定义没有赋予修改的自由,因此不能作为开源定义被接受,”Pousty写道。“对于AI模型来说,权重就是用户界面。作为用户,我可以直接使用它们。它们是通常分发给每个人的东西。”
“模型的实际来源是数据和代码。权重是使用代码和数据构建的。它们共同构成了复制和修改原始模型的能力。权重就是程序,如果没有代码和数据的访问权限,就无法构建/编译它们。”
Maffulli对此表示反对。他描述了这个主题是多么的模糊不清。训练数据可能是一个包含私人信息、受版权保护的材料和事实信息的大桶。数据的分发方式可能会导致法律上的复杂性,比如EleutherAI所面临的问题。
EleutherAI是一个非营利性人工智能研究实验室。它使用的数据来自互联网和其他来源。它公开了权重、代码和训练数据。尽管如此,维权人士仍然不喜欢它,因此他们将目标对准了EleutherAI的书籍数据集Books3。
2023年8月,丹麦反盗版组织Rights Alliance申请将Books3数据集从其用于训练大型语言模型的数据集Pile中删除。
这就是开源为何会在人工智能的混乱中陷入困境的一个例子。正如Pousty指出的那样,不仅仅是数据,还有权重和代码构成了这个系统。
从理想主义的角度来看,如果没有数据透明度,人工智能系统就不是开源的。开放训练数据,继续以理想主义的方式开发人工智能系统。
寻求“开放的范围”
8月,在俄勒冈州波特兰市举行的FOSSY24上,一个主题小组回顾了开源和人工智能的现状。
“Amazon Web Services的开源战略家、研究员和实践者Julia Ferraioli说:“人们真正想要的是一个开放的范围。”
“我们可以通过软件许可证,将模型周围的基础设施和软件开源。但对于数据和模型本身,情况就变得更加复杂了。人们往往想要的是一个二元答案:‘这到底是开源的还是不开源的?’”
“因此,虽然开放的范围可能很有用,但在实践中却很难实现。”
另一位小组成员,软件自由保护协会董事会主席Allison Randall表示,清晰度是最重要的。我们不能因为他们做到了一半就放过他们。
“我认为,从长远来看,我们需要坚持这一立场——设定一个清晰的、有抱负的目标,”Randall说。“我不在乎OSI是否将他们对人工智能的商标开源定义定义为此。但我们需要定义一个清晰的、有抱负的目标,并认识到只有这样,我们才能充分享受软件自由带来的好处。”
Randall 表示,低于开源标准的软件就不是开源软件,这没有问题。但如果有些东西不符合开源的标准,但我们仍然认为它是开源的,那就说不清楚了。
Maffulli 说,关键是要认识到大公司已经拥有优势。如果我们纯粹追求理想化的开源,那么没有人能够满足定义,这对小型企业来说将是一个问题。大型科技公司拥有大量可供使用的数据,而我们其他人则没有。
“开源将被逼到角落里玩玩具,”他告诉 TNS,“而巨头们却在玩汽车和机关枪。”