开源本身已经面临挑战,而关于在人工智能领域“禁止开源”的讨论引发了真正的担忧。
译自 Calls to Ban Open Source are Misguided and Dangerous,作者 Amanda Brock。
呼吁“禁止开源”最早出现在去年秋天——部分原因是Meta和其他公司“开放”大型语言模型 (LLM)。游说者在政治集会和政策圈中四处散布这个词。然而,许多批评者无法解释开源在任何情况下意味着什么,并且不熟悉开源定义 (OSD)。不知道或不理解技术细节似乎并不妨碍分享负面意见。
这场喧嚣不是关于开源软件,而是关于开放人工智能,因为开源被用作一个通用术语来涵盖人工智能中任何形式的开放性。
警钟开始敲响。
虽然在可信圈子里存在这种对话可能难以接受,但请看看旧金山纪事报最近发表的一篇文章。对开源的战争是真实存在的,而且正在进行,关于禁止“开源”的对话远未结束。
纪事报将开源描述为“长期以来一直得到硅谷的支持”,指的是开源软件而不是人工智能。开源软件对创新业务有利,并且是当今创新的核心。
令人震惊的是,像 Vinod Khosla 这样的风险投资家将其描述为“国家安全隐患”。纪事报分享了 Marc Andreessen 的反驳——“限制对人工智能的开源访问会导致大型公司垄断该技术,并破坏对该技术的学术研究。”
像 Andressen 一样,你可能想知道,“你需要设计什么样的社会才能拥有执行禁止开源的执行机制?”
“现在你开始进入乔治奥威尔的领域。”
开源洗白
将开源软件和人工智能中的开源这两个概念混为一谈是一个关键的挑战。
开源软件共享其人类可读的源代码,并根据满足现已超过 25 年的开源定义 (OSD)的许可证进行许可,该许可证由开源倡议 (OSI)托管。另一方面,应用于人工智能的“开源”一词尚未明确定义,并且被一些媒体、游说者以及法律和政策制定者用作任何形式的开放人工智能的总称。
这种对“开源”一词的误用导致了主流媒体(如《纽约时报》)发表文章,解释了“开源洗白”在人工智能中的担忧和风险。
开源洗白是一个任何熟悉开源软件的人都知道的概念。它是用来描述不符合开源要求的软件被错误地称为开源的口语词。错误的标签让分发者获得了开源的感知优势——快速采用、成为事实标准的潜力、社区贡献和协作,以及任何法律优势或排除——而没有提供开源带来的全部优势。
OSD 的第 5 和第 6 条定义意味着任何人都可以将开源软件用于任何目的,从而实现自由流动。许可(无论是开源还是其他)不凌驾于法律之上,尽管许可证自由流动,但开源软件仍受出口管制等法律的约束。
立法者对道德等问题负责并做出决定,但开源软件许可证不负责。
开源洗白意味着应用于软件的许可证不符合 OSD,通常包括对自由流动的限制。该许可证不符合 OSD,也无法获得批准。传统上,这些开源洗白许可证在商业上受到限制,因为该软件是开放的,可以用于任何目的,而不是商业目的(与定义 6 相反)。
由于开源软件的自由流动,将开源软件货币化具有挑战性,这消除了限制竞争的能力。开源实际上意味着你用自己的创新来赋能你的竞争对手。在开源洗白中,分销商可能会保留一定程度的控制权,同时错误地暗示其软件是开源的。他们实际上既要吃蛋糕,又要留着蛋糕。
“开源”一词没有被注册为商标;因此,很难监管其使用。这个事实经常被忽视,但很重要——也是对所有人的一个教训。
AI 的开放性
《审查员》描述了 AI“系统由多个组件组成,这些组件通常包括模型架构,它是确定系统如何处理和从输入数据中学习的核心算法;模型权重,它是确定如何将输入数据(如提示)转换为输出(如插图或文章)的变量;用于训练模型或在模型训练后运行模型的软件代码;以及训练数据。”
简而言之,AI——在这种情况下,生成式 AI 和 LLM——不仅仅由软件组成,无论是开源还是其他。AI 组件可以被分解,每个组件本身可以是开放的、封闭的或介于两者之间。当一个组件被打开时,这种开放性可以是完全的——具有与开源软件相关的自由流动和良好实践——或者它可能是受限制的或完全封闭的。
Meta 的 Llama 2 在其网站上被标记为“开放式创新”,但马克·扎克伯格将其称为开源,这可能是一种开源洗白。
去年 12 月,斯坦福大学 HAI 的报告 指出,AI 系统在开放性方面涵盖了整个范围,随后在 2 月份,英国上议院通信委员会 报告 在其 LLM 调查中指出,“‘开源’模型一词的使用仍然存在争议”。他们还设定了从完全开放到完全封闭的梯度,以及许多中间级别。
今年 6 月,荷兰奈梅亨拉德堡德大学语言研究中心 提出了 14 个“维度” 作为标准,以实现对开放性梯度的清晰分解和评估。
这种分解和评估的重要性是双重的:
首先,必须了解组件和级别,以确定每个开放组件的风险和益处。
其次,它引发了人们对世界首个 AI 立法——欧盟 AI 法案——过早性的合理担忧。它使用“开源”一词来提供特殊地位,并为符合开源标准的 AI 免除责任。
这种分解和评估 AI 组件的方法对于管理 AI 风险、益处和责任的评估至关重要。
Linux 基金会的模型开放框架 试图通过澄清 AI 组件的可用性、许可和商业用途的适用性来消除歧义并创造透明度。截至今天,这得到了一个评估 工具 的支持。像这样的开源工具以及英国 AI 安全研究所的 Inspect 评估平台——多个国家和 16 家主要 AI 提供商已承诺使用该平台——使合规性评估能够在没有监管的情况下进行。
创建开源 AI 定义
一个“开源 AI”定义正在与 OSI 共同开发。如果它符合所有 AI 组件(包括数据)都将被其捕获的假设,那么它可以作为完全开放或“开源 AI”的锚点,位于与完全封闭相反的尺度端。一个滑动尺度位于两者之间。
该定义的效用可能会像 AI 法案一样,受到时间的限制,在最终确定时存在风险,即被当今 AI 的“移动目标”迅速过时。无论它最终落在哪里,OSD 都必须得到其创建和内容的支持。
对开源软件的影响
监管机构希望找到一个承担责任并分配风险的人。在过去几年中,人们对白宫法令以及欧盟网络弹性法案中开源安全的担忧不断增加。很少有人真正了解开源软件的创建、分发和商业化的细微差别,因此这些内容没有很好地转化为法规也就不足为奇了。
开源软件已经面临挑战,关于在人工智能领域“禁止开源”的讨论引发了人们的真正担忧。
人工智能辩论对开源软件的未来风险显而易见。开源软件最近的大规模采用以无与伦比的速度使其成为常态,这表明用户可能无法很好地管理开源软件。
开源软件确实赢得了软件之战。但尚未得到解答的问题是,这是否是在民主化技术斗争中取得的短暂胜利。开源软件的守护者必须保护开源软件免受人工智能可能对其产生的任何影响。
相关文章:
- 六个理由说明为什么企业需要专属大型语言模型
- LLM巨头需要开放、透明和安全的工程
- 2023年开源大语言模型一览
- LLM的三大缺陷
- 清洁数据,可信模型:确保您的LLM拥有良好的数据卫生