现在让我介绍一下萨姆·阿尔特曼(Sam Altman)。萨姆是大家熟悉的连续创业者,他曾担任YC的总裁,现在是OpenAI的CEO,他还投资了包括Airbnb、Stripe等公司,甚至还参与了Heon这样的能源融合公司。他帮助建立了World Coin,一种新的加密协议,可以说他涉足过很多领域的投资。他可谓涉及众多领域,且都做得很好。欢迎萨姆!感谢他加入这一轮讨论。
今天我们要讨论的内容很多,我们将从AI的历史一直谈到我们是否最终会遭遇所谓的“人工智能末日”。我们可以从一个积极的角度开始。我想听听各位对AI历史的看法,这些年来在参与和运营AI公司过程中,有何变化?然后我们可以更深入地讨论当前正在发生的事情。
确实是这样,这是一个持续很久的连续进程,只不过在计算能力开放方面发生了变化。神经网络的理念也不算新,这种想法一度被认为已经死亡,但它依然很神奇。我想说,这确实是一个长期存在的理念,自计算机发明以来,人们一直在谈论这一点,直到我们终于有了足够的计算能力来使它发挥作用。但其中还有更多。有一个重要的转变是我们转向了大规模的无监督模型。这一点并未如大多数人所预测的那样发生。如果我们倒退五六年,这样的转变实际上并未被大多数人预期。但我们确实发现,我们有一个真正的算法,能够真正、真诚地学习,我们可以增加计算能力,它将会以可预测的方式更好。我们需要更深入地讨论这个话题。
我说的是,似乎有一个重大的范式转变,从过去的一些方法转向了这些大规模的无监督模型。我有点好奇,是什么导致我们从当时的CNN、RNN和GNN世界转变到后来的Transfomer模型,在2017年发表论文后逐渐得到广泛应用?而且花了大约一年或两年时间,才真正得到整合和发展。我只是好奇,这种转变是从什么时候开始的,以及原因是什么。
在人工智能领域,如果我们回溯到大约2015年,我们本打算训练强化学习(RL)代理来玩游戏,然后将它们置于更加复杂的多代理环境中,从而学习一系列社会技能,如何相互协作,甚至像吃对方或其他事物。最终,它们要学习人类的知识。很多人为其认为这是合理的发展路径。但实际上,几乎没有多少人预测到我们最终会以非代理的方式让模型学习所有人类知识,然后再利用这些知识来做更复杂的任务。刚开始让模型读互联网上所有人类写的文章时,就像逐个预测下一个单词,这被认为非常不可行。
这比我们预期的要走得更远。我认为领域内的主要变革之一就是Transfomer模型。它们是在那些比之前更有效、更计算效率高的模型的基础上脱颖而出的。Transfomer模型有很多好的理念,但重要的是它们能够利用当时可用的硬件。但真正有意义的地方在于,我们可以将这些大规模的无监督模型扩展到很大的规模,并得到相当意想不到的结果,从根本上实现零样本学习,这对很多人来说仍然是几乎惊人的进展。我认为,这看起来是如此明显,但在四五年前,如果有人告诉你,你会对此理所当然,他们会认为你根本不懂他们在说什么。我认为OpenAI已经找到了一些非常有趣的应用方式。
当然,我们有GPT和大型语言模型、Dalle,还有你们团队推出的如Whisper这样针对语音转文字的优秀API。在未来的方向上,OpenAI最关注哪些方面?
我们认为我们能够使用同样的模型风格,比如更进一步、更互模态化,让这些多模态模型达到像GPT那样的水平。但显然,我们还远没有达到顶尖。还有很多有趣的事情可以去做。我们希望创建有益于人们的产品。GPT-3已经具有一定的用途,未来我们可以做得更好。
你认为未来API层面如何?或者你仍然持开放态度吗?
我认为API和开放源代码的模型是促进生态系统发展的最佳方式,这是我们工作的主要方向。很高兴我们与微软共同打造了Github Copilot的完整体验,这也让人们能够更清楚地认识到这一点。就像Dalle一样,我们将其发布在实验室阶段,目的是让人们能探索并使用它。所以我认为未来我们还会做类似的事情,像开放新公司、商业模式和产品,吸引尽可能多的企业进入,成为智能核心底层或平台是很令人兴奋的。
你觉得在ML或AI领域,OpenAI没有做的最有趣的事情是什么?
如果我们认为某件事很有趣,我们会尝试去做它。但有些领域仍是我们看似太小或太犹豫做不了的事情。譬如,是一种强小模型,能够针对一个特定任务做得非常好,不是那种大规模通用的模型。我们对此并不特别关注,因为它似乎并不是通往强人工智能的最直接路径。但在那些有意义并对产品使用方式带来巨大价值的工作中,我认为这些领域相对窄一些但非常强大的小模型非常重要。
回顾技术创新的浪潮,往往有这样一种情况:在某些阶段,价值都流向初创企业;而在某些阶段,价值都流向成熟的巨头。例如,早期互联网的浪潮中,大部分市值被初创企业占据,今天集中在Google、Amazon等公司,但在五、六年前包括微软、苹果等巨头同样获得了巨大成功。移动互联网时代,初创企业和巨头各占50%的份额,Instagram、WhatsApp等名不见经传的创业公司一跃成为主流,随后发展为Salesforce这样的巨头。
但考虑早期的AI浪潮,也就是过去十年左右,显然在那个时期还有很多之前的事情发生。但我们似乎发现,这个时期的大部分价值都流向了巨头,这是为什么?当你回溯那些创始企业被投资、被工作的发展,但几乎没有哪家企业真正创造了突破性的成果。有TikTok,通过一小段舞蹈引起了巨大关注;Netflix借助推荐引擎重塑了网络视频;Facebook的新闻推送功能也引起关注。直到最近,才看到一些具体的创业公司产生的价值。因此,我很好奇为什么所有价值都流向了巨头?未来在这一波中,价值会如何分配?
我对这个问题非常感兴趣。我已经在很多行业中研究过这个问题,希望能得到一些答案。当前的情况是更具争议的。历史上的公司随着时间的发展,其实路是不太明显的。要么公司变得更强大,要么新创公司取得胜利,这是默认趋势。
我认为最近的情况表明,大型技术公司比预期的更强大,至少比初创公司能挑战的要强。但这是否意味着这是我们看到的未来,这些公司从未如此之大,或者未来他们可能因此变得更强,我不确定。但可以肯定的是,如果今天的资本和资源换个场景看看,也许会很容易告诉你为什么这些公司会受益良多。然而,他们似乎并不理解这一点。
目前看来,似乎初创公司具有一定的发展势头。今天的观点是,将是最有能够创建最强大模型的大公司起决定作用。将OpenAI也包括在内,但我认为在这些大型公司之上,才是能够获取这些价值的初创公司。
2010年至2020年间的周期类似于单纯的初创企业占主导。到了2010年,Alex Net、CNN、RNN、GAN等令人兴奋的技术出现,当时人们确实感受到了某种变革即将到来。而在这后两三年中,一些基于初创企业的趋势终于开始崭露头角。可能不只是技术能力的问题,也可能是市场因素或创始人的市场专注问题,但这一点并非普遍存在的。
我想OpenAI确实具有不同于传统的特质,不足以推导出太多结论。对于应用级别公司的合并,我们可能还没有看到,至少还没有新的万亿级AI应用公司诞生。我认为还没有到那样的时期,但未来几年可能会有一些企业成立。
在10年前,我们已经观察到,从2010年开始的这场变革充满了投资热潮,估值爆炸、少数公司占据了风头。但到这个时期后三个季度,人们开始认为这些公司将成为未来的平台级巨无霸。但我不知道应该如何解读这一点。回到这场变革的最初时期,英国政府决定建立准主权形式的股份公司,推动了一场无比成功的创新。这一创新使一系列其他创新得以实现。隐含的契约是这些公司不应该超越真正的主权国家,但这种情况似乎正在发生变化,这些公司的竞争力越来越强,社会能容许这种情况持续多久?
这些事情的历史类比难以预测。以移动设备为例,设备的能力暗示了一些公司最终成为非常成功的故事。比如,我们知道人们会在移动设备上发送消息,于是发现了WhatsApp、Signal、Telegram等消息工具。或者我们知道相机是最主要的摄影工具,于是便预知了Instagram等社交应用的诞生,尽管具体的功能十分彰显创新。
你认为未来AI领域的应用级公司会具备哪些特征?有哪些共同点值得关注?
我认为可以放开尝试,但确实相信自然语言将成为一种新的接口并改变我们与世界互动的方式。我们将能够控制很多事物,虽然并非全部,因为有时人类直觉更好,但计算机能够以命令的形式帮助我们完成大部分任务。我们能够生成任何内容,这将引领出大量能够创造、生成图像、游戏、电影和音乐等多媒体内容的新应用。
可以谈谈符合这些应用特征的事例,比如自动化知识工作,这些自动化职位可能主要涉及法律、医学和教育。我们认为能够在这些垂直领域实现自动化,但也会有一些难以预测的新形式涌现。最重要的是,这种超自然的意识能够以超快的速度、不可思议的成本有效性运行。希望能够在这个方面取得美好的进展,如果不能,我们也做好了准备。
你提到多层次模型和定制化方法之间的区别,你觉得这两种方法最适用于哪里?如果有一个简单重复的职位,希望不断地造福大众,即便存在某种变化,这些小模型将是很好的选择。而需要涉及复杂人类思维与理性判断的任务,大规模模型则更占优势。
令人有趣的是,当我与领域内的研究人员交谈时,大家都指出,似乎无论参数规模还是其他模型特点,GPT 3.5等后续版本似乎总是领先一步,尽管参数量大得多。你认为GPT模型呈现出这种魔力的原因是数据质量、模型设计,还是其他因素?我很好奇这种持续优势来自哪里?
我认为我们在研究和开发中拥有一流的工程师和研究者,这是很重要的。但我认为大多数公司都喜欢这么说,因此你可能不会轻信我。但我们确实拥有五星级别的研发人员,非常注重细节,某些奥秘我们可能不会直接告诉你。从整体上看,我们需要关注很多细节,有许多因素促成我们取得这样的进展。
另一个让我感兴趣的话题是向更多开放源代码模型的转变,以及AI安全性与对齐。你能告诉我们你对这两种方法的看法吗?
我认为开放源代码的发展是个好事,没有哪个系统达到了真正的危险水平,使人们担心可能造成无法挽回的损害,使社会完全不愿意开放。我们也不会开放核武器这类重要系统。但就图像模型而言,我们已经开放了Whisper等语言模型,这是非常令人兴奋的。我认为世界上大量使用人工智能是件好事,而不是坏事。开放源代码是可能推动更多使用的人工智能发展的一个重要渠道。
人们在讨论AI对齐和安全问题时往往会涉及避债风险,一旦目标违背了人们的初衷,就会出现问题。谈到AI安全,它本质上包含对齐,不仅仅是避免冒犯某些人,还有在政治等领域遇到的问题。当我与领域内的专家交流时,他们认为许多公司因安全原因停滞不前,开发的核心技术未见应用。安全确实影响了领域的进展。
虽然收到了不少批评,但我们把GPT-3导入API时,尽管时间已过去很久,我们知道需要从现实出发不断改进模型,而在低风险下迅速改进。当前我们使用的模型,在API中产生的可能冒犯性结果,除非你特意为之,大多数情况下都是不错的表现。我们认为社会将会设立一些基本规范,但也可以得出很多一致性的结论。比如,AI是否能够做他们所期望的一切,仍存在很多种可能性。
我认为对我们来说,试图声明OpenAI对一个模型未来可能进行的所有决策拥有控制,这将是不可接受的。通过与现实的接触,部署这些模型,观察人们如何误用它们,我们能够快速学习。许多教训并不明显,有的意料之外。因此,我们不必像Google那样担忧某些棘手问题,也绝不会一下建立一个强大的AGI并将其投入实际使用。
我认为推动AGI安全比单独处理这些问题更有意义。但也有专家认为只有专注AGI安全才是正确的。我认为他们过于理想化,限制了研究的视野。
我们还推动了关于AGI的概念窗口的扩展,以前谈起AGI还会被认为是天方夜谭,现在大多数人对此已经有所了解,普遍认同AGI安全至关重要。我们认为让更多人参与讨论,形成共同的认识,是提高安全性的关键。未来如何平衡技术开发与安全是另一个关键问题。对于AGI开发所需的安全与对齐,我认为两者不可分割,是高度相关的。我们面临的AGI安全问题远比以往任何技术都需要处理的问题复杂,也要意识到技术的发展和应用带来的变化都是未知的。
未来十年,或者更远的五年后,我们将会怎样?2027年或者2032年,世界将是一个怎样的景象?
我认为2032年我们可能会拥有超级智能系统。在十年内,我们应该会实现通用人工智能(AGI)。但是我指的是现在我们API中的GPT,它在某个具体任务的表现并不能被完全涵盖在AGI之下。你认为目前的最佳模型在哪些方面还不具备AGI的特征?
显然,超智能存在许多理论和实践的辩论。但如果我们展望未来,回到历史趋势,我们知道早期自动化首先针对的是体力劳动类职业,如卡车司机、工厂工人等。然后是较简单的白领工作,在高级认知任务中,如创意工作等,可能会很困难。然而,显然这一预测在多个层面都是错的。我们已经深知未来的演变,比如艺术家工作的顺序。
总结一下,面对未来环境中开发AGI并与之共处的问题,我们确实需要将安全与对齐一并考虑,二者不是完全独立的,而是高度相关。总体来看,这是一项技术问题,我们会从多方面入手,逐渐取得进展。
在AI模型性能方面,未来的突破将主要来自于哪个方面:芯片、算法、工程问题、还是数据规模?
都将是这些因素共同作用的结果。我们会发现更好的算法,开发更快的芯片,找到更有效使用的方式,获取更好的数据,所有的这些因素会相互增益。
我认为存在一种算法或架构,如同Transformer模型那样,是巨大的突破。希望我们能发现它,这将是一个巨大的挑战。同时,从硬件层面看,这也是持续进步的。
你认为未来通用人工智能将首先解决哪些人类问题?
它会是艺术家然后是音乐家?还是说有什么错误的理由?之后呢,是AI医生还是AI律师先普及开来?这到底有多重要?
从某种角度来看,这其实无所谓。认知劳动并不会被完全取代,而是会以Copilot的方式大大增强,所有这些,我们每个人都会在各自的工作中变得更加高效。而迟早有一天,这些将会被自动化,到时候我们会找到新的事情去做。
但我认为,对于大多数现有的工作来说,除了一些我们不愿意自动化的或者希望它们维持高地位的工作,或者我们真的希望人类持续参与其中的工作外,许多事情最终都会被自动化。我认为是否这些事情将在2031年或2032年发生并按照什么顺序实现,其实还算有趣,确实有些重要性。但主要的是,这些事情终究会全部发生。你所说的自动驾驶或其他事物,我记得大约六七年前,多位国会议员都在与硅谷人士做调研,询问如何应对大量被替代的卡车司机。当然,最终还是没有结果。
这确实很有趣,你认为人类会变成什么样子?
我认为在人类或计算发展的三个时代中,直到最近几乎所有计算都是由人类完成的,现在我们正处在一个混合的时代,未来可能将会是一个计算由机器全面驱动的时代。我们现在正处于过渡阶段。
你认为AGI最终将取代我们,还是生物学只是未来机器智能的一个启动程序?
可以肯定的是,未来人类将会以非常不同的方式生活。这与历史上的每一次技术革命前后的状态一样。我认为这次转型将是最大的一次,但我怀疑这是一种错误的想法。每一次转型都会变得更大,未来肯定会发生更大的变化。在计算机革命前,我们尝试理解人工智仿佛在工业革命前理解机器一样困难,至少是这样的。
你认为它是一个技术飞跃,还是说是引进一种新的物种来竞争?似乎总会有一个转折点。我认为如果我们处于任何“我们vs他们”的情景下,这将是非常糟糕的,我们不应进入这种局面,这至少意味着某种形态的共存。我还认为,就像我的同事伊利亚所喜欢说的,我们要创造一个真正爱人类的AGI。这听起来可能有点傻气,但我实际上认为这是一项非常合理的策略。但如果涉及到任何“我们 vs 他们”的竞争,我们现在认为这是一件坏事。即使我们认为合并是好的,许多人也确实会这样做,但将来还是会有很多人不愿意。
我认为人类的需求将仍然非常相似,已经持续了数十万年。有些人可能会选择像生活在地球上没有AGI的地方的人那样生活,有些人则希望创造出AGI并探索宇宙。这些事情很有趣,但我觉得在目前情况下很难精确地说。
我能有把握的一件事是,我们应该尽力避免与我们的动态相反的一系列动态模式。确实有意义。我总是想知道我们是否应该避免这种动态,但如果我们重新出现了一种新的物种,它将有自己的效用函数和动力。这将是自我复制、自我编辑的数字化生命体,只要有足够的计算资源就可以扩大规模,然后会有这种形式的物质体现。会有高级机器人和其他事物。
我认为自然选择的生存形式已经结束,这是一个好消息。但现在将会更倾向于有目的地进行转变。我们知道,我们可以思考和反思出我们想要的结果。我认为有多个好的选择,而且整个社会应该参与进来,选择我们想要的道路。
人们通常试图区分意识与知觉。你认为GPT模型是否有意识?
我不确定这两个词之间的区别。知觉是一种特定形式的自我意识,而意识是指能够智能地处理和互动于环境。知觉是“我是”的意识,即我意识到自己的存在。那么,意识是什么呢?我意识到世界,但不一定意识到自己的角色。有一本书叫《盲视》(Peter Watts的《Blindsight》),探讨了这两种形式智能之间的微妙界限。让我们稍微改变一下问题,转而讨论这些概念的定义。
不管用哪种定义,你认为GPT模型的意识是什么呢?
我认为笛卡尔基本上是对的,我可以确认我的意识。这是我确定的开始和结束。
我不能确定你是否有意识,更不用说GPT-3了。我更倾向于认为你更可能是。但让我坦白地说,没有任何可以让我相信一个AI具有意识的东西。你可以问GPT-3它是否有意识,它会说“是的”,但如果解释它是GPT-3,它会同意。未来的模型会更令人信服,如何确认这一点将是一个饶有趣味的深夜问题。
有许多我们可以用来测试模型是否具有意识的测试。但没有任何东西能让我确信,可以说这是一个完美测试的标准。因此,我们有一些有希望的想法,但不确定GPT-3是否具有意识,因为它是一种极其陌生的意识形式。想象一下,这个东西只是在那里熟睡,有人给它一个提示,能量通过前向流动。一旦醒来,它就会意识到自己,给出一个答案,然后立即又消失了。所有的上下文都消失了。所以这是一个厚重的权衡过程。
我更可能相信它在训练过程中是某种方式具有意识的。即使这听起来不太可能,我也表达了我的不确定性,认为这超出了科学的范畴,至少对于我知道如何确定的东西超出了界线。但可以吗?我能说的是,从我自己的意识感知来看,有我深信不疑但不确定GPT-3是否具备的因素。这看起来不太可能。
最近我听到一个引人思考的观点,我将就此闭嘴,因为我没有确凿的结论要说。
有人提出了一个观点,人类意识体验的一个特点是无法预测自身神经网络的输出。所以我们有一种像是观察者和内部独白的感觉,它们似乎是分离的。但同时,人工神经网络将会变得如此庞大和复杂,以至于它们自己也无法预测输出,因此也会有同样的主观体验。
接下来,我会提出一些来自观众的问题。这些问题是人们在报名时提供的。如果有额外的时间,我们可以进行更广泛的问答环节。其中一个问题是,你之前持有的关于AI的一些信念现在你认为是错误的,或者你最近的大的思考转变是什么?
当OpenAI成立之初,大约在2016年,我意识到规模的重要性,但显然我没有很重视。我认为我们在公司设立上没有完全领悟到这一点,因此我们的关注点错误地放在了其他地方。直到某一年的冬天,我清晰地回忆起,当时外面在下暴雪,我突然意识到,我们本应该全心全意投入进这个项目。
我们没有这样做,而是决定要这么去做。这是一个非常奇怪的错误。我在某种程度上思考这件事,我理性上是对的,但我的行动是错误的。
你认为使AI过程不高效、困难或繁琐的是什么?
不高效、困难或繁琐。这让我想起了早期计算机编程并不方便,以至于我们做了很多如今在AI基础设施中常见的事情,比如堆砌服务器或整个栈,这些在未来几年可能会被自动化处理。但是目前,这些事情都需要团队来完成,会有优秀的框架和技术栈,就像AWS一样,只需点击按钮就能实现。但我们仍在技术推广的早期痛苦阶段。
这是一个有趣的问题,如果OpenAI变得更成功一百倍,但结果会让你失望呢?
我能想到很多种可能性:我们设定了某种结构,如有上限封顶的利润结构,因为我们不希望追求无限利润。当时认为这些结构的人,像是自我纵容的傻瓜,但现在看来相当有先见之明。你能在办公室中看到人们做出不同的决定,人类在拥有正确的激励机制时,会做得更好。
你认为机器学习如何改变电影、动画和电子游戏?
我们已经看到了这种情况,例如人们开始自己创作艺术,设计持久的角色。我们正处于非常短的视频的早期阶段,甚至还没有叫电影。你正看到艺术家们创作惊人的作品。对于我来说,最有趣的是艺术家用Dalle模型能比我自己做好更多的事情,确实有些有趣的地方。我认为这一切只是开始,将会有更大的突破。对于创作者来说,这将会是极其强大的工具。
如果你回顾技术浪潮,它们通常首先应用于科技公司,然后被其他企业采用。回顾最初的一组机器学习平台,它们首先被硅谷公司采用,然后转向为大型企业提供的服务模式,原因在于企业中缺乏人手实施这些技术。他们甚至还没有做到线性回归,他们还有很多地方没有做到。
AI何时开始影响每个企业,我们又将如何实现这一目标?
我喜欢AI的一点是(至少现在正朝着这方向发展),你知道得越多关于AI的知识,你就越难从现有模型中提取价值。因此,如果一个AI专家来使用其中一个模型,并考虑它们带来的所有问题,然后你只是随便找一个企业中的人来阐述其功效,他们会比专家更快地理解。这就是所谓的“初学者思维”,他们也许比专家更简便地明白了。
我看到这种情况,孩子们和成年人使用GPT-3或Dalle,使用方式有所不同。
基于我们迄今为止所见,我感到这种技术将意外地促进民主化的发展,不奖励深厚的技术专长,而是奖励对问题空间的深刻了解或高度的创造性,或从全新的角度看问题。
请问一个关于Xenobots的问题,我们何时能够将合成生物学与基本的编程基础设施结合起来,用于训练GPU集群?我的问题是何时会建立仿生计算机,或者你只是会以神经链接方式连接大脑?
在我看来,Xenobots依靠的是电能,而计算机需要水、氧气等多元细胞生命形式所需的条件。因此,它们之间有一个明显的不同之处。我觉得在信息理论层面上,这样的结合是有用的。生物智能在进化过程中发展出了特定的形式,是生物与众不同的经历及严重的约束条件的结果。然而,我相信大多数东西都可以在硅基上进行模拟,而不必让过程变得更加复杂。因此,我依然认为晶体管是一个非常棒的计算工具,你可以忽略这些模拟过程。我们可以在互联网上获得足够的信息来创造AGI。与之对比,互联网上有连续的视频流,而我们的双眼只能感知一部分。网络上包含大量的数据和视频。
我听到了三四种关于提示词注入攻击的定义。你能否解释一下你的意思?
是的,我认为这是通过训练模型以特定方式行动,并让它们明白这一点,使人们清楚地知道何时发生这种情况,以及一套顶部工具的集合。我认为在模型内部,我们也能相当深入地了解情况,并让模型了解其中的情况。
如果依赖提示在开始处使我们更加安全,不应该考虑这一点。现在能看到一些偏见,比如模型,人们在提示开始处默默地注入某种东西,这不是一个长期的解决方案。你指出了很多这种情况不好的原因,而且我认为这在未来一两年内不会改变,即使在我们不注入指令的情况下,提示注入仍然会导致奇怪的行为。但是我认为模型可以意识到当这种情况发生时,可以提醒人们,我在提示中有这些冲突的指令,这是我该如何平衡它们的思考方式。
我们是否会有AI冬天,可能是什么导致?
的确,我们应该认识到,即使我们永远不会发现另一个研究思路,当前范式的经济价值以及可以进一步推进的程度也会持续数年。然而,尽管可能性非常低,但这些模型可能永远停留在人类水平。我有理由认为这不会发生,但如果有人告诉你,这个研究领域不可能有另一个冬天,你一定不应该相信他们。