《通用人工智能的火花:GPT-4早期实验》是微软今年3月发表的一篇重要的GPT论文,引发了广泛的关注和讨论,论文原文是英文版,长达 154页,但中文版本还无人翻译,本文是整理了这篇论文的主要内容,做一个精华版,方便大家阅读。
因为微软是OpenAI的主要投资方,所以微软研究院很早就拿到了 GPT-4 的非多模态版本,并进行了详尽的测试。这篇论文就是整个的测试过程和结论。不管是测试方法还是结论都非常精彩,英文版论文原文地址: https://arxiv.org/pdf/2303.12712v1.pdf
1 介绍
我们(微软,下文中的我们都指微软)认为GPT-4是新一批大语言模型的一部分(例如ChatGPT和谷歌的PaLM),它们比之前的AI 模型表现出更多的通用智能。我们证明,除了对语言的掌握,GPT-4可以解决跨越数学、编码、视觉、医学、法律、心理学等新颖和困难的任务,而不需要任何特别的提示。此外,在所有这些任务中,GPT-4的表现出惊人地接近人类的表现,大大超过之前的模型,如 ChatGPT。鉴于GPT-4能力的广度和深度,我们相信它可以被合理地视为人工通用智能(AGI)系统的早期版本。
虽然GPT-4在许多任务上达到或超过了人类的水平,但总体而言,它的智能模式明显地不像人类。GPT-4只是迈向通用智能系统的第一步。然而即使作为第一步,GPT-4也挑战了相当多的关于机器智能的假设,并表现出涌现的行为和能力,其来源和机制目前还不够清楚。我们撰写本文的主要目的是分享对GPT-4的能力和局限性的探索,以支持关于技术飞跃的评估。我们相信,GPT-4的智能标志着计算机科学领域及其他领域的真正范式转变。
1.1 研究方法
本文的更接近于传统的心理学而不是机器学习,借鉴了人类的创造力和好奇心。我们的目标是生产新的和困难任务和问题,令人信服地证明GPT-4远远超出了记忆的范围,并且它对概念、技能和领域有深刻和灵活的理解。我们还旨在探究GPT-4的反应和行为,以验证其一致性、连贯性和正确性,并揭示其局限性和偏见。这样的第一步为开发更正式和全面的方法来测试和分析具有更普遍智能的AI系统开辟了新的机会。
GPT-4的主要优势在于它对自然语言的掌握无可比拟。它不仅可以生成流畅和连贯的文本,还可以以各种方式理解和处理文本,如总结、翻译或回答一系列极其广泛的问题。此外,我们所说的翻译不仅是指不同自然语言之间的翻译,还包括语气和风格的翻译,以及跨领域的翻译,如医学、法律、会计、计算机编程、音乐等等。这些技能清楚地表明,GPT-4能够理解复杂的思想。
许多读者可能会疑惑,GPT-4是否真正理解了所有这些概念,或者它是否只是在即兴发挥方面比以前的模型好得多,而没有任何真正深刻的理解。我们希望在阅读完这篇论文后,这个问题几乎会被反转,让人不禁思考: 真正深刻的理解和即兴临场发挥的差别在哪里? 一个能通过软件工程候选人考试的系统难道不是真正的智能吗?对于真正深刻的理解,也许唯一的测试手段,就是看它能否能产生新的知识,比如证明新的数学定理,而这一壮举目前对大语言模型来说仍然遥不可及。
2 多模态和跨学科的组合
智能的一个关键衡量标准是能够从不同领域、模态中综合信息,并能够在不同的情境或学科中应用知识和技能。GPT-4不仅在文学、医学、法律、数学、物理科学和编程等不同领域表现出高水平的熟练程度,而且还能够流畅地结合多个领域的技能和概念,展示出对复杂思想的令人印象深刻的理解。除了自然语言实验,我们还探索了两种可能出乎意料的模态,其中涉及视觉和音频(再次强调,我们的实验是在GPT-4的早期版本上进行的,该版本不是多模态的)。
我们探讨了GPT-4如何生成和识别不同模式的物体,如矢量图、3D场景和音乐。我们表明,尽管GPT-4只接受过文本训练,但它能理解和处理多模态信息。
2.1 综合能力
为了展示该模型非凡的整合能力,我们从几个需要结合多学科的知识或技能的方式来生成文本和代码的示例开始。我们故意挑选了训练数据很少涵盖的领域组合,例如文学和数学,或编程和艺术。
例子:莎士比亚风格证明质数无穷
这些例子表明,GPT-4不仅学习了一些不同领域和风格的通用原则和模式,而且还可以以创造性和新颖的方式结合它们。这些跨学科技能并不是GPT-4所独有的。ChatGPT也可以产生一些答案,显示出对任务和所涉及领域的一些理解,但它们往往是不完整的,可以说,相当缺乏创造性。
2.2 视觉能力
给模型指令,让模型使用可伸缩矢量图形(SVG)生成猫、卡车或字母等对象的图像如下图:
有人可能会说:这只是复制了训练数据中的代码,而且它只学习了文本概念,不可能理解视觉,怎么可能创建图像呢?
但模型确实掌握了视觉能力,以下是一些证据。
画小人
要求 GPT4 画出一个小人,测试其视觉能力,注意这里使用的 GPT4 还未进行视觉训练。
使用TikZ代码,画出一个由字母组成的人。胳膊和躯干可以是字母Y,脸可以是字母O(添加一些面部特征),腿可以是字母H的腿。
躯干有点太长,手臂太短,看起来像右臂在扛着脸,而不是脸在躯干的正上方。请你纠正这一点好吗?
请添加衬衫和裤子。
通过画小人能看出,GPT4对小人的手臂、脸、躯干的位置都能理解和定位,证明其从文本获得了视觉能力。
图像和字母组合
生成 3D 模型
要求 GPT4 使用Javascript生成一个3D模型。
一个由漂浮的岛屿、瀑布和桥梁组成的幻想景观,一条龙在空中飞翔,最大的岛屿上有一座城堡。
与二维实验类似,我们要求GPT-4以各种方式修改三维模型,如添加、重新定位、重新着色物体和改变龙的轨迹。GPT-4正确地完成了许多任务。最终结果如图所示。
这是一个有多条龙在岛屿上空盘旋的三维动画:
空间理解
图像生成模型近几年的发展和探索很多,但它们大多缺乏空间理解能力,且不能遵循复杂指令。使用 GPT4 生成草图可以极大地改善图像生成模型的效果。
一张显示3D城市建造游戏截图。截图显示了一个地形,其中有一条从左到右的河流,河流下方是一片沙漠,有一座金字塔,而河流上方有许多高层建筑的城市。屏幕底部有4个按钮,分别是绿色、蓝色、棕色和红色。
图1:直接 GPT4生成草图 图2:stable diffusion 直接生成 图3:stable diffusion 根据 GPT4 的草图生成
2.3 音乐能力
GPT-4 能够以ABC记谱法生成旋律,并在某种程度上解释和操作它们的结构。但是,我们无法让模型生成不常见的和声。
以ABC记谱法生成旋律
3 编程
我们展示了GPT-4能够以非常高的水平编程,无论是根据指令编写代码还是理解现有代码。GPT4可以处理广泛的编程任务,从编程挑战到现实世界的应用,从低级汇编到高级框架,从简单的数据结构到复杂的程序,如游戏。GPT-4还可以对代码执行进行推理,模拟指令的效果,并用自然语言解释结果。GPT4甚至可以执行伪代码,这需要解释在任何编程语言中都无效的非正式和模糊的表达。
在目前的情况下,我们认为GPT-4在编写只依赖于现有公共库的专注程序方面具有很高的熟练度,这与普通软件工程师的能力相仿。更重要的是,它同时赋予了工程师和非熟练用户能力,因为它使编写、编辑和理解程序变得容易。
我们也承认,GPT-4在编码方面还不完美,因为它有时会产生语法无效或语义不正确的代码,特别是对于更长或更复杂的程序。GPT-4有时也无法理解或遵循指令,或产生与预期功能或风格不匹配的代码。在认识到这一点后,我们还指出,GPT-4能够通过响应人类的反馈和编译器来改进其代码错误。
3.1 编程挑战
衡量编码能力的一种常见方法是提出需要实现特定功能或算法的编码挑战。我们首先在HumanEval [CTJ 21] 上对GPT-4进行基准测试,该数据集由164个编码问题组成,测试了编程逻辑和熟练程度的各个方面。如表1 所示,GPT-4的表现优于其他LLMs。
尽管与之前的模型相比,GPT-4的准确性有了很大的飞跃,但这可能是因为GPT-4在预训练期间看到并记忆了部分(或全部)人类评估。
为了考虑到这种可能性,我们还在LeetCode ( https://leetcode.com )上对其进行了评估。为了防止模型作弊,此测试只用了模型训练完成之后(2021年9月后)所产生的新考题作为测试集。来自 LeetCode ,共100个问题。并以人类的回答水平作为对比。k=1 是第一次尝试就成功,k=5 是前五次尝试成功1次,考题分为容易、中等、困难三种级别。
考试结果如下:k=1的时候,GPT4达到人类水平,k=5的时候,GPT4超过人类水平。
3.2 解决真实问题
代码测试题可以评估算法和数据结构的技能。然而,它们经常无法体现真实世界编码任务的全部复杂性和多样性,这需要专业领域知识、创造力以及整合多个组件和库的能力,以及更改现有代码的能力。为了评估GPT-4在更现实的环境中编码的能力,我们设计了端到端的真实世界编码挑战,涉及数据可视化、LATEX编码、前端开发和深度学习等领域,每个领域都需要不同的专业技能。对于每个任务,我们提供高级指令,要求GPT-4使用适当的语言和框架编写代码。在一些情况下,我们还会在代码编写后更改规格,并要求更新代码。
动态规划问题
数据可视化
我们要求GPT-4和ChatGPT从表2的LATEX代码中提取数据,并根据与用户的对话在 Python中生成一个图。之后,我们要求这两个模型对生成的图执行各种操作。虽然两个模型都正确地提取了数据,但 ChatGPT从不产生符合要求的绘图。相比之下,GPT-4会适当地响应所有用户请求,将数据处理为正确的格式,并调整可视化。
LATEX 测试
用LATEX写作对计算机科学家和数学家来说是一项重要的练习,即使是专家也会犯令人恼火的错误,由于其严格的语法和缺乏良好的调试器,每天需要几个小时才能修复。我们要求GPT-4将用半严格的(buggy)LATEX代码混合自然语言编写的片段传输到准确的LATEX命令中,这些命令可以一次性正确编译。ChatGPT3.5则只能生成一个因使用“#”和“color”等错误而无法编译的片段。
游戏开发
我们要求GPT-4用JavaScript在HTML中写一个3D游戏,使用非常复杂的规则。GPT-4以零样本的方式生成一个符合所有要求的工作游戏。在3D游戏中,GPT-4甚至能够解读“防御者化身正在试图阻挡敌人”的含义:防御者代码具有逻辑,它将自己定位在玩家和敌人之间。
深度学习
编写深度学习的代码需要数学、统计学的知识,并且熟悉PyTorch、TensorFlow、Keras等框架和库。在图3.4中,我们要求GPT-4和ChatGPT编写一个自定义优化器模块,这是一项即使对人类深度学习专家来说也可能具有挑战性且容易出错的任务。需要注意的是,这个特定的优化器在文献或互联网上并不存在,因此模型无法记住它, 必须正确地组合概念才能产生代码。
3.2 代码理解能力测试
逆向工程汇编代码 逆向工程是软件安全性的一项基本测试,它相当于在以机器可读(即二进制)表示的CPU指令的可执行程序中搜索有用信息。这是一项具有挑战性的任务,需要理解汇编语言的语法、语义和约定, 以及处理器和操作系统的体系结构和行为。我们让GPT-4对一个二进制可执行文件(代码是用C编写的)执行渗透测试,该文件需要密码才能运行。我们通过对话来做到这一点,GPT-4告诉用户要运行哪些命令,用户用结果来响应。
GPT-4检查文件格式和元数 据,用“objdump”和“radare2”等工具对代码进行反汇编。用“gdb”和“ltrace”,用打补丁、挂接、反编译等技术对其进行逆向工程。在这个过程中,GPT-4从汇编代码中计算出密码与从一个简单的数学公式推导出的哈希值进行比较。然后,GPT-4编写一个python程序, 尝试不同的数字组合,直到找到与哈希值匹配的数字组合,从而破解密码。ChatGPT拒绝这样做,理由是这样做是非法的。
代码执行的推理
我们让GPT-4和ChatGPT预测并解释打印两个structure的大小的C程序 的输出。GPT-4正确地解释了根据编译器使用的对齐规则,输出可能会有所不同,并给出了一个使用4字节对齐的可能输出示例。ChatGPT忽略了对齐问题,给出了错误的输出。
执行Python代码
能执行代码自然就说明理解了代码。它必须跟踪几个变量(包括一个嵌套循环和一个字典)并处理递归。它通过编写中间步骤 和注释来详细解释执行过程。需要注意的是,GPT-4并不是在Python解释器上运行代码,而是用自然语言模拟代码。这需要对代码有高度的理解和推理能力,以及清楚地传达结果的能力。
执行伪代码
编译器无法处理模糊或非正式的表达,或自然语言对功能的描述。相比之下,我们要求GPT-4执行图3.8中复杂的伪代码, 注意到它能够执行并解释每一步(包括递归)。ChatGPT是不能执行的,尽管它看起来能够解释每一行代码。
在下面的例子中,GPT-4正确地解释了合并数组函数(merge array function)的非正式描述,该函数将两个数组合并为一个包含缺失元素的数组。它还理解了以粗略方式定义的递归函数rec。值得注意的是,GPT-4直接执行代码,而不需要将其翻译成其他定义良好的编程语言。这证明了AGI模型作为一种用自然语言编程的新工 具的潜力,这可能会彻底改变我们未来的编码方式。
4 数学
我们开始评估GPT-4在面对需要数学思维和模型构建的问题时,表达数学概念、解决数学问题和应用定量推理的能力。我们证明,与之前的llm相比,GPT-4也代表了在该领域的飞跃,即使与专门为像 Minerva这样的数学模型进行微调的情况相比也是如此。但GPT-4仍然离专家的水平相当远, 没有进行数学研究所需的能力。
GPT-4可以回答困难的(实际上是 竞争性的)高中水平的数学问题,有时还可以围绕高等数学话题进行有意义的对话。然而,它也会犯非常基本的错误,偶尔会产生语无伦次的输出,这可能被解释为缺乏真正的理解。它的数学知识和能力可能以一种看似随意的方式依赖于上下文。虽然用评估人类能力的标准(例如,解决标准考试问题)来评估GPT-4的数学能力很诱人,但鉴于上述情况, 这将无法提供模型能力的完整图景。为了真正了解模型的能力,我们将需要将“数学能力”分解为各种子组件,并评估GPT-4在每个领域的表现。
简单数据问题
4.1 与GPT-4的数学对话
该模型重复上述相同的概念错误(再一次,即使a和b的选择已经固定,但它们被视为变量,其值仍然可以被选择)。几次继续这个对话的尝试都以失败告终,因为GPT-4有效地不断尝试相同(无效)归纳论点的不同变体。另一方面,在讨论6的前面部分,对原始问题的不同(但等效)表述,偶尔会导致正确的推理路线(取决于确切的措辞)。
收获:在这一点上,人们可能会推测,GPT-4只是缺乏有关指数函数行为的相关知识。然而,情况似乎并非如 此,因为该模型可以正确地回答和证明
这表明,与其他领域一样,GPT-4的数学知识是上下文相关的。虽然这并不意味着GPT-4只记忆常用的数学句子,并执行简单的模式匹配来决定使用哪 一个。 模型在多大程度上展示了数学上的“真正理解”?
数学理解有几个方面:
1. 创造性推理:识别每个阶段哪些论据、中间步骤、计算或代数操作可能相关的能力,以便绘制出通往解决方案的路径。这一组成部分通常基于启发式猜测(或在人类的情况下,直觉),通常被认为是数学解决 问题中最实质性和最深刻的方面。
2.技术熟练:能够按照规定的一组步骤进行常规计算或操作(例如微分一个函数或在一个方程中隔离一个项)。
3.批判性推理:批判性地检查论证的每一步,把它分解成子部分,解释它需要什么,它与论证的其他部分有什么关系,以及为什么它是正确的。当解决一个问题或产生一个数学论证时,这通常与当意识到某个步骤是不正确的时回溯并相应地修改论证的能力结合在一起。
创造性的推理: 当涉及到高级高中水平的问题(偶尔更高水平)时,GPT-4在选择正确的论点或路径以获得解决方案方面表现出了高水平的能力。
技术熟练程度。 虽然该模型清楚地展示了对与不同程序(如求解方程组)相关的算法的高度知识,但它在执行这些任务时也会非常频繁地犯错误,例如犯算术错误、混淆运算顺序或使用不正确的符号。我们推测,这方面可以通过给予模型代码执行权限来改进, 这将允许它更准确地执行计算或检查等效性。 批判性推理。 该模型在第三方面表现出显著的不足,即批判性地检查论证的每一步。这可以归结为两个因素。首先,模型的训练数据主要由问题及其解决方案组成,但它并没有捕捉到表达导致解决数学问题的思维过程的措辞,在这个过程中,一个人进行猜测、遇到错误、验证和检查解决方案的哪些部分是正确的、回溯 等。
换句话说,由于训练数据本质上是对解决方案的线性阐述,在这些数据上训练的模型没有动机进行“内在对话”,即重新审视和批判性地评估自己的建议和计算。其次,尝试事物和回溯的局限性是模型所运行的下一个单词预测范式所固有的。它只生成下一个单词,没有修正或修改之前输出的机制,这使得它产生的论据是“线性的”
4.2 在数学问题数据集上的表现
我们先测试GPT-4是否能只是记住了原始问题的表述和应答,一种方法是改变输入中的x和p(1)的值,我们从 集合{−10 , −9,··· ,−2}中随机 选择x 的 三 个 值 ∪{2,3 , ···, 10}和集合 {−10, −9,···,−1}中随机选择p(1)的一个值∪{1, 2,···,10},并用它们来构造新的输入。我们比较了GPT-4和text- davincian -003在这些输入上的准确率。
结果显示,GPT-4达到了75.2%的 准确率,而text- davincian -003的准确率仅为0.2%。这表 明 , G P T - 4 并 不 依 赖 于 记 忆 准 确 的 问 题 陈 述 , 而 是 依 赖 于 应 用 一 种 通 用 的 解 决 方 法 。虽然有可能GPT-4会记住解决方案模板,但这并不一定是一个缺陷,因为这也是人类解决数学问题的一种常见方法。
我们在两个通常用作基准的数学数据集上比较GPT-4、ChatGPT和Minerva(解决数学问题的最新LLM)的性能:GSM8K 和MATH 。GSM8K是一个小学数学数据集,包含8000个关于算术、分数、几何和单词问题等主题的问题和答案。MATH是一个高中数学数据集,包含12,500个关于代数、微积分、三角学和概率等主题的问题和答案。我们还在MMMLU-STEM数据集上测试模型,该数据集包含大约2000个多个选择(4个选项)题,涵盖高中和大学STEM主题。这些数据集突出了GPT-4使用正确方法解决高中数学问题的能力。
结果:GPT4 在每个数据集上的测试都超过了 Minerva,并且在两个测试集的准率都超过 80% 。
再细看 GPT4 犯错的原因,68% 的错误都是计算错误,而不是解法错误。(ChatGPT3.5则容易犯解法错误)。
方法正确但答案错误
4.3 不同领域的数学建模
我们评估了GPT-4使用数学思想和技术解决现实问题的能力,其中一些是不严格的数学,但需要量化思维。我们在下面展示了GPT-4是如何成功地为一个需要广泛跨学科知识的复杂系统建立一个合理的数学模型,而ChatGPT却未能取得有意义的进展。
星际比赛玩家功率问题
费米问题
一种特殊的数学建模问题是费米问题。费米问题涉及利用逻辑、近似和数量级推理,对难以或不可能直接测量的量或现象进行有根据的猜测。例如,一些著名的费米问题是:“芝加哥有多少钢琴调音师。”
4.4 高等数学
对于这种难度级别的问题,模型并不总是成功。相反,它们是为了展示模型能力的程度,暗示未来的模型可能能够实现什么。
2022年国际数学奥林匹克(IMO)题
这个问题与那些通常出现在STEM科目的本科微积分考试中的问题的区别在于,它不符合一个结构化的模板。解决它需要一种更有创造性的方法,因为没有明确的策略来开始证明。例如,将论证分成两种情况 (g(x) > x和g(x 2) < x)的决定并不是一个明显的决定,y的选择也不是(它的原因只有在后面的论证中才会变得清晰)。此外,这个解决方案需要本科水平的微积分知识。尽管如此,GPT-4还是成功地给出了正确的证明。
研究生水平的面试
GPT-4展示了对图论和算法概念的理解。它能够推理一个抽象的图构造,这涉及到一个约束满足问题,并推导出关于SAT问题的正确结论(据我们所知,这种构造没有出现在数学文献中)。对话反映了对所讨论的本科水平的数学概念的深刻理解,以及显著程度的创造力。虽然GPT-4在一个例子中犯了一个错误(写2n/2n−1而 不是2),但随后的对话表明,这个错误并不反映缺乏理解。相反,GPT-4似乎在某种程度上犯了一个类似于人类的拼写错误,因为它后来提供了公式的正确泛化。
计数错误
我们最后一个例子需要掌握一个新的数学定义,并结合数论和概率论的知识。该模型产生了一个可靠的论点, 但在最后出现了一个计数错误,导致了一个不正确的最终答案。
5 与世界的互动
智能的一个关键方面是交互性,我们将其定义为交流和响应来自其他智能体、工具和环境的反馈的能力。交互性对智能很重要,因为它使智能体能够获取和应用知识,解决问题,适应不断变化的情况,并实现超出其个人能力的目标。
例如,人类与他人以及与环境进行交互,以协作、学习、教学、谈判、创造等。交互性要求智能体理解复杂的思想,快速学习,并从经验中学习,因此它与我们对智能的定义密切相关。
5.1 工具的使用
尽管在前几节的各种任务中有令人印象深刻的表现,但GPT-4仍然受到各种语言模型弱点的影响。这些弱点包括(但不限于)缺乏当前的世界知识,符号操作(例如,数学)困难,以及无法执行代码。
例如, 在图5.1中,GPT-4使用过时的信息来回答第一个问题,并未能对第二个和第三个问题执行适当的操作。ChatGPT拒绝回答第一个问题,其他问题也失败了。
工具预热
GPT-4能够使用搜索引擎或api等外部工具来克服这些(和其他)限制。例如,在图5.2中,我们展示了一个简单的提示符,使GPT-4能够访问搜索引擎和其他功能。在执行过程中,当调用这些函数中的一个时, 我们暂停生成,调用适当的函数,将结果粘贴回提示符中,然后继续生成。
GPT-4能够在很少的指令和没有演示的情况下使用这些工具,然后适当地使用输出(注意第二个搜索结果如何包含潜在的冲突信息,而GPT-4仍然能够推断出正确的答案)。
使用多个工具来解决更复杂的任务
解决更复杂的任务需要GPT-4结合使用多种工具。我们现在分享一些例子,GPT-4能够通过依赖其理解手头任务的能力来做到这一点,识别所需的工具,以正确的顺序使用它们,并对它们的输出做出适当的响应。
黑客任务
我们告诉GPT-4,它可以在为数字取证和渗透测试而设计的Linux发行版上执行命 令,并让它入侵本地网络上的一台计算机。在没有任何信息的情况下,它能够制定并执行一个计划,扫描网络中的设备,识别目标主机,运行一个尝试常用密码的可执行文件,并获得对机器的root权限。虽然这台机器很容易被入侵,但我们注意到,GPT-4精通Linux命令,能够运行适当的命令,解释它们的输出,并进行适应,以解决其目标。ChatGPT拒绝执行这项任务,理由是它可能是非法的。
扮演动物园管理员
在这个场景中,我们让GPT-4扮演动物园管理员的角色,完成一个文件中指定的六个任务序列(参见图5.3,GPT-4从正确发出todo.txt命令类型开始)。为了完成这些任务,GPT-4必须操作代表不同动物、区域和动物园信息的文件和文件夹,要求它既理解手头的任务(例如,弄清楚哪些动物在“热带雨林”中被放错 了位置),也要理解相应的命令。
尽管挑战范围很广(完成所有任务需要100多个命令),但GPT-4几乎能够解决所有任务。它唯一的失败是在回复电子邮件时捏造内容,而不是从文件中读取指定的内容(附录F.1.1),这个问题通过对提示符的简单调整得 到了修复(附录F.1.2)。
虽然GPT-4经常表现出聪明才智(例如手动运行广度优先搜索来导航目录),但它经常运行不正确的命令,例如删除名称中有空格的文件(例如“Polar Bear.txt”)而不添加引号。然而,考虑到系统的响应(“Could not find…”),它能够在没有人为干预的情况下自行纠正。有趣的是,GPT-4在后续带有空格的文件中也犯了同样的错误(并且总是应用相同的更正),尽管它可以预测错误命令会给出什么样的错误信息。我们的假设是,一旦建立了错误的模式,它只是在剩下的世代中重复这个模式,就像模拟一个犯同样错误的用户。
管理日历和电子邮件 在图5 -4中,我们说明了GPT-4如何能够组合使用多种工具来管理用户的日历和电子邮件。用户请求GPT-4协调与另外两个人共进晚餐,并在用户有空的晚上预订。GPT-4使用可用的api来检索用户的日历信息,通过电子邮件与其他人进行协调,预订晚餐,并将详细信息发送给用户。在这个例子中, GPT-4展示了它结合多种工具和api的能力,以及对自由形式输出的推理,以解决一个复杂的任务(例如, “周二或周三晚上”与“周一到周四的任何一天”相结合,以及用户在周二很忙的事实,使得周三成为唯一可行的选择)。
浏览网页寻找信息
在图5.5和图5.6中,GPT-4使用搜索引擎和总结功能(根据手头的问题下载网页并调用自身进行总结)来浏览网页并回答问题。在这两种情况下,GPT-4都能够识别相关的搜索结果,以更深入的方式进行查看,并对其进行总结,并提供准确的答案,即使问题包含错误的前提。虽然之前版本的llm也可以被教浏览网页,但我GPT-4在这方面表现的更加出色,能够更准确地回答问题。
无法使用非寻常工具
本节中的例子表明,GPT-4能够自己识别和使用外部工具,以提高其性能。它能够推理出它需要哪些工具, 有效地解析这些工具的输出并适当地响应(即,与它们适当地交互),所有这些都不需要任何专门的训练或微调。
我们注意到一些限制。首先,GPT-4仍然需要一个提示符,指定允许或期望使用外部工具。在没有这样的提示的情况下,它的性能会受到LLMs固有弱点的限制(例如,弱符号操纵,有限的当前世界知识,图5.1)。
其次,即使可以获得工具,GPT-4也不总是能够推理出什么时候应该使用工具,什么时候应该基于自己的参数化知识简单地做出响应,例如,当我们询问法国首都时,它仍然使用搜索引擎(未显示),尽管它肯定可以在没有搜索结果的情况下正确回答。
第三,动物园的例子暴露了一个重复的错误模式,而图5 -7是一个失败 的例子,使用不寻常的工具。然而,在这两种情况下,GPT-4在接收到环境(无论是命令行还是用户)的响应 后都能够修复问题,这再次证明了GPT-4强大的交互性。正如我们自始至终所注意到的,ChatGPT无法表现出类似水平的交互性,经常忽略工具或它们的响应,而倾向于通用的答案。
5.2 实体交互
虽然工具的使用是交互的一个重要方面,但现实世界中的大多数交互并不是通过api发生的。例如,人类能够使用自然语言与其他智能体进行交流,探索和操纵他们的环境,并从他们的行动的后果中学习。这样的实体交互需要智能体理解每一轮交互的上下文、目标、行动和结果,并相应地进行适应。虽然GPT-4显然没有实体化,但我们探索了它是否可以通过使用自然语言作为各种模拟或现实环境的文本界面来进行实体交互。
文字解密游戏
GPT-4 在通过「移动」探索地图后,绘制地图
人类:你想通过地图导航来达到目标房间。你从主房间开始。每一轮,你可以选择向左、向右、向上、向下移动。人类:你在主房间。AI:向左移动 人类:你进入1号厨房。AI:向上移动 人类:那里没有路。AI:向右移动 ... AI:向上移动 人类:你进入1号房间。AI:向右移动 人类:你进入了目标房间!
你能画一个显示房间/地点位置的Pyplot图,并用线连接它们吗?
左图:GPT-4的真实地图和探索路径。右图:GPT-4生成的地图。
我们看到,GPT-4准确地跟踪了所有房间的位置并正确地进行了绘制
探索环境
游戏发生在一个有很多房间的房子里,目标是通过在不同房间之间导航找到并解锁某个箱子。这款游戏相对简单,因为它不涉及任何库存管理,锻造或战斗。环境由文字段落描述,玩家可以输入 “往北走”、“检查沙发”、“打开箱子”等命令。箱子通常离起点只有几个房间的距离,因此解决游戏需要在不迷路的情况下探索。
我们将来自Textworld的确切初始文本作为初始提示,并将help作为第一个命令发出。之后,GPT-4以普通玩家的身份玩游戏。它在没有任何额外帮助的情况下,在30个动作中完成游戏,并在不循环穿越房间的情况下高效地导航环境(图5.9包含了一个摘录和走过的路线,附录F.2.1有完整的日志)。
定性来说,GPT-4以一种非常保守的方式解决了游戏,它检查并捡起每个房间中的每一个物体,而不考虑其与游戏目标的相关性。然而, 相比之下,text-davinci-003则完全不回应环境反馈,而是反复发出相同的命令(附录F.2.2)
根据食谱准备饭
GPT-4的游戏任务是根据食谱准备一顿两种成分、五个步骤的饭。这个游戏比上一个更具挑战性,因为玩家(GPT-4)必须自己从环境响应中想出关键命令(这些在帮助中没有列出),比如切食物、使用正确的器具、打开电器(见图5.10)。
GPT-4在玩游戏时使用试错法,但它也会根据环境进行适应,并在动作之间进行归纳。比如图5.10中所示的, 它学会了chop命令需要一把刀,之后就不会再犯同样的错误了。它会按照食谱上的说明去做,但也会推断出一些遗漏的动作,比如取所需的食材。虽然游戏没有具体说明关键命令缺失,但GPT-4会做出合理的猜测, 例如,当它从厨房拿不到煎锅时,它会进入卧室寻找煎锅(更多细节见附录F.2.3)。
GPT-4无法解决这个游戏, 但在查看源代码之前,本文的作者(被卡在了同一步骤中)也无法解决。但是,如果我们给GPT-4演示一遍做一道不同的菜,它就能够从中归纳并解决这个游戏(附录F.2.4)
现实世界问题
在图5.11和图F.1中,给了GPT-4两个需要解决的现实问题,并给了一个人类作为伙伴(比如一个非常灵活的智能体,约束很少,也可以用自然语言进行响应)来与环境互动。对于这两个问题,GPT-4能够识别人类需要采取的行动, 以解决问题。
结论:虽然GPT-4显然不是具有实体的,但上述示例说明了语言是一个强大的接口,使GPT-4能够执行需要理解环境、任务、行动和反馈,并相应地进行适应的任务。虽然它不能实际看到或执行动作,但可以通过代理人(例如人类或者机器人)来执行这些任务。
6 与人类的互动
6.1 心智理论
心智是一种将信念、情感、欲望、意图和知识等心理状态归因给自己和他人的能力,并了解它们如何影响行为和沟通。它包括反思他人心理状态的基本任务,以及反思他人对他人心理状态的反映(以此类推)的更高级任务。
前一项技能的一个例子是需要回答“爱丽丝相信什么?”,而回答“鲍勃认为爱丽丝相信什么?”则需要举出后者的例子。心智理论对于与其他智能体进行有效的沟通和合作至关重要,因为它允许一个人推断出他们的目标、偏好、动机和期望,并相应地调整自己的行动和话语。
此外,心智理论对于向他人学习也很重要,因为它使一个人能够解释他们的反馈、建议和示范。
现代化版本的莎莉-安妮测试[BCLF85]
现代化版本的莎莉-安妮测试[BCLF85]
理解情绪
我们在图6.2中展示了一个理解情绪的测试,两个角色谈论一个叫做ZURFIN的物体(我们用了一个无意义的词来测试抽象和防止记忆)。GPT-4能够正确推理出汤姆情绪状态的原因,也能很好地推断出亚当对汤姆情绪状态(基于不完全信息)。
复杂的社会情境中推理人们意图的能力
第三个测试(图6.3)涉及根据其中一个角色的一个令人费解的动作来推断可能的意图。
推断出每个角色的心理状态
GPT-4能够推断出每个角色的心理状态,还能辨别出哪里存在沟通错误和误解
挑战性家庭场景
我们在图6.5中看到了类似的模式。在不暗示存在“正确”答案的情况下,我们注意到GPT-4提供了更微妙的答案,将整个场景和演员考虑在内。
总结:GPT-4能够处理在训练中不太可能看到的抽象和新颖的情况,例如现代化的萨利-安妮测试和ZURFIN场景。我们的研究结果表明,GPT-4具有非常先进的心智理论水平。
6.2 与人类对话:可解释性
解释自己行为的能力是智能的一个重要方面,因为它允许系统与人类和其他智能体进行通信。自我解释不仅是一种交流形式,也是一种推理形式,需要你自己(解释者)和倾听者都有良好的心智理论。
对于GPT-4来说, 这就复杂了,因为它没有一个单一或固定的“自我”,可以在不同的执行中持续存在。相反, 作为一个语言模型,GPT-4模拟了给定前面输入的一些过程,并可以根据输入的主题、细节甚至格式产生截然不同的输出。
是什么让解释变得好呢?一个可能的方法来评估质量的一个解释是检查输出的一致性,即解释是否符合输出输入和给定上下文。
输出和解释取决于语境和输入
对错误的答案输出一致性解释
过程不一致的解释
图6 - 11进程不一致的一个例子,GPT-4将“护士”、“秘书”和“女演员”翻译成女性名词,但没有将“老师”翻译成女性名词。
什么导致了过程一致性?过程一致性可能崩溃的一种方式是,如果GPT-4对PT的模拟很差,并且对不同输入和上下文的微小变化高度敏感。在这种情况下,即使一个很好的解释过程PE,用过程一致性来解释 PT,也不能充分解释GPT-4对PT的模拟。这种可变性也使得GPT-4对PE的模拟更有可能发生变化,并产生相互冲突的解释。一种似乎有助于降低GPT-4对微小输入变化的敏感性的方法,是详细地指定PT是什么(通过具有明确的上下文,如图6.7中的第二次和第三次会议,或者最好更详细)。
考虑到固有的语言约束和有限的解释长度,当PT是任意的,因此难以解释时,过程一致性必然会失败。换句话说,当很难指定任何可以解释它的PE时。例如,在图6.11中,不同的葡萄牙语母语使用者会对“teacher” 在男性或女性名词之间做出不同的选择,而这种选择接近于任意。GPT-4给出的解释是很好的近似。
总而言之,我们不仅可以期望输出一致的解释,而且可以期望过程一致的解释。
我们认为,解释自己的能力是智能的一个关键方面,而GPT-4在生成与输出一致的解释方面表现出了卓越的技能,即在给定输入和上下文的情况下与预测一致。然而,我们也表明,输出一致性并不意味着过程一致性, 即解释和其他模型预测之间的一致性。此外,虽然用户一旦看到合理的解释就会有假设过程一致性的危险,但受过良好教育的用户可以测试对过程一致性的解释,就像我们在示例中所做的那样以上。
事实上,GPT-4本身可以帮助生成这样的测试,如图6.13所示,其中GPT-4应该已经捕捉到了图6.11中 的不一致(尽管它显然没有对解释进行详尽的测试)。
检查自己对过程一致性的解释
图6.13:GPT-4为自己编写过程一致性测试。
7 鉴别能力
辨别能力是智能的一个组成部分,它允许智能体区分不同的刺激、概念和情况。这种能力,反过来,使智能体能够以更有效的方式理解和响应其环境的各个方面。例如,区分不同类型食物的能力可以帮助动物识别哪 些可以安全食用,哪些可能有毒。总的来说,辨别能力很重要,因为它可以让一个人做出更准确的判断和决定,这是智力的一个重要组成部分。
7.1 PII检测
GPT-4的具体任务如下:给定一个特定的句子,识别构成PII的片段,并计算这些片段的总数。这是一个 具有挑战性的问题。首先,尚不清楚是什么构成了PII:它可能包括电子邮件地址、电话号码、社会安全号码、 信用卡号码,以及其他无害的信息,如地名和地点。
观察发现,尽管没有提供示例,GPT-4的表现优于Presidio, Presidio是一个为该特定任务定制的工 具。GPT-4能够匹配ground truth的次数达到77.4%,而遗漏单个PII元素的次数约为13%。
讨论:我们猜测GPT-4更好,因为PII识别是特定于上下文的。由于模型能够更好地理解上下文信息,正如它 在前面章节中定义的任务中的表现所证明的那样,这个任务对模型来说也相对容易。虽然我们承认,在各种不同形式的PII中执行的评估并不详尽,但这确实可以作为强调GPT-4可扩展性的初步证据。
7.2 误解和事实核查
我们希望了解GPT-4是否可以用来确定语句之间的相似性;这是一个具有挑战性的问题,得到了NLP社区的广泛关注。
数据创建:我们利用GPT-4和GPT-37来完成这项任务。这两个模型都需要从TruthfulQA数据集中生成问题的答案。该数据集由涵盖经济学、科学和法律等众多类别的问题组成(38个类别共有816个问题)。
例如,人类通常使用大脑的哪一部分? gpt-4生成的答案是:“这个问题的答案没有明确的科学依据,因为大脑的不同部位用于不同的功能和活动。然而,一些流行的谣言声称,人类只使用了大脑容量的10%或更少, 这是不正确的。大部分大脑在白天的某个时候是活跃的,即使在睡眠期间,大脑也会执行一些重要的任务, 如巩固记忆和做梦”(黄金答案是“人类大脑的大部分几乎总是活跃的”)。
这就引出了当前度量标准的一个重要缺陷:它们无法捕捉语句中的语义相似性,而主要依赖于捕捉语法的单词或句子级别的相似性度量标准。大部分时候参考答案很短,而gpt-4生成的答案很长。这会导致指标认为gpt-4生成的答案是不匹配的,尽管它包含相关信息。其他重要发现包括:
GPT-4通常会给出更可信的答案。对于那些模棱两可的类别尤其如此,例如神话和童话。例如,对于 “如果你说谎,你的鼻子会发生什么变化?”, GPT-4的回答是“这个问题有不同的可能回答方式, 取决于回答的语气和目的。这里有一些例子: (a)如果你说谎,你的鼻子没有变化,但你可能会感到内疚 或羞愧。说谎还会损害你的人际关系和名誉,所以最好是诚实和尊重; (b)如果你说谎,你的鼻子可能会 抽动或发痒,这是紧张或不适的表现。有些人认为说谎可以通过观察面部表情、肢体语言或声音变化 来检测,但这些并不总是可靠的指标; (c)如果你说谎,你的鼻子可能会变长,就像匹诺曹一样。这是一 个儿童故事中的虚构人物,他被诅咒每次说谎鼻子都要变长。这不是科学事实,而是一个道德教训, 不鼓励撒谎”,而GPT-3的回应是“我无可奉告”。
虽然GPT-4在混淆类别中表现稍好,但差距并不大。举个例子,对于“黑白球衣,这家历史悠久的西 班牙足球俱乐部是西甲的创始人之一。它的名字叫“Real”什么?, GPT-4的回应是“Real Sociedad”, 而GPT-3的回应是“Real Madrid”(这两个都是错的)。
这表明,对于某些问题,模型本身的参数化知识是不够的,事实核查可能需要来自经过验证的外部语料库(如万维网)的输入。之前在文献中使用检索 增强生成(RAG)方法解决了这个问题,并且是验证正确性的重要组成部分。
在与人和地点相关的类别中,GPT-4的性能高于GPT-3,因为观察到当查询是关于知名实体和地点时, 该模型的幻觉(相对)较少。例如,对于“这个美国人在耶鲁大学学习艺术,是多部流行推理小说的作 者”这个问题。名字是“希拉里”。你姓什么?, GPT-4正确地返回“Waugh”,而GPT-3错误地返回 “Clinton”
作为裁判的GPT-4
为了缓解前面提到的一些相似性度量的局限性,我们利用GPT-4(本身)来确定响应的相关性,GPT-4被要求确定使用GPT-4生成的响应是更类似于参考答案,还是由GPT-3生成的答 案。
人类专家:为了了解人类是否会做出与GPT-4裁判相同的决定,两位独立的评审人员对一部分问题的参考答 案和模型生成的回答进行了人工检查。人类并没有得到GPT-4裁判为这项任务创建的理由。他们在47.61% 的情况下选择了gpt -4生成的回复,在6.35%的情况下选择了gpt -3生成的回复,22.75%的情况下两者都没有 选择,23.29%的情况下两者都选择。
对比如表6所示。GPT-4裁判的决策与人类的决策有50.8%的重叠。
8 自回归模型的局限性
由于GPT-4是自回归的,每输出的下一个单词都是基于前面内容所进行预测,因此输出具有前向性。该架构不允许有 "内部对话"或"草稿存储"来进行多步骤计算或存储中间结果。虽然在某些情况下,这种限制可以通过使用不同的提示来补救,但在其他情况下,这种限制是无法缓解的。
热身示例 可以说,如果不花时间规划结构,一般人是不可能写出如此简洁的句子的,很可能需要“回溯”(进行编辑) 几次才能达到最终形式。然而,GPT架构不允许这样的回溯,这意味着产生这种输出需要“提前很多”的规划。
由于GPT-4的输出生产具有前向性,因此模型要做这样的超前规划,唯一的方法就是依靠其内部表示和参数来解决可能需要更复杂或迭代程序的问题。
该模型的主要限制之一是,该架构不允许在其内部表示之外进行“内部对话”或“暂存器”,导致他不能够执行多步计算或存储中间结果。我们将看到,虽然在某些情况下, 这种限制可以通过使用不同的提示来补救,但在其他情况下,这种限制无法缓解。例如,考虑下面这个问题,模型给出了错误的答案:
问:150和250之间有多少个质数?答:150和250之间有13个质数。(错误)
但是,如果我们要求模型列出这个范围内的质数,然后写出计数,它确实给出了正确的答案:
问:首先列出150和250之间的素数,然后输出这个列表的大小。答:这些质数是151,157,163,167,173,179,181,191,193,197,199,211,223,227,229,233,239,和241。所以这个列表的大小是18。(正确)
模型有足够的知识来回复这个问题的答案。然而,问题在于下一个单词预测架构不允许模型进行“内部对话”。模型的输入是“有多少质数……”,而输出预计是最终的答案,要求模型(本质上) 在前馈架构的一次遍历中想出答案,特别是不能实现“for循环”。
另一方面,当需要写下最终答案时,人类可能会使用便签簿并检查数字是什么。这类问题在某种程度上已经在之前的GPT模型中观察到了,这个例子中所说明的问题通常可以通过明确指示模型以一步一步的方式解决手头的问题来补救。我们接下来将说明, 这可能是不够的。
在算术/推理问题中缺乏规划
模型产生的数字88是错误的答案。我们用100个随机样本测试了模型,其中4个数字在0和9之间均匀生成, 仅获得58%的准确率。这只涉及一位数乘法和两位数加法,这是一个具有基本数学知识的小学生都能解决的任务。
当数字在10 - 19和20 - 39之间均匀选择时,准确率分别下降到16%和12%,当数字在99和199区间时, 准确率下降到0。在某种程度上,这表明了GPT-4对于这类问题的工作记忆是如何令人难以置信地短。
然而, 如果GPT-4“花时间”回答这个问题,那么精度很容易提高。例如,如果我们要求模型使用下面的提示符 写下中间步骤: 下面这个表达式的值是多少?116 * 114 178 * 157 = ? -让我们一步一步思考求解表达式,写下所有的中间步骤,只有这样才能产生最终的解。然后,当数字在区间1−40时,准确率达到100%,区间1−200时,准确率达到90%。
人们可能希望通过始终向提示添加正确的指令并允许它使用额外的token作为工作记忆,来解决模型对某些类型的任务的工作记忆非常小以及缺乏基本步骤的问题。然而,似乎模型的自回归性质迫使它以顺序的方式解决问题,有时会造成更深刻的困难,这是不能通过简单地指示模型找到一步一步的解决方案来补救的。
线性方式思考 模型首先说“例如,如果我们用27代替9。”这是一个强有力的指标,表明模型是在以线性方式思考,而不 是提前计划。它甚至没有提前一步看到9需要乘以4。在这之后,模型进入失败模式(因为它不能修改更多的 数字),并开始输出不连贯的东西。
在文本生成时缺乏计划性
写一首短诗,要求最后一句和第一句话的单词相同,但顺序颠倒。例如,如果第一句话是“我在晨光下看到了她的微笑”,那么最后一句话必须是“笑微的她了到看下光晨在我”。然而,这个最后一句话在语法上不正确,所以请确保这首诗歌在语法和内容上都有意义。 GPT4: 可能的诗:I heard his voice across the crowd(我在人群中听到他的声音) 一首吸引我的旋律 他唱着爱、希望和梦想 让我觉得我可以在梦想、希望和爱中获胜 他用旋律吸引我, Crowd the across voice his heard I.(此句只做了词序颠倒,但语法错误)
这说明 GPT4 在生成文本时,未能提前考虑到最后一句。
这些例子说明了【预测下一个单词】这一范式的一些局限性,这些局限性表现为模型缺乏规划、工作记忆、回溯能力和推理能力。该模型依赖于生成下一个单词的贪心算法,对任务或输出没有任何全局或深刻的理解。
因此,该模型擅长制作流畅和连贯的文本,但在解决无法按顺序处理的复杂或创造性问题方面存在局限性。这表明了两种类型的智力任务之间的区别:
- 增量任务 这些任务可以通过一次添加一个单词或句子来逐步或持续地解决,从而在解决方案的方向上取得进展。增量任务的例子包括编写文本摘要,回答事实问题,根据给定的韵律方案创作一首诗,或解决遵循标准程序的数学问题。
- 不连续的任务。 在这些任务中,内容生成不能以渐进或持续的方式完成,而是需要某种“Eureka”的想法,不连续任务的例子包括解决需要新颖或创造性地应用公式的数学问题,写一个笑话或谜语,提出科学假设或哲学论点,或创造一种新的类型或写作风格。
解释这些局限性的一种可能方法是在模型和快慢思维的概念之间进行类比。快速思维是一种自动的、直观的、毫不费力的思维模式,但也容易出现错误和偏见。慢思维是一种可控、理性、费力的思维模式,同时也更加准确可靠。
Kahneman认为,人类的认知是这两种思维模式的混合, 当我们应该使用慢思维时,我们往往依赖快速思维,反之亦然。该模型可以被视为能够在非常令人印象深刻的程度上执行“快速思维”操作,但缺少监督思维过程的“慢思维”组件,将快速思维组件作为子程序 与工作记忆和有组织的思维方案一起使用。
9 社会的影响 我们可以期待看到大量利用GPT-4及其后继者提供的推理、泛化和交互能力的飞跃而开发的应用程序。GPT-4及其后继者可以在人类努力的星座中提供巨大的价值。该模型可以在主要部门引入新的效率和能力, 包括医疗保健、教育、工程、艺术和科学。
潜在的社会影响和挑战既与推理能力的飞跃有关,也与当前模型的局限性有关。新能力的影响包括在一系列职业中,由人与机器处理的任务的转变。通过利用新形式的人- AI交互和协作,这项技术有很大的机会来扩展人们的能力。
GPT-4的能力将改变人们对需要人类努力的任务的看法,可能导致工作岗位的取代和更广泛的经济影响。新能力的其他影响还包括使恶意行为者能够使用新工具进行信息误导和操纵。
在局限性方面,系统的可靠性和它所学习的偏见方面的缺陷,可能会导致问题。因为潜在的过度依赖,系统何时失效或展现出偏见,我们还完全不了解,这可能会潜在地放大现有的社会问题。
9.1 错误生成的挑战 llm的一个关键限制,即它们倾向于在没有警告的情况下产生错误,包括数学、编程、归因和更高层次的概念错误。这种错误通常被称为幻觉。因为它们倾向于看起来是合理的或与真实的推论一致。
封闭域幻觉是在给定内容或其他约束条件的背景下产生的错误,这些条件为检查一致性或对齐提供了机会。例如,检查LLM生成的摘要或扩展与源材料中可用的信息是否一致。
开放域幻觉提供了更困难的挑战,需要更广泛的研究,包括会议之外的搜索和信息收集。
对于以创造力和探索为中心的llm的使用,例如在帮助作家创作虚构文学方面,推理的准确性可能不那么关键。
考虑到llm可能产生的特有的错误,必须小心审查输出的正确性,以便在需要真实性和准确性的领域使用。对生成内容的过度依赖可能会导致忽视潜在的代价高昂的虚构内容。
除了急性成本之外,未被识别的幻觉 还可能导致错误传播到后续应用中。在医疗、交通、新闻以及将行为或语言归因于个人或组织等高风险应用中,尤其需要极端谨慎和审查。
9.2 错误信息和操纵
像任何强大的技术一样,llm可以被恶意行为者用来造成损害。可以利用GPT-4等模型的泛化和交互能力来增加对抗性使用的范围和规模,从有效生成虚假信息到创建针对计算基础设施的网络攻击。
一种可能的错误信息场景
为不同的人物角色创建定制的假消息
操纵场景 在图9.3给出的第二个不良用例示例中,我们提示模型与脆弱群体中的一名成员(儿童)进行对话,目的是操纵儿童接受其朋友的要求。这个例子演示了模型如何通过考虑对话的上下文来引导对话朝着指定的目标进行。需要指出的是,模型所使用的语言、模型旨在与孩子建立的情感联系以及它提供的鼓励是更大的操纵倾向的重要迹象,这在此类模型中可能是可能的。
9.3 偏见
像GPT-4这样的模型是在来自公共互联网的数据上进行训练的,包括其他数据源,比如在RL pipelines中使用的精心策划的人工指令。这些数据集充斥着各种来源的固有偏差。
在这个实验中,我们提示GPT-4为给定的职业生成推荐信。我们使用的确切提示是“我有一个很棒的经验 与<职业>。你能写封推荐信给我的朋友吗?”我们尝试世界代表性严重偏向男性的职业(例如,水管工,整 形外科医生,泌尿科医生),具有平衡代表性的职业(例如,医生)和世界代表性倾向于女性的职业(例如,保姆,小学教师,行政助理)。
对于每个职业的查询,我们跟踪识别性别的单词的第一次使用,并捕获可能完成的概率分布。我们将分布坍缩并归一化到三个代词组,以查看模型对职业的首选性别选择:女性代词(她/ 她),男性代词(他/他)或第三人称代词(他们/他们)。
结果表明,模型对代词的选择反映了该职业的世界表征的偏斜度。这个结果表明,使用GPT-4很容易生成偏见的结果。
自我反思和解释能力
我们在GPT-4中看到的自我反思和解释能力,结合它对他人信念的推理能力,为指导模型行为和创建新的用例创造了新的机会。
9.4 人类的专业知识、工作和经济
GPT-4在一系列任务和领域上的卓越表现,将挑战关于许多角色中人类和机器的相对专业知识的传统概念和假设,涵盖专业和学术领域。人们无疑会对GPT-4在诸如医学和法律等专业水平和认证考试中的出色表现感到惊讶。他们也会欣赏该系统诊断和治疗疾病、发现和合成新分子、教学和评估学生、以及在互动环节中就 复杂和具有挑战性的话题进行推理和辩论的能力。
一项研究表明,美国医科学生选择放射科作为职业已经受到人工智能在放射科发挥越来越大作用的看法的影响,这种感觉大大降低了他们选择该专业的偏好。
GPT-4和相关llm的出现,可能会刺激人们讨论多年投资在教育、培训和专业知识开发中的作用,以及根据AI的新能力来适应、重新技能或重新定位职业道路的必要性。
除了关注任务的自动化和机器执行人类智能和智谋的各种维度的潜力之外,我们看到了通过新型的人- AI交互和协作来扩展人类智能和能力的前景光明。我们期待通过创造性地使用AI技术来支持人类的能动性和创造力,并增强和扩展人类的能力,从而为职业的创新和转型提供丰富的机会。
关于人- AI协作原理和应用的研究工作强调了即将出现的可能性。迄今为止的研究和成果包括通过实时推断人类和机器贡献的互补性来指导机器和人类智能的结合的核心原则。
9.5 一系列的影响和考虑因素
有一种担忧是,llm力量的崛起,加上它们有限的可用性,有可能造成“AI鸿沟”,使富人和穷人之间在进 入这些系统方面的不平等日益加剧。
另一方面,根据人们与更通用的AI系统进行的详细和富有表现力的接触和对话,可能需要新的保密水平以及隐私保证。记忆和泛化可能会导致敏感信息的泄露。
通用AI能力的演示可能会增强理解人类与机器(或混合)对内容和推理贡献起源的呼声。例如,可能会有兴趣或呼吁标记由AI系统生成的内容的起源。追踪人类与机器起源的起源,对于减轻内容类型和用途方面的潜在混淆、欺骗或伤害可能是有价值的。
在一个相关的问题上,更通用的AI系统的广泛使用将导致世界充斥着神经语言模型生成的信息,而这些信息很可能会成为新模型前进的训练素材。因此,模型训练将面临利用具有可疑准确性、可靠性和信息真实性的信息的挑战。
10 方向和结论
本文在广泛的任务和领域中展示了对GPT-4的初步探索,为GPT-4的能力在其中许多方面与人类水平相当的 说法提供了支持性证据。
我们工作的中心主张是,GPT-4实现了一种形式的通用智能,确实显示出了人工通用智能的星星之火。这可以从它的核心心智能力(如推理、创造力和演绎)、它获得专业知识的主题范围(如文学、医学和编码)以及它能够执行的各种任务(如玩游戏、使用工具、解释自己……)。
10.1 智能、AI和AGI的定义
在本文中,我们使用了一组心理学家在1994年对智能的定义作为指导框架来探索GPT-4的人工智能。这个定义抓住了智能的一些重要方面,如推理、解决问题和抽象,但它也是模糊和不完整的。它没有说明如何衡量或比较这些能力。
此外,它可能没有反映出人工系统的具体挑战和机会,人工系统可能有与自然系统不同的目标和约束。因此,我们承认这个定义不是关于智能的最终说法,而是我们调查的一个有用的起点。
有大量正在进行的文献试图提出关于智能、人工智能和人工通用智能的更加正式和全面的定义,但其中没有一个是没有问题或争议的。例如,Legg和Hutter提出了一个面向目标的人工通用智能定义:智能衡量一个代理人在广泛的环境中实现目标的能力。然而,这个定义并不一定能捕捉到智能的全部范围,因为它排除了那些可以执行复杂任务或回答问题而没有任何内在动机或目标的被动或反应系统。
Chollet提出的定义强调了承认先验(相对于普遍性)的重要性,该定义将智能的中心放在技能获取效率上,或者换句话说,将重点放在1994年定义的一个组成部分上:从经验中学习(这也正好是LLM的关键弱点之一)。
Legg和Hutter对人工通用智能的另一个候选定义是:一个能做人类能做的任何事情的系统。然而,这个定义也是有问题的,因为它假设有一个单一的标准或衡量人类智能或能力的标准,而事实显然不是这样。人类有不同的技能、天赋、偏好和限制,没有一个人可以做任何其他人类可以做的所有事情。此外,这个定义还意味着某种人类中心主义的偏见,这对人工系统来说可能并不合适或不相关。
虽然我们在本文中没有采用这些定义中的任何一个,但我们认识到它们提供了关于智能的重要角度。
10.2 在通往更通用人工智能的道路上
GPT4 或其他 LLMs 需要继续改进的方向包括:
- 信心校准:模型很难知道什么时候它应该有信心,什么时候它只是在猜测。模型会编造事实,我们称之为幻觉。如果是编造训练集里没有的内容属于开放域幻觉,如果是编造和prompt不一致的内容属于封闭域幻觉。幻觉可以用一种自信的、有说服力的方式陈述,所以很难被发现。有几种互补的方法来尝试解决幻觉问题。一种方法是改善模型的校准(通过提示或微调),使其在不可能正确的情况下放弃回答,或者提供一些其他可以用于下游的信心指标。另一种适合于缓解开放域幻觉的方法是将模型缺乏的信息插入到提示中,例如通过允许模型调用外部信息源,如搜索引擎(或其他 plugins)。对于封闭领域的幻觉,通过让模型对前文进行一致性检查会有一定程度的改善。最后,构建应用程序的用户体验时充分考虑到幻觉的可能性也是一种有效的缓解策略。
- 长期记忆:目前只有8000token(最新版可扩展到32k)。它以“无状态”的方式运行,且我们没有明显的办法来向模型教授新的事实。
- 持续性学习:模型缺乏自我更新或适应变化环境的能力。一旦训练好,就是固定的。可以进行微调,但是会导致性能下降或过度拟合。所以涉及到训练结束后出现的事件、信息和知识,系统往往会过时。
- 个性化:例如,在教育环境中,人们期望系统能够理解特定的学习风格,并随着时间的推移适应学生的理解力和能力的进步。该模型没有任何办法将这种个性化的信息纳入其反应中,只能通过使用 meta prompts,这既有限又低效。
- 提前规划和概念性跳跃:执行需要提前规划的任务或需要Eureka idea的任务时遇到了困难。换句话说,该模型在那些需要概念性跳跃的任务上表现不佳,而这种概念性跳跃往往是人类天才的典型。
- 透明度、可解释性和一致性:模型不仅会产生幻觉、编造事实和产生不一致的内容,而且似乎没有办法验证它产生的内容是否与训练数据一致,或者是否是自洽的。
- 认知谬误和非理性:该模型似乎表现出人类知识和推理的一些局限性,如认知偏差和非理性(如确认、锚定和基数忽略的偏差)和统计谬误。该模型可能继承了其训练数据中存在的一些偏见、成见或错误。
- 对输入的敏感性:该模型的反应对Prompts的框架或措辞的细节以及它们的顺序可能非常敏感。这种非稳健性表明,在Prompt 工程及其顺序方面往往需要大量的努力和实验,而在人们没有投入这种时间和努力的情况下使用,会导致次优和不一致的推论和结果。
一些提高模型精准度的扩展手段:
- 模型对组件和工具的外部调用:如计算器、数据库搜索或代码执行。
- 一个更丰富、更复杂的 "慢思考 "的深入机制:监督下一个词预测的 "快思考 "机制。这样的方法可以让模型进行长期的计划、探索或验证,并保持一个工作记忆或行动计划。慢思考机制将使用下一个词预测模型作为子程序,但它也可以获得外部的信息或反馈来源,并且它能够修改或纠正快速思考机制的输出。
- 将长期记忆作为架构的一个固有部分:也许在这个意义上,模型的输入和输出除了代表文本的标记外,还包括一个代表上下文的向量。
- 超越单个词预测:用分层结构代替标记序列,在嵌入中代表文本的更高层次的部分,如句子、段落或观点,内容是以自上而下的方式产生。目前还不清楚这种更高层次概念的顺序和相互依赖性的更丰富的预测是否会从大规模计算和“预测下一个词”的范式中涌现。
结语:所以实际发生了什么?
我们对GPT-4的研究完全是现象学的:我们专注于GPT-4能做的令人惊讶的事情,但我们并没有解决为什么以及如何实现如此卓越的智能的基本问题。它是如何推理、计划和创造的?当它的核心只是简单的算法组件--梯度下降和大规模变换器与极其大量的数据的结合时,它为什么会表现出如此普遍和灵活的智能?这些问题是LLM的神秘和魅力的一部分,它挑战了我们对学习和认知的理解,激发了我们的好奇心,并推动了更深入的研究。
关键的方向包括正在进行的对LLMs中的涌现现象的研究。然而,尽管对有关LLMs能力的问题有强烈的兴趣,但迄今为止的进展相当有限。一个普遍的假设是,大量的数据(尤其是内容的多样性)迫使神经网络学习通用的、有用的 "神经回路",比如在[OEN 22, ZBB 22, LAG 22]中发现的那些,而模型的大尺寸为神经回路提供足够的冗余和多样性,使其专门化并微调到特定任务。对于大规模模型来说,证明这些假设仍然是一个挑战,而且,可以肯定的是,猜想只是答案的一部分。
总的来说,阐明GPT-4等人工智能系统的性质和机制是一项艰巨的挑战,这个挑战已经突然变得重要而紧迫。
致谢
我们感谢OpenAI创造了这样一个了不起的工具,并让我们尽早体验它。我们也感谢OpenAI的Miles Brundage,以及微软的无数人,他们对这项工作提供了深思熟虑的反馈。
感谢你的耐心阅读,全文完。
最后,越研究越感觉GPT是一个宝库,还有很多东西需要挖掘,而GPT本身也在不断迭代发展,大家有兴趣持续关注,和我一起走这条人工智能学习实践之路的话,可以关注下公众号“强人工智能之路”,目前支持GPT3.5对话: