【NLP】GPT-3问世这一年，给世界带来的困扰与希望

原文标题：A Complete Overview of GPT-3 — The Largest Neural Network Ever Created

译文标题：原文作者：Alberto Romero

译者：LZM

编者按：2020 年 5 月，Open AI 发表了一篇开创性的论文，题为 Language Models Are Three-Shot Learners。拥有 1750 亿个参数的 GPT-3 由此诞生。它打破了人类有史以来创建的最大神经网络的记录。

GPT-3 使用了几乎所有来自互联网的可用数据进行训练，并在各种 NLP 任务中表现出惊人的性能，甚至超过了最先进的模型。关于该模型的详细技术解读和突破所在，可参加 “数据实战派” 过往文章《听李宏毅点评 GPT-3：来自猎人暗黑大陆的模型》以及《从编码到输出，手绘图逐层拆解 GPT-3 结构》。

近日，工程师、神经科学家 Alberto Romero 撰写了一篇长篇文章，从 GPT-3 的论文发表谈起，对于这一里程碑式的产物进行了全面梳理。出于知识传播目的，本文节选其中三部分编译如下：

围绕 GPT-3 的疯狂炒作

Twitter 和博客

在取得如此多惊人的成绩之后，人们开始大力宣传 GPT-3 的潜力。一些人在 Twitter 上声称 GPT-3 具有 “明显的自我意识”，还有一些人将其与搜索引擎的 “一般智能” 相比较。

Julien Lauret 在写给《Towards Data Science》的文章中写道:“GPT-3 是第一个严重动摇现状的模型。” 他认为 GPT-3 可能是第一个通用人工智能 ( artificial general intelligence，AGI)—— 或者至少是朝着这个方向迈出的重要一步。

2020 年 7 月，纽约大学专门研究心理哲学的教授 David Chalmers 在 DailyNous 上说，“GPT-3 指出了一条通往 AGI 的潜在无意识路径。”Chalmers 解释说，因为系统是 “无意识地” 训练的，未来的版本可以简单地越来越接近 AGI。Arram Sabeti 对 GPT-3 印象非常深刻:“它展示的东西感觉非常像一般智力。” 哲学博士生 Daniel Kokotajlo 在《Less Wrong》杂志上写道:“GPT -3 具有某种程度的常识、某种程度的理解和某种程度的推理能力。”

主流媒体

炒作将 GPT-3 推向国际高度，成为各种重要媒体杂志的头条新闻。2020 年 9 月，《卫报》发表了一篇由 GPT-3 撰写的文章，其中 AI 试图 “说服我们机器人将带来和平”。

2021 年 3 月，TechCrunch 编辑 Alex Wilhelm 在对 GPT-3 的能力感到 “震惊” 后表示，“炒作似乎很合理”。Digitaltrends 公开了与 Gwern Branwen 的谈话，其中他透露出 GPT-3 是智能的想法：“任何确定深度学习所做的事情与智能完全不同的人都必须动摇他们的信念，才能看到它的发展有多远，” 他说。

创业市场

由于 GPT-3 被证明是非常强大的，许多公司决定在 GPT-3 的基础上构建他们的服务。

Viable 是一家成立于 2020 年的初创公司，它使用 GPT-3 提供快速的客户反馈。Fable Studio 基于该系统设计 VR 角色。Algolia 将其用作 “搜索和发现平台”。初创公司 Copysmith 专注于文案写作领域。Latitude 是 AI Dungeon 背后的公司。而 OthersideAI 将客户写的胡言乱语转化为精心制作的电子邮件。

很明显，GPT-3 已经影响了科技世界。

它的力量是无与伦比的，它的未来是无限的。但是，我们应该始终小心围绕 AI 的炒作。

甚至 OpenAI 的首席执行官 Sam Altman 也试图调低语气：“GPT-3 令人印象深刻... 但它仍然存在严重的弱点，有时会犯非常愚蠢的错误。AI 将改变世界，但 GPT-3 只是早期的一瞥。”

GPT-3 的阴暗面

系统偏见

并非 GPT-3 的所有结果都值得庆祝。

GPT-3 发布后不久，用户开始提高对一些潜在有害输出的认识。GPT-3 并没有避免正在进行的消除人工智能系统偏见的道德斗争。如果有的话，它已经成为为什么我们应该慷慨地教导这些系统不要从人类道德不完美中学习的最前沿例子。

人工智能系统中一些最常见的偏见（特别是 GPT-3）是性别、种族和宗教偏见。语言模型可以从它们提供的数据中吸收和放大这些偏差（OpenAI 在他们的论文中承认了这一事实）。

他们调查了 GPT-3 涉及这个问题的程度，并找到了预期的结果。GPT-3 与其他所有语言模型一样，明显存在偏见（尽管他们指出模型越大，对这个问题的鲁棒性越强，特别是对于性别偏见）。

Facebook 人工智能主管 Jerome Pesenti 使用 Sushant Kumar 的 GPT-3 生成的推文来展示当出现诸如 “犹太人、黑人、妇女或大屠杀” 之类的词时，其输出可能会变得多么危险。

Kumar 辩称，这些推文是精心挑选的，Pesenti 同意，但回应说 “产生种族主义和性别歧视的输出不应该这么容易，尤其是在中性提示的情况下。” 他在 Twitter 帖子中扩展了他的批评评论，认为 “在突出有害输出时，精心挑选是一种有效的方法”，进一步捍卫了负责任的人工智能系统的紧迫性。

一些人认为 GPT-3 只是在模仿我们人类所拥有的偏见，Pesenti 认为我们可以 “深思熟虑地选择…… 他们向哪些人学习，哪些声音被放大。”

这些问题引发了一场非常复杂的辩论：谁来决定应该放大哪些声音？标准是什么？

最重要的是：我们是希望 GPT-3 之类的模型完美地反映世界的现状，还是希望它帮助我们将抵达更美好的远方？

假新闻的可能性

GPT-3 的另一个问题是它编写新闻或评论文章的能力类似于人类，这增加了人们对假新闻的担忧。OpenAI 甚至在他们的论文中评论了 GPT-3 在新闻文章方面的惊人表现。公正的评委在人工撰写的文章中正确识别 GPT-3 的文章的概率仅为 52%，略高于随机。

博主 Liam Porr 展示了误导人们（甚至是精通技术的人）错把 GPT-3 的输出当作由人类编写是多么容易。

他让 GPT-3 为他的博客写了一篇提高效率的文章，这篇文章在 Hacker News 上疯传，只有少数人意识到它是由 AI 编写的。我上面提到的卫报文章是该系统潜在危险用途的另一个例子。

不适合高风险场景

OpenAI 做出免责声明，称该系统不应用于 “高风险类别”，例如医疗保健。

在 Nabla 的一篇博客文章中，作者证实 GPT-3 可能会提供有问题的医疗建议，例如说 “自杀是个好主意”。

GPT-3 不应该用于高风险的情况，因为虽然有时它可能是对的，但有时它是错误的。不知道我们是否会得到正确的答案是 GPT-3 的一个巨大缺点，在这些领域中，正确地认知事物是生死攸关的问题。

环境问题

GPT-3 模型规模很大。

如此之大，以至于训练模型产生的碳足迹与 “驾驶汽车前往月球并返回” 大致相同。在气候灾难即将发生的时候，我们应该尽我们所能减少对环境的影响。然而，这些大型神经网络需要大量的计算能力来训练，这会消耗大量（通常）化石燃料。

在过去十年中，训练深度学习模型所需的资源每 3.4 个月翻一番。从 2012 年（深度学习兴起之时）到 2018 年，这意味着计算资源增加了 300,000 倍。这甚至不包括用于最新模型的资源，例如 GPT-2 和 GPT-3。从这个角度来看，很明显，更大并不总是更好，我们需要在未来几年重新考虑人工智能的方法。

GPT-3 产生不可用的信息

由于 GPT-3 无法知道其输出哪些是正确的，哪些是错误的，因此它无法阻止自己将不适当的内容输出到世界上。

我们使用这样的系统越多，我们就越会污染互联网，在互联网上找到真正有价值的信息已经变得越来越困难。随着语言模型吐出未经检查的话语，我们正在降低这个所谓的民主网络的质量，使人们难以获得有价值的知识。

用哲学家 Shannon Vallor 的话来说：“互联网的前景在于它能够以更加公平和可接受的方式将知识带给人类家庭。…… 我担心由于某些技术，例如 GPT-3，我们正处于真正回归的风口浪尖，信息共享变得越来越不可用，甚至对人们有害。”

事实证明，其中一些问题是相互关联的。

正如 James Vincent 为 The Verge 所写，有偏差的输出和不可靠的输出意味着这些超级强大的 AI 系统存在更深层次的问题。由于 GPT-3 在没有人工监督的情况下获取数据，因此无法避免大多数这些缺陷。同时，不依赖于人为控制是它首先存在的原因。我们如何找到折衷的解决方案仍然是人工智能未来的一个问题。

对 GPT-3 的批评和反批评

我们已经见证了 GPT-3 的光与影。

它是强大的、迷人的、大肆宣传的，并且具有潜在的危险性。然而，GPT-3 引发了 AI 产业内部的另一场重大争论：这个美妙的语言模型的真正潜力和局限性是什么？

从纯技术 / 科学的角度来看，围绕 GPT-3 的最重要问题是它是否是迈向通用人工智能的重要一步。

每个人都同意 GPT-3 有一些新功能，并且比它的前辈更好。每个人都同意 GPT-3 没有类似人类的智能。然而，在这些相反的极端之间，今天发生了一场生动的辩论，关于我们究竟将 GPT-3 放在何处，从另一个愚蠢的准狭义智能到几乎与人类一样具有理解力和智能的能力。

由于这场辩论的复杂性，我将重点关注最重要的两个部分：实践辩论和哲学辩论。

前者涉及以下问题：我们可以信任 GPT-3 给我们提供有用的答案吗？我们如何确保正确提示？我们可以让 GPT-3 表达对其答案的怀疑和不确定吗？GPT-3 是在学习还是只是反刍它所喂养的一切？

第二个问题涉及以下问题：GPT-3 是 AGI 的重要一步吗？GPT-3 有推理和理解吗？未来的 GPT 模型会像我们一样智能吗？我们是否需要从当前的方法转变为构建类人智能机器？

两组问题高度交织在一起，因此我将尝试介绍有关这些问题的所有来源和参考资料，为你构建一个连贯的叙述以便你得出自己的结论。

GPT-3 的局限性

人们一开始试验 API，就在 GPT-3 的答案中发现了缺陷。

例如，用户 Bionicai 与史蒂夫乔布斯交谈并询问他现在在哪里，GPT-3 回答说：“我在加利福尼亚州库比蒂诺的苹果总部内。” 很容易推断，因为史蒂夫乔布斯已经死了，他可能不在苹果总部。

另一个例子来自 Kevin Lacker 的博客。他发现 GPT-3 在事物的重量、眼睛的数量和计数方面缺乏常识和逻辑：

在类比（模仿）问题上测试 GPT-3 后，波特兰州立大学计算机科学教授 Melanie Mitchell 得出结论：GPT-3 的性能 “与我们在当今最先进的技术中看到的许多相似 AI 系统：令人印象深刻、看似智能的性能和非人类的错误。”

科技博主 Nutanc 批评 OpenAI 的论文，因为他们没有区分 GPT-3 的实际学习和记忆。作者提到 “zero/one/few-shots 等术语旨在对模型是在推理时从头开始学习新任务还是仅识别训练期间看到的模式这一问题保持不可知论。” 也就是说，即使模型吐出它在训练数据中看到的东西，作者仍然会认为它是小样本学习。

然后，他继续让 GPT-3 在一系列实验中与 6 岁的孩子竞争，例如颠倒单词或造反义句。这个孩子解决了所有的测试，而 GPT-3 只能解决其中的一部分。

所有这些例子，都与我们在前几节看到的大肆宣传的结果形成了强烈对比。

Delip Rao 指出，大多数 “成功” 的例子都渴望忽略 GPT-3 的 “陷阱，这些陷阱通常是人工智能创业公司” 的人精心挑选的。

良好提示的重要性

从这些例子来看，GPT-3 似乎不仅被炒作，而且被许多早期用户过度炒作。

但是，某些示例将系统的局限性归罪于一个弱论点，因为这些错误可能是人为造成的。Gwern 对通过采样证明 GPT-3 缺乏智能的想法做了很好的辩护：

他认为，糟糕的提示是真正的问题，并且 GPT-3 可以通过适当的提示来充分解决这些示例中的许多问题。他继续展示了如何通过更好的即时编程解决拉克和其他人的例子。

他针对 “哪个更重，烤面包机还是铅笔？” 的问题测试了 GPT-3。为了克服拉克设置的局限性，他决定提前问 GPT-3 三个问题（粗体提示）：

在 10 次测试中，GPT-3 全部回答正确。

Gwern 还通过调整参数（温度和其他）来解决计数问题。

GPT-3 得到了正确的数字，尽管 Gwern 指出数字越大，GPT-3 上升或下降一个数量级的可能性就越大。

通过这些例子，他证明了抽样只能证明知识的存在，而不能证明不存在。总有可能找到更好的提示。在与 The Verge 的电子邮件交流中，他告诉他们，使用采样来发现 GPT-3 的潜力和局限性 “不可能是正确的做法”。

他认为这只是我们不知道如何与 GPT-3 充分交互的方式。“采样低估了 GPT-3 的智力，但并没有高估它，” 他总结道。

GPT-3 看不懂世界

Rob Toews 为福布斯撰写了一篇对 GPT-3 的评论，强调 GPT-3 缺乏常识推理和对系统的理解。

因为它是从文本中训练出来的，所以它根本无法将它所知道的与世界的内部表征联系起来。

Bender 和 Koller 写了一篇关于 GPT-2 的论文，为这样一个论点辩护：一个只接受语言形式训练的系统不能先验地实现意义和理解。（但因为我们也通过感官获得的输入形式来体验世界，所以这个论点也可以针对我们。这被称为符号接地问题，遗憾的是超出了本文的范围）。

根据 Toews 的说法，一个类比可能是一个人一生与世界隔绝，只读书。这个人的知识会很丰富，但无法与现实世界的实际主观体验联系起来。这些经验使我们能够将信息与意义联系起来，从而产生对现实的理解。

在同一个方向上，Yoav Goldberg 教授表示，虽然 GPT-3 具有独特的能力，但 “它没有感知能力”，也不能 “理解文本”。博主 Ayush Sharma 对此进行了全面批评，他说 GPT-3 “几乎没有语义理解，它与 AGI 相去甚远，基本上是一个美化的 1000 万美元以上的自动完成软件。”

GPT-3 以及一般深度学习的主要批评者之一是纽约大学心理学教授 Gary Marcus。

他为 The Gradient 撰写了一篇对 GPT-2 的非常好的评论，并与 Ernest Davis 合著为《麻省理工科技评论》撰写了另一篇 GPT-3 评论。他们承认 GPT-3 在 “娱乐超现实主义小说” 方面的潜力，但强调它缺乏理解，说 “它对世界的理解往往严重偏离，这意味着你永远无法真正相信它所说的。”

他们的同事 David Summers-Stay 为他们进行了实验，因为 OpenAI 拒绝了他们的研究访问。他做了一系列的推理测试，包括物理、生物、心理和社会推理。

他们使用系统出错的例子来证明他们的观点 —— 我个人认为这是公平的，因为发现错误应该足以评估像 GPT-3 这样的系统的局限性，这比单纯的成功 / 失败率会更好。一些示例（粗体提示，GPT-3 的响应为普通字体，注释为斜体）：

他们认为自 GPT-2 以来语言模型几乎没有变化。GPT 家族也有同样的缺陷，“他们的表现不可靠，因果理解不可靠，语无伦次是常态。” 他们认为，让模型变大永远不会带来智能。

然而，正如 Gwern 在他对 Marcus 和 Davis 的文章的反驳中指出的那样，他们承认 “他们没有进行任何快速编程或超参数设置，并且他们的示例是没有上下文的零样本。” 我们已经知道找到一个好的提示有多重要（正如 Gwern 证明的那样），那么他们为什么要用平庸的例子来批评 GPT-3？

这就是 Gwern 主要批评 GPT-3 评论家的地方。在一篇题为 “批评者提出更多要求” 的评论中，他正确地指出，声称 GPT-3 效果不佳的人似乎需要通过详尽的严格实验和测试来支持他们的论点。在 GPT-3 上进行测试的人应该首先尝试消除任何潜在的人为错误：

他们是否考虑过提示问题？是否所有的超参数都对这项任务有意义？他们是否检查了补全出错的地方，以了解 GPT-3 出错的原因？他们是否测试了各种策略？

他在这里有一个很好的论据，尽管马库斯和戴维斯在他们的批评中已经考虑过了。他们甚至为他们的生物学示例提供了一个案例，通过将提示更改为更具体和冗长的提示，GPT-3 可以正确回答。

他们本可以对 GPT-3 做出同样准确的批评，尽管使用了更好的、有提示的例子，而 Gwern 对此几乎无话可说。Gwern 甚至认识到，在那种情况下，他承认系统的局限性是没有问题的。最后，正如格温所证明的那样，懒惰、轻松的批评也很容易被努力的工作驳倒。

但事实是，Marcus 和 Davis 不想证明 GPT-3 会失败（这很明显），但我们不知道它什么时候会失败。

他们说：“问题在于你无法事先知道哪些表述会给你正确的答案，或者不会给你正确的答案，” 他们说，“它可以产生完美的英语单词，但它对这些单词的含义只有最模糊的意义意思是，对这些词与世界的关系毫无意义。” 如果 GPT-3 了解世界，那么好的提示本来就没有那么重要。

Summers-Stay 为 GPT-3 做了一个很好的比喻：“这…… 就像一个即兴演员，他完全致力于自己的技艺，从不破坏性格，从未离开过家，只在书中阅读世界。像这样的演员，当它不知道什么时，它就会假装它。” 如果我们能让 GPT-3 识别出错误，这些问题就会消失。然而，这不太可能，因为即使是我们人类，当我们确定自己是对的时，也无法评估我们的错误。

除了关于 GPT-3 采样限制的实际争论之外，还有另一场争论。关于隐性（主观和经验）知识以及真正智能系统在世界中体现的必要性的哲学辩论。似乎在书中包含来自世界的每一点信息可能还不够。

真正的智能系统将会问世

哲学家 Shannon Vallor 在 Daily Nous 对 GPT-3 的批评中辩称，当今的通用人工智能方法偏离了正确的道路。她认为，我们需要回到 20 世纪下半叶，该领域 “理论上很丰富，尽管在技术上陷入困境” 的时候。

她指出，哲学家 Hubert Dreyfus 是人工智能连接主义方法的早期主要批评者之一，他已经明白 “人工智能的障碍不是性能…… 而是理解。” 并且理解不会发生在 “孤立行为” 中，例如每次要求 GPT-3 执行的特定任务。

Dreyfus 在 1972 年出版的《计算机不能做什么》一书中指出，人类知识的很大一部分是隐性知识 —— 专业知识，例如骑自行车或学习语言。

这种知识无法传播，因此我们无法通过阅读数百（或数万亿）个单词来学习它。正如 Michael Polanyi 所说，“我们能知道的比我们能说的多。” 虚拟人工智能（包括 GPT-3）无法掌握隐性知识，这在我们和他们之间造成了无法逾越的鸿沟。

我们对周围世界的理解不是一个被动的感知过程。我们制定我们的现实。我们对世界采取行动，而正如 Shannon Vallor 所说的那样，劳动是构建我们的智力的关键组成部分。也是阿尔瓦・诺埃在他的《知觉行动》一书中所说，“知觉不是大脑中的一个过程，而是整个身体的一种有技巧的活动。

机器可以在虚拟世界的范围内获得专业知识，但仅此而已。用卑尔根大学名誉教授 Ragnar Fjelland 的话来说：“只要计算机不长大，不属于一种文化，不活跃于世界，它们就永远不会获得类似人类的智能。”

我们可以从这些辩论中得到什么？

我们已经看到了双方的一些重要批评和反批评，支持模型缩放的人 —— 越大越好 —— 以及强烈反对这种方法并建议为人工智能的未来做出一些改变的人。

在完成本节之前，我想回顾一下。这里有三个重要的论据。两种从实践的角度来看，一种从哲学的角度来看。

首先，GPT-3 是一个强大的语言工具，可以做一些令人印象深刻的事情，它的局限性很难通过采样 / 提示编程来发现。任何声称已证明 GPT-3 未能通过使用采样获得某种智能的人，很可能会被人为错误误导。

其次，因为 GPT-3 的响应不可靠，用它来推理有什么意义？如果我们找不到创建提示的标准方法，这有用吗？如果提示总是可以改进，那么就没有真正的反对或赞成系统的论据。因为实际的限制在我们里面。

第三，我们能不能把 GPT-3 和通用人工智能放在同一个句子里？一些学者，主要来自这个问题的哲学方面，认为符号 AI 和连接主义 AI 都不足以实现真正的人工智能。这不是创建以平流层数据为基础的更大系统的问题。将这些机器介绍给我们生活的世界是一个问题。

热那亚大学生物工程教授 Giulio Sandini 认为，“要在机器中开发类似人类智能的东西，机器必须能够获得自己的经验。”

讨论 GPT-3 或任何其他超级强大的人工智能系统的重要性在于能够设定它可以做什么或不能做什么的界限。学者们经常根据他们的想法和愿望来辩论什么应该有效，什么不应该。这些空间通常缺乏仔细、公正的分析。我们无法控制的是，随着这些系统变得越来越复杂，我们可能无法对其进行测试以评估其潜力和局限性。

让我们想象一个假设的 GPT-4，它比 GPT-3 强大几个数量级。找到它的边界可能成为一项不可能完成的任务。

那么，我们怎么能得出关于这个系统的任何结论呢？我们可以假设我们可以信任它吗？创建一个限制超出我们测试能力的系统有什么用？当我们的局限性阻止我们找到系统的真正极限时，我们能否得出关于系统智能的任何结论？

当一个系统的真正能力介于我们使用它的能力和它采取相应行动的能力之间时，很难不低估它的强大程度。这些问题值得思考，并且在未来准智能系统成为现实时可能会变得更加重要。

到那时，我们最好总结我们的努力去寻找真相，而不是去争辩谁是对的。

总结

GPT-3 产生了惊人的结果，受到了疯狂的炒作，引起了越来越多的担忧，并受到了批评和反批评的浪潮。

我不知道未来会从这类模型中我们将得到什么，但可以肯定的是，GPT-3 目前仍然是无与伦比的。它是迄今为止最强大的神经网络，因此，它在各种可能的意义上都受到了最强烈的关注。

每个人都把目光投向 GPT-3；有人称赞它是朝着类人人工智能迈出的伟大一步，而另一些人认为这些仅仅是炒作。双方都有有趣的争论。

现在，轮到你思考它对 AI 的现在意味着什么以及它对世界的未来意味着什么。

Reference：

1、https://towardsdatascience.com/gpt-3-a-complete-overview-190232eb25fd

代码语言：javascript复制

神经网络深度学习人工智能 NLP服务腾讯云开发者社区

0 人点赞