自 ChatGPT 火爆以来,有关其取代搜索引擎的讨论不绝于耳,微软更是直接 ChatGPT 融入到 Bing 以对抗 Google。近日,来自华盛顿大学的两位教授给出了他们的回答:“ChatGPT 和 LaMDA 之类的大型语言模型并不适合作为访问信息的渠道”。
原文链接:https://iai.tv/articles/all-knowing-machines-are-a-fantasy-auid-2334
作者 | Emily M. Bender,Chirag Shah
译者 | 弯月 责编 | 梦依丹
出品 | CSDN(ID:CSDNnews)
数十年来,在许许多多的科幻小说中,人类的高科技未来始终离不开计算机系统。计算机能够通过各种界面,包括语音模式,为我们提供各种知识,就好像一个取之不尽用之不竭的知识宝库。互联网早期的目标似乎告诉我们,互联网是集合人类所有知识的一个地方。而 Meta 的 Galactica、OpenAI 的 ChatGPT 以及今年早些时候来自 Google 的 LaMDA 的诞生,似乎预示着我们即将拥有一个友好的语言界面。
小说创作为了方便起见,各个角色总是能知道他们应该知道的信息,但我们不能将小说中的情节误当成现实世界中技术的发展路线。事实上,Galactica、ChatGPT 和 LaMDA 之类的大型语言模型并不适合作为访问信息的渠道,基本原因有以下两个。
首先,这些模型的设计目的是创建看似连贯的文本。由于巧妙的构建,这些模型可以吸收大量的训练数据,并模拟单词在所有文本中共同出现的方式。结果是,这类系统可以生成在我们人类看来非常优美的文本。然而,这些系统根本不理解自己生成的文本,也不理解文本的交流意图,更无法反映真实的世界,更重要的是这些系统没有任何能力对自己言论的真实性负责。这就是为什么 2021 年一位研究人员 Bender 及其合著者称这些模型为“随机鹦鹉”。
其次,无所不知的计算机,这个想法的底层概念对知识的理解有着根本性的错误认识。永远不可能有一个包罗万象的、完全正确的信息集来代表我们需要知道的一切。即便你认为未来这有可能成为现实,也应该很清楚“它”并不是如今的互联网。在寻求信息时,我们以为自己需要找到问题的答案,但一般情况下,理解问题本身的过程才是最重要的地方——即提炼问题,寻找可能的答案,了解这些答案的来源,以及解这些答案代表的观点。考虑以下两个问题之间的区别:“摄氏 70 度等于多少华氏度?”以及“鉴于当前的疫情状况和自身的风险因素,我应该采取哪些预防措施?”
搜索信息不仅仅是尽快获得答案。当然,我们的许多问题都需要简单的、基于事实的答案,但是更多的问题需要进行一些调查。在这种情况下,重点是我们要了解相关的信息来源。虽然这需要在用户端付出更多努力,但此过程涉及重要的认知和情感处理,使我们能够更好地了解自己的需求和上下文,并在使用之前更好地评估之前搜索和收集到的信息。
ChatGPT以及其他直接提供答案的对话系统都存在这两方面的基本问题。首先,这些系统会直接生成答案,跳过了向用户显示信息来源的步骤。其次,这些系统以对话的形式通过自然语言提供答案,就好像与其他人交流一样,这种交流会随着时间和个人的经历而变化,而一直以来你一句我一句的自然语言的交流都仅限于人类之间。当我们遇到合成语言输出时,难免也会信任它们,就像信任人类一样。我们认为,这些系统需要非常谨慎地设计,避免滥用这种信任。
自 ChatGPT 发布以来,网络上关于人们能使用它做什么的讨论铺天盖地,我们非常担心如何将这项技术呈现给公众。即使是非对话形式的搜索引擎,我们也经常看到人们对它们的过分信任:如果搜索系统将某些内容放在结果列表的顶部,我们就倾向于认为这是一个良好的、真实的或具有代表性的结果;相反,对于搜索引擎没有找到结果,我们很容易相信它不存在。
然而,正如 Safiya Noble 在著作《Algorithms of Oppression》中警告我们的那样,这些平台并不是对世界现状或人们谈论世界的方式的中立反映,其中掺杂着各家公司的利益。作为公众,我们迫切需要了解概念化信息访问系统的工作原理,尤其是在这一刻,我们认识到,尽管表面上看来这些模型给出了流畅的答案,但并不意味着这些信息准确、有价值或可信。