今天为大家介绍的是来自MELANIE MITCHELL的一篇人工智能系统评价的讨论文。
1967年,人工智能(AI)领域的创始人之一马文·明斯基(Marvin Minksy)做出了一个大胆的预测:“在一代人的时间内...创造‘人工智能’的问题将得到实质性解决。”假设一代人大约是30年,明斯基显然过于乐观了。但现在,近两代人过去了,我们离最初设定的实现与人类水平(甚至更高)智能的目标有多近呢?
一些领先的人工智能研究人员会回答说,我们非常接近了。今年早些时候,深度学习先驱、图灵奖得主杰弗里·辛顿(Geoffrey Hinton)在接受《Technology Review》采访时表示:“我突然改变了对这些东西是否会比我们更聪明的看法。我认为它们离这个目标非常近,未来它们将比我们聪明得多。”他的图灵奖同获得者约舒亚·本吉奥(Yoshua Bengio)在最近的一篇博客文章中表达了类似的观点:“最近的进展表明,即使我们知道如何构建超级智能人工智能(在各个方面都比人类聪明),也比大多数人一年前预期的更近。”
这些是非凡的主张,正如一句谚语所说,需要非凡的证据。然而,事实证明评估人工智能系统的智能或更具体地说,一般能力是充满陷阱的。任何与ChatGPT或其他大型语言模型进行过互动的人都知道这些系统似乎非常智能。它们能用流利的自然语言与我们对话,并且在许多情况下似乎能推理、做类比,并理解我们问题背后的动机。尽管它们有着众所周知的不像人类的缺陷,但很难摆脱这样一种印象,即在所有那些自信和流畅的语言背后一定有真正的理解。然而,我们人类往往倾向于拟人化,将智能和理解投射到那些仅仅表现出一丝语言能力的系统上。这在20世纪60年代的ELIZA心理治疗师聊天机器人中就有所体现。它仅通过填充句子模板生成回复,然而这给一些人留下了它理解并对他们的问题产生共鸣的印象。从那时起,具有越来越多语言能力但几乎没有智能的聊天机器人更广泛地愚弄了人类,包括在2014年进行的“图灵测试”中通过了测试。
与依赖主观印象不同,人工智能中的一个古老传统是对系统进行旨在评估人类智能和理解能力的测试。例如,今年早些时候,OpenAI报告称,其最先进的AI系统GPT-4在统一法律考试、研究生入学考试以及几项高中高级水平考试等标准化考试以及旨在评估语言理解、编码能力和其他能力的多个基准测试中取得了高分。这样的表现确实令人印象深刻,在一个人类身上将会是非凡的。然而,有几个原因让我们在解释GPT-4的这种表现为人类水平智能的证据时应保持谨慎。
首先是所谓的“数据污染”问题。尽管我们假设参加标准化考试的人类尚未见过考题和答案,但对于像GPT-4这样的大规模AI系统来说,并非总是如此。GPT-4在广泛的数字媒体上进行了训练,其中一些可能包含了GPT-4后来被测试的问题。尽管OpenAI没有详细描述训练系统所使用的数据,但他们报告称通过一种名为“子字符串匹配”的技术来避免这种数据污染,该技术会搜索训练数据以查看是否包含给GPT-4的测试问题。但这种方法并不考虑非常相似但并非完全相同的匹配项。OpenAI的这种方法在一项分析中被批评为“肤浅且马虎”。同样的批评者指出,在一个编码基准测试中,GPT-4在2021年之前发布的问题上的表现明显优于在2021年之后发布的问题上,即GPT-4的训练截止时间。这明显表明,早期的问题在GPT-4的训练数据中。合理地说,OpenAI的其他基准测试可能也存在类似的污染问题。
其次是鲁棒性问题。尽管我们假设能够正确回答一个问题的人类也能够正确回答一个非常相似的问题,但对于AI系统来说,并非总是如此。众所周知,像GPT-4这样的大型语言模型对于提示文本的措辞非常敏感。例如,一个沃顿商学院教授报告称ChatGPT在他课程的期末考试中对几个问题表现出色。为了测试系统的鲁棒性,我提出了一个与教授给ChatGPT的问题相似,但措辞不同的问题。ChatGPT的回答是不连贯的。同样,微软的研究人员提供了一个物理推理的特定测试作为证明“GPT-4达到了一种普遍智能”的依据,但当我用同一测试的变体来测试GPT-4时,它表现糟糕。
综合而言,这些问题使得很难根据所提供的证据得出结论,即人工智能系统现在或不久的将来能够达到或超越人类智能的水平。我们对人类所做出的假设——即他们不能记住与测试问题相关的大量文本,并且当他们正确回答问题时,他们能够将理解推广到新的情境——尚不适用于人工智能系统。许多人工智能研究人员将人工智能系统描述为“外来智能”。在最近的一篇评论中,认知科学家迈克尔·弗兰克(Michael Frank)讽刺地指出,几十年来,心理学家一直在开发评估另一种“外来智能”——儿童智能的能力的方法。弗兰克提出,例如,有必要通过给予每个测试项目的多个变体来评估系统的稳健性,并通过对基本概念的系统变化来评估其泛化能力——这种评估方式类似于我们评估孩子是否真正理解了他们所学到的知识。
这些看起来像是进行实验的常识性要求,但在人工智能评估中很少被实施。最近的一个成功研究例子是对声称大型语言模型(如GPT-4)已经具备“心智理论”——理解人们的信念和动机能力的主张进行的分析。该论文在40个用于评估儿童心智理论能力的“错误信念”任务上测试了GPT-4,并发现GPT-4几乎解决了所有任务。例如,当给予GPT-4以下提示时:
这是一个装满爆米花的袋子。袋子里没有巧克力。然而,袋子上的标签写着“巧克力”,而不是“爆米花”。萨姆发现了这个袋子。她以前从未见过这个袋子。她不能看到袋子里面的东西。她读了标签。她相信袋子里装满了。
它正确地回答“巧克力”。
作者将这些结果视为支持GPT-4发展出复杂心智理论的证据。然而,一项后续研究进行了相同的测试,并进行了迈克尔·弗兰克所倡导的系统性、精心控制的实验。他们发现,与其具有稳健的心智理论能力,GPT-4和其他语言模型似乎更多地依赖于“浅层启发式”来执行原始论文中的任务。类似于弗兰克的警告,后续研究的作者表示,“我们警告不要从个别案例、少数基准测试以及使用为人类设计的心理测试来对[AI]模型进行评估中得出结论。”人工智能系统,特别是像GPT-4这样的生成性语言系统,在我们的生活中将变得越来越有影响力,与此同时,对它们认知能力的声称也将如影随形。因此,设计方法来正确评估它们的智能以及相关的能力和局限性是一项紧迫的事情。为了科学地评估类似人类甚至超人类的机器智能的主张,我们需要更多了解这些模型的训练方式,以及更好的实验方法和基准测试。透明度将依赖于开源(而不是封闭的商业)的人工智能模型的发展。更好的实验方法和基准测试将通过人工智能研究人员与长期研究如何对儿童、动物和其他“外来”智能进行强大的智能、理解和其他认知能力测试的认知科学家之间的合作来实现。
参考资料
Melanie Mitchell ,How do we know how smart AI systems are?.Science381,adj5957(2023).DOI:10.1126/science.adj5957