论文地址: http://arxiv.org/pdf/2301.13867v1.pdf
来源: University of Oxford
论文名称:Mathematical Capabilities of ChatGPT
原文作者:Simon Frieder
内容提要
我们通过在公开可用的数据集以及手工制作的数据集上测试ChatGPT的数学能力,并将其与在数学语料库(如Minerva)上训练的其他模型进行测试。我们还通过模拟数学家日常专业活动(问题回答、定理搜索)中出现的各种用例来测试ChatGPT是否可以成为专业数学家的有用助手。形式数学有大量的形式证明数据库(例如,精益数学库),与此相反,目前用于基准语言模型的自然语言数学数据集只覆盖初等数学。我们通过引入一个新的数据集:GHOSTS来解决这个问题。它是第一个由数学研究人员制作和策划的自然语言数据集,(1)旨在涵盖研究生水平的数学,(2)提供语言模型数学能力的整体概述。我们在GHOSTS上对ChatGPT进行基准测试,并根据细粒度的标准评估性能。我们将这个新的数据集公开,以协助社区的ChatGPT与(未来)大型语言模型在高级数学理解方面的比较。我们得出的结论是,与媒体上的许多正面报道相反(一个潜在的选择偏差案例),ChatGPT的数学能力明显低于平均数学研究生的水平。我们的结果表明,ChatGPT通常能理解问题,但不能提供正确的解决方案。因此,如果你的目标是用它来通过大学考试,你最好抄袭你的平均同龄人!
主要框架及实验结果
声明:文章来自于网络,仅用于学习分享,版权归原作者所有