【GPT】开源 | 牛津大学发现ChatGPT的数学能力明显低于数学研究生的平均水平

2023-02-28 11:06:27 浏览数 (2)

论文地址： http://arxiv.org/pdf/2301.13867v1.pdf

来源： University of Oxford

论文名称：Mathematical Capabilities of ChatGPT

原文作者：Simon Frieder

内容提要

我们通过在公开可用的数据集以及手工制作的数据集上测试ChatGPT的数学能力，并将其与在数学语料库(如Minerva)上训练的其他模型进行测试。我们还通过模拟数学家日常专业活动(问题回答、定理搜索)中出现的各种用例来测试ChatGPT是否可以成为专业数学家的有用助手。形式数学有大量的形式证明数据库(例如，精益数学库)，与此相反，目前用于基准语言模型的自然语言数学数据集只覆盖初等数学。我们通过引入一个新的数据集：GHOSTS来解决这个问题。它是第一个由数学研究人员制作和策划的自然语言数据集，(1)旨在涵盖研究生水平的数学，(2)提供语言模型数学能力的整体概述。我们在GHOSTS上对ChatGPT进行基准测试，并根据细粒度的标准评估性能。我们将这个新的数据集公开，以协助社区的ChatGPT与(未来)大型语言模型在高级数学理解方面的比较。我们得出的结论是，与媒体上的许多正面报道相反(一个潜在的选择偏差案例)，ChatGPT的数学能力明显低于平均数学研究生的水平。我们的结果表明，ChatGPT通常能理解问题，但不能提供正确的解决方案。因此，如果你的目标是用它来通过大学考试，你最好抄袭你的平均同龄人!

主要框架及实验结果

声明：文章来自于网络，仅用于学习分享，版权归原作者所有

腾讯云测试服务 NLP服务

0 人点赞