AI 考高数仅得81分，原来你也不及格？！

整理 | 禾木木

出品 | AI科技大本营（ID:rgznai100）

高数是多少理科生的噩梦？小编当时就是一个高数很差的人那让 AI 做一道数学题有多难呢？又何况是高数呢？

不久前，看到一则这样的热搜：

是不是更难以接受了？！！！

多年来，科学家一直尝试让 AI 机器人挑战数学考试，但连年不及格，甚至低到 20 多分。因此，科学家们普遍认为人工智能无法挑战高数。然而近日，麻省理工的科学家基于 OpenAI Codex 预训练模型在高数上通过 few-shot learning 的正确率达到了 81%！相关研究已经被 ArXiv 收录。课程范围从初级微积分到微分方程、概率论、线性代数都有，题目形式除了计算、甚至还有画图。

PART 01

语言模型 Minerva

研究者发现，让 AI 解决数学问题存在多种方案。首先，利用最新的 GPT-3 语言模型通过文本预训练使用小样本学习仅能达到 18.8% 的正确率；其次研究者尝试使用小样本学习和最新的思维链提示，正确率上升到了 30.8%；最后，研究者对代码进行微调，使用 Codex 进行少量学习的方式，让 AI 挑战麻省理工大学学院六门数学课程中的 210 道问题，正确率提升到了 81.1% 。

研究团队的解决思路是先在文本上做预训练，再用代码进行微调，把数学问题转换成等价的问题，通过让 AI 自动生成补充提干的上下文，将题目自动生成适合模型运行的文本后，再生成对应的代码并运行，最终解决数学问题。研究团队下一步打算把这项技术扩展到更多课程，并考虑实际应用到教学中。

在提交的这篇论文中，我们了解到他们推出了语言模型 Minerva，该模型能够解决数学和科学问题，让模型一步一步来。通过收集与定量推理问题相关的训练数据、大规模训练模型，以及使用先进的推理技术，该研究在各种较难的定量推理任务上取得了显著的性能提升。

Minerva 通过生成解决方案来解决问题，包括数值计算、符号操作，而不需要依赖计算器等外部工具。Minerva 可以将自然语言和数学符号进行结合来解析和回答数学问题。

此外，Minerva 还结合了多种技术，包括小样本提示、思维链、暂存器提示以及多数投票原则，从而在 STEM 推理任务上实现 SOTA 性能。

Minerva 不仅可以解决代数问题，还能解决物理、数论、几何、生物、化学、天文学等众多问题。

下面是 Minerva 解决几何问题：

应用题上，可以列出方程式：

为了测试 Minerva 的定量推理能力，研究者们在不同的 STEM 基准上进行了评估，覆盖从小学水平的问题到研究生水平的课程。研究者们还在 OCWCourses 上评估了 Minerva，涵盖了从 MIT OpenCourseWare 中收集的固态化学、天文学、微分方程和狭义相对论等各种 STEM 主题。

结果表明，在所有数据集的评估后，5400 亿参数的 Minerva 在各种测试集中达到 SOTA，有时甚至是大幅提升。

不过，Minerva 也犯了很多错误。为了更好地确认模型可以改进的领域，研究者们分析了模型出错的问题样本，发现大多数错误很容易解释。结果表明，大约一半是计算错误，另一半是推理误差，原因是解决步骤没有遵循逻辑思考链。

同时，Minerva 也有可能得出正确的最终答案，但推理依然错误。分析结果显示，这种概率相对较低，Minerva 62B 在 MATH 数据集上的平均低于 8%。

AI 不仅在技术圈有着不错的发展，在不同的领域也大展拳脚，前有让 AI 在 40 秒写 40 篇高考作文，用 AI 修复很多珍贵的照片、画面。不仅有学生们盼着有一天能用 AI 做作业，还有老师们也期望用 AI 出卷子。

也有网友表示，想要挑战他。你怎么看呢？

参考链接：

https://s.weibo.com/weibo/%23AI%E8%80%83%E9%AB%98%E6%95%B0%E4%BB%85%E5%BE%9781%E5%88%86%23?topnav=1&wvr=6&Refer=top_hot&sudaref=weibo.com

https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

END

往期推荐

韩国AI团队抄袭震动学界！1个导师带51个学生，还是抄袭惯犯

“威胁”员工全来上班后，马斯克“尴尬”了：车没地停、工位不够坐、Wi-Fi 还太差

QQ 被盗号引发大型“社死”现场！腾讯回应：系用户扫描过伪造的游戏二维码

NLP服务 https 网络安全编程算法

0 人点赞