AI做题不止高数！Google新模型Minerva称霸工科竞赛：秘诀竟是保留LaTeX表达式？

新智元报道

编辑：LRS

【新智元导读】Google的新语言模型Minerva将AI做数学题的水平抬到新高度，而且工科领域如天文、几何、代数、机器学习统统不在话下。

用学「语文」的脑子能学好「数学」吗？

从Bert开始，到GPT-3, Gopher和PaLM，大型语言模型在各个自然语言处理任务上不断刷新成绩，创作个小作文、聊个天、写个代码都不在话下，可以说语言模型在大规模数据集下的自监督训练下已经能很好地模拟人类的语言能力了。

但定量推理（Quantitative Reasoning），也就是解决数学问题上，AI模型跟人类比还是有相当大的差距。

如果把「数学问题」作为文本输入，答案作为输出，也就只能解决一些小学数学的应用题，至于大学数学以及其他的科学和工程问题，语言模型只会「胡言乱语」。

MIT之前剑走偏锋，把「问题」作为输入，「程序代码」作为输出，基于OpenAI Codex预训练模型，借助Python解释器，在七门大学数学课程上通过few-shot learning成功达到81%的正确率。

最近Google也发布了一个基于PaLM语言模型的求解器

，在不借助外部工具的情况下取得了sota的结果。

论文链接：https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

演示链接：https://minerva-demo.github.io/

Minerva最主要的改进点在于微调的数据集。

研究人员首先在arXiv服务器上下载了200万篇用LaTex排版的科学论文（截至2021年2月），在删掉那些内容不足75000个token的论文后，最后得到了120万篇论文，共计58GB

第二个数据渠道来自网页，先收集HTML中包含「<math」或者「MathJax-Element-」标签的，然后采用两个启发式规则过滤出用LaTex或者ASCII-math格式的内容，最后得到60GB数据

标准的数据清洗过程通常都是把符号和数学表达式给删掉，导致E=mc^2给转成了E=mc2，语义就变了。在保留LaTex数学公式后，模型在那些要求计算和符号操作的任务上性能得到显著提高。

最终的训练数据连带自然语言文本和数学公式在内总共包含了385亿个token。

Minerva的训练基于三个不同尺寸的PaLM模型。

Minerva生成答案的过程使用了Chain of Thought方法来提示模型step-by-step地解决问题。

另一个技术是Majority Voting，在回答一个问题时虽然答案相同，但推理过程可能不同，Minerva通过从所有可能的输出中随机抽样来产生多个解决方案，然后对结果进行投票，把出现次数最多的结果作为最终的答案。

在评估阶段，使用了三个数据集：

MATH: 高中数学竞赛水平，包括12000个初中和高中的数学问题，问题描述使用LaTex

GSM8k: 小学级别的数学问题，包括基本的算术运算。

MMLU-STEM: 大规模多任务语言理解基准的一个子集，涵盖高中和大学水平的工程、化学、数学和物理等多个学科

实验结果直接把基线抬高一个层次，MATH的sota直接从6.9提高到50.3，而MMLU-STEM也有大幅提升。

解决这几个「简单的」数据集之后，Minerva又把目标对准本科生水平的STEM问题（OCWCourses），研究人员根据MIT提供的公开课程材料（OpenCourseWare）中，在「固态化学」、「信息与熵」、「微分方程」和「狭义相对论」等课程中收集了272个问题，其中191个有数字解，81个有符号解，最终正确率达到30.8%