GPT-4的时代终结！盘点全球最强模型Claude 3 ，都用了哪些测试集？（资料分享）

引言

在人工智能领域，模型的性能和能力一直是人们关注的焦点。本周，Anthropic公司的最新力作--Claude3 AI模型的发布，无疑成为了业界的热点。其中Claude3系列最强模型Opus在领域知识理解、数学知识推理、常识推理、文本段落推理、阅读理解、代码生成、多任务推理等个方面都完虐业界标杆GPT-4，同时碾压谷歌的Gemini 1.0 Ultra。

在这一背景下，了解Claude3模型所依赖的数据集有利于更好地理解其背后的技术基础和应用潜力，那么接下来带大家盘一盘Claude3在领域知识理解、数学知识推理、常识推理、文本段落推理、阅读理解、代码生成、多任务推理等方面都用到了哪些测试集及其相关论文（如下图）。相关资料获取，回复：Claude测试集。

领域知识理解

MMLU数据集

自然语言处理（NLP）模型在特定基准测试上取得了超人的表现，但整体语言理解能力仍远低于人类水平。现有的基准测试（如GLUE和SuperGLUE）主要评估语言技能，而非全面的语言理解。为了填补模型在预训练期间接触到的广泛知识与现有成功度量之间的差距，作者提出了一个新的基准测试集(MMLU)，旨在评估语言模型的常识推理能力。

该数据集由UC伯克利的研究者开发发表在ICLR 2021会议，共计「包含了57个不同的任务，涉及基础数学、美国历史、计算机科学、法律等多个领域」。为了在这项测试中取得高分，模型必须具备广泛的世界知识和推理能力。除此之外，俄勒冈大学大学基于该数据集还开发了多语言的MMLU数据集，共计包含26种语言，关于Claude3使用的是其中10中语言。

GPQA数据集

尽管AI系统在许多任务上表现出色，但在需要大量专业知识和推理能力的任务上仍然存在局限性。为此，纽约大学的研究者提出了多项选择题数据集GPQA，该数据包含「生物学、物理学和化学等多个学科领域共448个问题」。GPQA数据集的设计考虑到了专家与非专家之间的知识差距。通过让专家编写问题并验证答案的客观性，同时让非专家尝试解决问题，可以确保数据集的问题对于非专家来说是具有挑战性的。

该数据集的问题极其难解，即便是在该领域已取得或正在攻读博士学位的专家，正确率也只有65%。而对同等专业背景但不同学科的非专家来说，正确率仅为34% 。该数据集难度巨大，现有AI模型如GPT-4在该数据集上的正确率也仅为39%。为研究人机合作监督高能AI输出的可扩展方法，

PubMedQA数据集

该数据集由匹兹堡、卡内基梅隆等大学提出，它是第一个需要对「生物医学研究文本」进行推理，特别是其定量内容的问答数据集。该数据集包括以下三个不同的子集：**PubMedQA Labeled (PQA-L)「：这个子集包含了从 PubMed 文章中收集的 1,000 个手动注释的是/否/可能的问答数据。」PubMedQA Artificial (PQA-A)「：这个子集包含了 211,300 个 PubMed 文章，根据论文标题自动生成的问题和使用简单启发式方法生成的是/否答案标签。」PubMedQA Unlabeled (PQA-U)**：这个无标签的子集包含了从 PubMed 文章中收集的 61,200 个上下文-问题对数据。

这个数据集的主题分布涵盖了广泛的研究领域，包括回顾性、前瞻性和队列研究，不同年龄组，以及与医疗保健相关的主题，比如治疗结果、预后和疾病风险因素。

ARC-Challenge数据集

该数据集由Allen Institute for Artificial Intelligence（AI2）发布，旨在推动高级问答的研究。该数据集「包含7787个中学水平的自然科学问题」。这些问题分为挑战集（2590个问题）和简单集（5197个问题），并以选择题形式呈现。数据集被划分为训练集、开发集和测试集，并提供CSV和JSON格式。此外，AI2还发布了一个包含1400万科学相关句子的语料库，以及三个神经网络基线模型，以帮助研究者开始解决问题。这些模型在简单集上表现良好，但在挑战集上未能显著超越随机基线，显示了任务的难度。

数学知识推理

GSM8K数据集

先进的语言模型可以在许多任务上与人类表现相媲美，但它们仍然难以执行多步骤数学推理任务。为此OpenAI团队创建了一个高质量、语言多样化的「小学数学题数据集GSM8K」，旨在旨在评估模型在多步数学推理上的性能表现，并支持相关研究。

具体来说，该数据集包含了8.5K（8500）个问题，这些问题都是由标注工作人员自己编制的，并且分为7.5K个训练问题集和1K个测试问题集。这些问题的解决通常需要2到8步，主要涉及使用基本的算术运算（加、减、乘、除）来达到最终答案，一个聪明的中学生应该能够解决每一个问题。

MGSM数据集

该数据集由Google发布，是一个用于评估和训练多语言数学问题解答能力的基准。具体来说，该数据集由250个来自GSM8K（Grade School Math 8K）的问题组成，这些问题通过人工注释者翻译成了「10种不同的语言」。GSM8K本身是一个包含8500个高质量、语言多样的小学数学文字问题的集合，旨在支持需要多步推理的基本数学问题的问答任务。

这个数据集适用于开发和测试多语言问答系统，尤其是在教育技术领域，可以帮助开发能够理解和解答不同语言数学问题的AI系统。MGSM数据集为研究者提供了一个平台，以探索和改进多语言自然语言处理（NLP）模型在数学问题解答方面的表现。

MATH数据集

很多创新性的研究都可能会遇到数学问题，但是这项技能对于计算机来说仍然是个不小的挑战。为了衡量模型在解决数学问题上的表现。UC伯克利的研究者们提出了MATH测试集。

这是一个包含「12500个具有挑战性的竞赛数学问题」的数据集，其中每个问题都有详细完整的解决步骤，用来教授模型如何进行推导解答，并给出每个步骤的解释。除此之外，本文作者还提出了一个很大的辅助预训练数据集，帮助模型掌握数学的基础知识。

常识推理

HellaSwag数据集

该数据集是由斯坦福大学研究人员提出的，用于「评估NLP模型在常识自然语言推理（NLI）任务上的性能」，旨在促进NLP领域在常识理解和推理方面的发展，特别是在开发能够模拟人类常识推理的AI系统方面。该数据集包含了约「10万个问答对」，这些问题虽然对人类来说非常简单，但对现有的NLP模型来说却极具挑战性。

HellaSwag支持的任务包括句子完成和文本生成，要求模型能够基于上下文生成合理的续写。数据集的结构详细记录了活动标签、上下文、候选续写以及多个可能的结尾，还包括源ID、数据集分割和标签等信息。数据集遵循MIT许可证，允许研究者自由使用。

WinoGrande数据集

该数据集由华盛顿大学的研究人员提出，它是一个大规模的常识推理挑战数据集，「包含约44,000个问题，旨在评估和提升NLP模型的常识推理能力」。

具体来说，WinoGrande数据集由多个部分组成，包括训练集、验证集和测试集。数据集的结构包括句子、两个选项（option1和option2）、以及正确答案（answer），这些问题通常以填空形式出现，要求选择正确的选项来完成句子。该数据集还通过AfLite算法减少了数据集中的偏见，以确保模型不是通过利用数据集中的特定模式或偏见来解决问题，而是真正理解了常识推理。该数据集为研究者提供了一个平台，以探索和改进NLP模型在常识推理任务上的表现。它特别强调了模型在理解和生成与常识相关的文本方面的能力。

文本段落推理

DROP数据集

该数据集由加州大学、北大等研究者提出的英文阅读理解基准测试集。该数据集旨在推动阅读理解技术向更全面的「文本段落分析」发展，要求系统对段落内容执行离散推理操作，如加法、计数或排序。这些操作比以往数据集所需的理解更为深入。

DROP数据集通过众包方式创建，首先从Wikipedia中自动提取包含大量数字的叙事性段落，然后通过Amazon Mechanical Turk平台收集问案对。在问题创建过程中，采用了对抗性基线（BiDAF）作为背景，鼓励众包工作者提出基线系统无法正确回答的问题。最终，该数据集包含了96,567个问题，这些问题覆盖了Wikipedia中的多个类别，尤其强调体育比赛摘要和历史段落。

阅读理解

「RACE数据集」

该数据集是卡内基梅隆大学研究者开发的大规模机器阅读理解数据集，专为评估机器阅读理解能力而设计。「该数据集收集自中国12至18岁中学生的英语考试阅读理解部分，包含约28,000篇文章和近100,000个问题」，这些问题由英语教师等人类专家生成，覆盖了广泛的主题。RACE数据集的特点在于其问题需要较高的推理能力，与现有数据集相比，推理问题的比例显著更高。此外，RACE提供了「文章总结」和「态度分析」等推理类型的细分，这在其他大规模数据集中是罕见的。

RACE数据集分为RACE-M（针对中学生）和RACE-H（针对高中生）两个子集，以区分不同难度级别的问题，并被进一步划分为训练集、开发集和测试集。数据集的统计数据显示，高中部分的文章长度和词汇量都大于初中部分，反映了更高的难度。在数据收集过程中，研究者们从中国的大型公共网站收集原始数据，并经过清洗，确保数据的质量和完整性。

QuALITY数据集

该数据集由纽约大学的研究者于2022年提出，它是一个创新的多项选择题数据集，旨在提升自然语言理解模型处理长文本的能力。该数据集「包含平均长度约5000个标记的英文上下文段落，远超大部分模型的处理范围」。问题由阅读完整文章的贡献者编写并验证，确保了问题的明确性和挑战性。

QuALITY数据集共有6,737个问题，其中3,360个问题属于困难子集。数据集通过一个精心设计的众包流程收集，确保了问题的质量和多样性。基线实验表明，尽管模型性能有所提升，但与人类93.5%的准确率相比仍有显著差距。QuALITY数据集的发布，为研究人员提供了一个评估和改进长文档阅读理解模型的平台。然而，该数据集的作者主要来自美国，反映了相对特权和受过教育的人口，因此在其他语言或方言上的有效性可能有限。

代码生成

HumanEval数据集

该数据集是由OpenAI、Anthropic等开发的一个代码生成评测基准测试，它包含了164个人工编写的「Python编程」问题。这个数据集旨在评估大型语言模型在代码生成方面的能力，特别是在解决实际编程任务方面的表现。每个编程问题都包括函数头、docstrings（文档字符串，用于描述函数的功能）、函数体和几个单元测试。这些问题覆盖了从基础的字符串操作到复杂的算法设计等多种编程任务。

在评测过程中，模型会针对每个单元测试问题生成多个（k个）代码样本。如果有任何样本通过单元测试，则认为问题已解决，并报告问题解决的总比例，即Pass@k得分。这个指标可以帮助评估模型在生成正确代码方面的能力。

APPS数据集

该数据集由UC伯克利的研究人员开发，旨在「衡量模型根据自然语言规范生成Python代码的能力」，可以用于研究和开发能够理解和生成代码的人工智能系统。数据主要是从开放编程挑战网站（如Codeforces、Kattis等）上抓取，并由本科生和研究生协作处理完成了。

具体来说，该数据集包含10,000个编程问题，每个问题都以自然语言形式提出，并附带测试用例。包含232,421个由人类编写的解决方案（ground-truth solutions）和131,777个测试用例。问题难度分为入门级、面试级和竞赛级，以模拟人类程序员的评估方式。

MBPP数据集

该数据集由Goole等的研究人员开发，「旨在评估和提升编程模型在基础Python编程任务上的表现」。该数据集包含974个编程任务，这些任务由入门级程序员设计，旨在通过自然语言描述来合成简短的Python程序。每个任务都包括一个具体问题的描述、一个解决该问题的Python函数，以及三个用于验证函数正确性的测试用例。这些测试用例以断言（assert）语句的形式编写，确保代码在执行时的正确性。

MBPP数据集有两个版本：完整版、编辑版，后者通过手动检查和编辑，确保了问题的清晰度和测试用例的准确性。数据集是通过众包方式构建的，众包工作者根据给定的指导原则编写问题和解决方案。在研究中，MBPP数据集被用来测试大语言模型在从自然语言描述中生成Python代码的能力，尤其是在处理基础编程任务时的表现。这个数据集不仅为研究者提供了一个平台来开发和测试AI模型，而且对于开发能够辅助编程工作的工具具有重要意义。

多任务测试集

BiG-Bench数据集

该数据集由Google、OpenAI等研究者共同开发，旨在通过一系列多样化的任务来「全面评估语言模型的性能」。BIG-Bench包含了超过200个任务，这些任务「涵盖了文本理解、推理、逻辑推理、数学推理和常识推理等多个领域」。任务类型包括机器翻译、文本分类、序列标注、抽取式摘要、信息检索、表格解读、数理推理、常识推理、多模态推理、规划和数学问题解答等。

该数据集试图创建一个模拟现实应用场景的基准，以更全面的方式评估和比较AI算法。每个任务都由一个模板、一组例子和一个测试集组成。这些任务与现实世界的数据没有直接联系，而是设计来测试模型的通用能力，如推理、常识、逻辑等。了便于研究者和开发者快速评估模型性能，BIG-Bench还提供了一个名为BIG-Bench Lite（BBL）的子集，它包含了24个多样化的JSON任务。BBL旨在提供模型性能的规范度量，比评估完整BIG-Bench集合要更加快捷。

BBH数据集

该数据集由Google、斯坦福等研究人员开发，「BBH的全称是BIG-Bench Hard，它是BIG-Bench数据集的一个子集」，它专注于23个具有挑战性的任务，这些任务超出了当前语言模型的能力范围。BBH中的任务需要进行多步骤推理。研究发现，在BIG-Bench评估中使用的少样本提示（不包含思维链Chain-of-Thought，CoT）会大幅度低估语言模型的最佳性能和能力。当应用CoT提示到BBH任务时，PaLM模型在23个任务中的10个上超越了人类评分者的平均表现，而Codex模型在23个任务中的17个上也超越了人类评分者的平均表现。

BBH数据集的推出，为AI研究社区提供了一个重要的工具，用于测试和理解大型语言模型在处理困难任务时的表现。这有助于指导未来的研究方向，以便更好地解决这些挑战性问题。

开发模型数据 gpt 测试

0 人点赞