超越文本理解：MMMU-Pro对多模态模型真实推理能力的评估！

本文介绍了MMMU-Pro，即MMMU基准测试的健壮版。MMMU-Pro通过基于MMMU的三个步骤严格评估多模态模型的真实理解和推理能力：（1）过滤出仅能由文本模型回答的问题；（2）增强候选选项；（3）引入仅依赖图像的输入设置，其中问题嵌入在图像中。这种设置挑战AI同时真正“看”和“读”，测试人类“无缝集成视觉和文本信息”的基本认知技能。结果表明，模型在MMMU-Pro上的性能远低于在MMMU上的性能，各个模型之间的差异为16.8%至26.9%。作者探讨了OCR提示和连续推理（CoT）的影响，发现OCR提示的效果微乎其微，而CoT通常可以提高性能。MMMU-Pro提供了一个更严格的评估工具，可以 closely mimicking 真实世界场景，并提供了有价值的未来研究多模态AI的指导。

最近，多模态大型语言模型（MLLMs）的进步已经使得在结合文本和视觉信息处理复杂的推理任务上取得了显著的进展。例如，GPT-4o 在MMMU基准测试上达到了69.1%的准确率。

然而，这些成就仍然引发了关键问题：当前基准测试结果是否能真正反映对多样主题的深入、多方面的理解，或者是这些模型利用微妙的捷径和统计模式

为解决此问题并推动多模态AI评估的边界，作者提出了MMMU-Pro，这是MMMU基准的一个更强大且更具挑战性的版本。MMMU-Pro旨在更准确、严格地评估模型在广泛学术学科中的真实多模态理解和推理能力。MMMU-Pro的开发受到几个关键观察的驱动，其中包括某些现有基准问题的纯文本可解性，多选题格式的选项空间有限，以及挑战模型更集成地共同理解不同模态的需要。

MMMU-Pro采用了一个严谨的三步构建过程（如图2所示），该过程建立在MMMU（Yue等人，2024）基础上：

（1）过滤掉可以由纯文本语言模型回答的问题，（2）增强候选选项以减少基于选项的猜测效果，（3）引入单眼输入设置（如图3所示），其中模型遇到嵌入在截图或照片中的问题。

引入单眼输入设置尤其关键，因为它测试了人的基本认知能力： _视觉和文本信息的无缝集成和切换_。这个设置挑战模型开发真正“同时看到”和“阅读”的能力，这与人类轻松处理文本和图像交织的复杂场景一样。这个能力对于从解释科学图表（Li等人，2024）到导航图形用户界面的各种任务都是至关重要的。此外，这种方法与用户自然与AI系统互动的方式一致，他们通常会分享截图或照片，而不是仔细地分开文本和图像。

作者的实验结果显示MMMU-Pro在提供多模态模型更严谨评估方面的有效性。作者观察到所有测试模型与原始MMMU基准相比的性能显著下降，降幅范围为16.8%至26.9%。这些结果突显了现有最先进模型在真正多模态理解和推理方面的局限性。此外，作者的分析揭示，虽然Chain of Thought（CoT）（Wei等人，2022）提示通常可以提高性能，但这种优势在不同模型和设置之间有所不同。

值得注意的是，作者发现明确的OCR提示对于大多数模型来说并不会显著影响性能，这表明先进的多元化的模型已经从图像中发展出了强大的文本提取能力。然而，这一结果同时也强调了MMMU-Pro的视觉输入设置所面临的挑战，即简单的OCR是不够的。作者进一步的定性分析表明，当文本嵌入在图像中时，它会显著增加视觉输入的整体复杂性，需要模型不仅识别文本，还需理解其上下文、与视觉元素的关联以及与问题相关的性。这些发现不仅为作者提供了对当前多模态AI能力更准确的评估，同时也强调了需要更为复杂的多元 reasoning能力。

2 MMMU-Pro: A More Robust Version of MMMU

Revisiting the MMMU Benchmark

大型多学科多模态理解与推理（MMMU）基准是一个全面的數據集，旨在評估大學水平的多模態人工智能模型在需要特定學科知識和精確推理的任務上的表現。MMMU 包括 11.5 万個由大學考試，問答和教科書精心 curated 的多模态問題，涵蓋了 6 個核心學科，30個科目和183個子領域。MMMU 中每個問題都是一組多模態圖像文本對，并有 4 個多選項，包括 30 種不同的圖像類型，如圖表、圖像、地圖和化學結構。MMMU 已經迅速成為該領域的標準評估工具，用於在多模態模型發布時評估其能力。同時，作者收到了社區的一些反饋，即純文本 LLM（語言模型）可以正確回答一些問題，無需任何視覺輸入。作者仔細研究了這些問題，並 identifier 出兩個主要問題：

文本唯獨依賴性： 某些問題相對獨立於對應的圖像。
捷徑 exploitation： 即使問題需要圖像才能讓人類正確回答，模型也常常能夠找到捷徑或相關性在候選答案中，利用其預先存在的知識（來自預訓練）來得出正確答案。Llama-3-70B 指令（Dubey 等，2024）回答正確的兩個示例在圖4中展示。

Methods

为缓解这些问题并构建一个更健壮的基准，作者实施了一个三步法：

过滤问题：作者首先过滤出只能由纯文本LLM回答的问题。作者选择了四个强大的开源LLM：Llama3-70B-Instruct、Qwen2-72B-Instruct（Yang等人，2024年）、Yi-1.5-34B-Chat 和 Mixtrl-822B-Instruct（gpt-4o）--，并的任务它们在看不到图像的情况下回答MMMU问题。这些模型需要 even

3 Experiments

Experimental Setups

Baseline 模型。为了全面理解 MMMU-Pro 的难度，并为未来的研究提供参考，作者评估了一系列最先进的多模态模型作为 Baseline 模型。这些模型在多模态AI领域代表了不同的训练方法和能力。作者的 Baseline 模型包括：

专有模型： GPT-4o (0513) 和 GPT-4o mini，Claude 3.5 Sonnet，以及 Gemini 1.5 Pro (0801 和 0523 版本)。这些模型代表了多模态AI能力的尖端。

开源模型： 作者评估了一系列开源模型，包括 InternVL2 (8B、40B 和 Llama3-76B 版本)，LaVAV (OneVision-7B、OneVision-72B 和各种 NeXT 版本)，VLA-1.5-40B，MiniCPM-V2.6，Phi-3.5-Vision，和 Idefics3-8B-Llama3。这些模型展示了公开可用的多模态AI系统的当前状态。作者在三个不同的设置上评估这些模型：1) 标准设置（通常有4个选项）；2) 带增强选项的标准设置（通常有10个选项）；3) 仅输入视觉模型的设置。

MMMU-Pro 的总体性能评分是其设置（2）和（3）的得分平均值。作者包括了（1）设置，仅用于比较目的，突出 MMMU-Pro 的增加难度。

作者用两种提示方式对模型进行评估（如附录A所示），并在总体结果中报告较高的分数。作者还在第3.4节中讨论了CoT提示的影响。

Overall Results

作者在表1中呈现了不同模型在MMMU-Pro中的总体结果。

增加候选选项的影响：从4个候选选项增加到10个候选选项（）的结果显示，所有模型的性能都有显著下降。GPT-4o（0513）从64.7%下降到54.0%，降低了10.7%。这表明，增加候选选项的有效性是降低模型猜测正确答案的可能性，迫使它们更深入地处理多模态内容。

仅视觉设置的影响：引入仅视觉输入设置进一步挑战了模型，因为将仅视觉结果与10个选项的标准进行比较（）时，性能又出现了额外下降。例如，GPT-4o（0513）在仅视觉设置下的准确率降低了4.3%，而LLaVA-OneVision-72B出现了戏剧性的14.0%的下降。这表明，仅视觉设置成功测试了模型将视觉和文本信息集成的能力，突显了在文本未明确提供时的局限性。

对MMMU-Pro的综合影响：总体，表示MMMU-Pro与MMMU（Val）之间的差异，显示所有模型在各方面都出现了显著的下降。例如，像Gemini 1.5 Pro（0801）和Claude 3.5 Sonnet分别出现了18.9%和16.8%的下降，而更激进的下降模型如VILA-1.5-40B出现了26.9%的下降。

这种全面降低的准确率表明，MMMU-Pro成功地减少了模型在原始基准中可以利用的捷径和猜测策略。

Does OCR Help in the Vision Setting?

图6探究了光学字符识别（OCR）提示是否有助于在MMMU-Pro的视觉输入设置中提高性能。OCR提示明确要求模型从图像中写出问题文本（如附录A所示）。在评估的模型中，包含OCR提示并未显著改变性能。这些微小的差异表明，强大且有能力的模型已经在没有明确OCR提示的情况下， proficient 地从图像中提取和理解文本信息。

重要的是，这一结果强调了简单的OCR并不能解决MMMU-Pro视觉输入设置所面临的挑战。当文本嵌入在图像中时，会显著增加视觉输入的整体复杂性。这需要模型不仅能够识别和提取文本，还能够理解其图像内的上下文，与视觉元素之间的关系，以及与所提问题相关性。这种文本和视觉信息的层次处理使得这项任务变得更为艰巨，迫使模型向更复杂的多模态推理发展。### CoT帮助回答MMMU-Pro问题吗？

图7探讨了在MMMU-Pro基准测试中，Chain of Thought（CoT）提示在标准输入和视觉输入设置中增强模型表现的有效性。在两种设置中，引入CoT提示 generally 通常导致 performance 的改善。然而，模型之间的改进程度差异显著。例如，Claude 3.5 Sonnet 在标准设置中出现了显著提高，从42.7%提高到55.0%。相反，像LLaVA-OneVision-72B这样的模型只出现了微小的改进。

有趣的是，作者观察到一些模型的性能出现了显著下降，例如VILA1.5-40B。这种下降可能归因于模型在指令遵循能力方面的挑战。当模型在准确遵循指令上 struggle时，生成CoT解释变得更加困难。此外，这些模型可能会面临保持正确回答格式的挑战，导致“沸腾响应格式”问题。这些发现突显了CoT在增强模型在需要细微推理和将多个信息源集成起来的复杂，真实世界任务中的潜在能力。然而，它们也强调了实施CoT的重要前提是具有 robust 的指令遵循能力。

Qualitative Analysis

在获得关于模型性能的更深入洞察力方面，作者对MMMU-Pro的结果进行了全面的定性分析，重点关注两个关键场景：

1）标准设置中正确答案为四个选项但错误答案为十个选项；

2）在标准十个选项设置中获得成功但在视觉输入设置中失败。作者的分析揭示了几种影响模型性能的关键因素：

增加选项带来的挑战。模型通常会选择最接近的答案，而不是得出明确的结论，导致更多错误选项。例如，在概念问题上，模型难以区分细微不同的选项，揭示其在领域内理解细小区别局限性。

视觉与文本集成挑战。一个主要可能原因是视觉与文本集成显著增加了信息处理的复杂性和处理难度。作者观察到在同时处理视觉和文本信息时，模型更容易出现虚构和错误推理链。如图9所示的一个例子。另外，复杂的视觉输入或独特的布局也可能扰乱逻辑判断并增加认知负荷。文本与图像的快速转换可能导致处理偏见。

这些观察突出了MMMU-Pro在揭示当前多模态模型局限性方面的有效性，尤其是在处理增加复杂性和集成多样化信息类型方面。它们指出了在多模态人工智能系统中需要改进的几个关键领域，包括在多选项场景中增强精确度，更好地集成视觉和文本信息处理以及提高处理复杂、混合格式输入的鲁棒性。

4 Related Work

在多模态AI领域，近年来取得了显著的进步。受到大型语言模型成功的启发，研究行人开发了具有改进的指令遵循能力的大量模型。专有的模型如GPT-4V（OpenAI，2023年），GPT-4o（OpenAI，2024年a），Gemini（团队，2023年），Claude-3.5（Anthropic，2024年）在其他各种视觉语言任务中都表现出了很强的性能。然而，准确评估这些先进多模态模型的能力仍然存在显著的挑战，突显了需要更多强大和全面的基准测试。

多模态模型基准。更先进的多模态预训练和指令调优暴露了如VQA（Antol等人，2015年; Goyal等人，2017年），OK-VQA（Marino等人，2019年）和MSCOCO（Lin等人，2014年）等早期基准的局限性，这些基准已经无法评估LMM的全能力范围。为解决这个问题，最近出现了如LAMM（Yin等人，2023b），LVLM-eHub（Xu等人，2023年），SEED（Li等人，2024年a），MMBench（Liu等人，2023年d），CV-Bench（Tong等人，2024年a），MM-Vet（Yu等人，2024年），Mantis（江等人，2024年），和BLINK（Fu等人，2024年）等新基准，涵盖感知基础知识到幻觉检测（Cui等人，2023年；Liu等人，2023年a）的各个方面。然而，现有的基准往往在评估专家 Level 的域知识和新复杂的推理时存在局限性。虽然MMMU（Yue等人，2024年）通过纳入多模态、大学程度问题取得了进步，但仍允许仅用文本的模型找到捷径（Lu等人，2023年）。为克服这些局限性，作者引入了MMMU-Pro，这是一个专门设计用来更好地评估多模态推理的版本，通过消除只可填写的文本问题，扩大候选答案，并引入了镜像真实世界的仅使用视觉输入设置，其中文本和图像 naturally intertwined。

5 Conclusion

MMMU-Pro 提出了与其前身 MMMU 相比更为强大的多模态理解和推理基准。作者的结果表明，与当前最先进的多模态模型相比，MMMU-Pro 在所有测试系统中都显示出性能明显的下降。MMMU-Pro 开辟了未来研究的重要方向：

1）开发在所有 MMMU-Pro 设置上性能一致的模型，尤其是在弥合标准输入和仅视觉输入之间的差距。

2）提高视觉文本集成能力，更有效地处理复杂的混合格式输入。

3）探索高级推理技术，以解决 MMMU-Pro 问题的日益增加的复杂性。

参考

[1].MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark.

模型系统性能测试开发

0 人点赞