MMMU — 大学级多学科多模态推理基准

是什么

MMMU（Massive Multi-discipline Multimodal Understanding）是 2023 年提出的大学级多学科多模态考试题库：共 11.5K 道题，覆盖艺术、商科、理工、医学、人文、工程等 6 大学科、30 科目，题目里常带图表、乐谱、化学结构、地图等 30 种异构图像，要求模型像大学生一样读图 + 回忆专业知识 + 多步推理才能答对。

日常类比：普通 VQA 像「看图说话」小学测验；MMMU 像把期末试卷扫描件直接扔给 AI——不会傅里叶变换、不懂会计报表，就挂科。

它与 mme-benchmark-2023 互补：MME 偏感知与指令跟随，MMMU 偏专家级学科推理；GPT-4V 在此仅约 56%，远低于许多「看起来很美」的常识 VQA 分数。

为什么重要

不理解 MMMU，会高估当前多模态大模型（MLLM）的「专家能力」：

区分「会识图」和「会做题」：ScienceQA、VQA-v2 高分不代表能做大学物理卷
AGI 讨论需要可操作标尺：论文对齐 Morris 等人「Expert AGI」层级——大学考试是可比肩熟练成人的 proxy
暴露 OCR 流水线假象：把图 OCR 成字再喂 LLM 几乎不涨分，说明必须联合理解图文
指导 2024+ 模型训练：InternVL2、Gemini 1.5 等长上下文模型都把 MMMU 当核心榜

核心要点

广度 × 深度：11.5K 题、183 子领域，不只堆题量，还要求「均衡理论」「傅里叶变换」这类硬推理。类比：不是百科问答，是开卷考试。
图文交错输入：约 97% 题含图，且图可能在题干中间（37%）或末尾（50%），模型不能假设「图总在开头」。这测的是布局鲁棒性。
闭源领先但远未饱和：GPT-4V ~55.7%、Gemini Ultra ~59%，开源 LLaVA-1.5 / BLIP2 ~34%。说明赛道仍有巨大提升空间，也提醒别用单一 VQA 分数营销「接近人类专家」。

实践案例

案例 1：用 lmms-eval 跑 MMMU 验证集

# 概念命令（具体模型名依环境）
lmms_eval --model llava_v1.5 \
  --tasks mmmu_val \
  --batch_size 1 \
  --output_path ./results/mmmu_val

要点：mmmu_val 约 900 题可本地复现；test 集 10500 题需官方提交，避免泄漏调参。

案例 2：按学科分层看短板

# 伪代码：解析 lmms-eval 输出的 per-subject 准确率
results = load_json("results/mmmu_val/metrics.json")
for subject in ["Art", "Business", "Science", "Medicine", "Humanities", "Engineering"]:
    acc = results.get(f"mmmu_{subject}_acc", None)
    print(subject, acc)

论文发现：视觉较简单的艺术、人文分数更高；商科、理工、医学因图表复杂 + 推理链长更难。自家模型若「全科均衡」往往意味着没有真正攻克硬学科。

案例 3：错题归因检查清单

抽 50 道错题，人工标因：
  [P] 感知：图读错（轴标签、化学键）
  [K] 知识：缺学科概念（会计公式、解剖名）
  [R] 推理：步骤错（推导中断、选错中间量）

GPT-4V 论文统计约 35% P / 29% K / 26% R
→ 若你模型 K 占比高，加学科指令数据比加分辨率更有效

案例 4：构造「防 OCR 捷径」的本地抽查

# 从 val 集抽 20 题，分别用「原图」与「仅 OCR 文本」提问
for item in sample_val(20):
    ans_img = model(item["image"], item["question"])
    ans_txt = model(None, item["ocr_text"] + item["question"])
    if ans_img == item["label"] and ans_txt != item["label"]:
        print("needs vision:", item["id"])

若大量题在「仅文本」条件下仍答对，说明题型可能偏语言捷径；MMMU 设计上刻意降低这种可作弊空间。

踩过的坑

把 MMMU 当分类题刷模板——大量题需推导，CoT 质量比选项格式重要。
只放大视觉 encoder——知识型错题占近三成，纯视觉扩容收益有限。
用 OCR+LLM 偷懒——论文对照实验显示这条路线几乎无效。
忽略多图题（约 7%）——需要跨图对照，单图假设会系统性掉分。
混用 dev 与 test 报告分数——dev 仅 150 题用于 few-shot 示例，对外可比分数看 val/test。

适用 vs 不适用场景

适用：

评估「大学级」MLLM 推理上限
对比闭源 vs 开源跨学科差距
做错误分析驱动数据配方（感知/知识/推理）

不适用：

测日常常识对话（用 MME、MMBench 更合适）
测纯视频理解（用 VideoMME、MVBench）
测 OCR 单模态能力（MMMU 故意避免「只识字」）
替代人类高考评卷——它测模型能力，不是学历认证

历史小故事（可跳过）

2023-11：arXiv 2311.16502 发布，IN.AI / Waterloo / OSU 等联合维护 mmmu-benchmark.github.io
2024：GPT-4V、Gemini 1.5 技术报告均引用 MMMU 作「专家级」对照
同期：MathVista 专攻数学视觉；MMMU 覆盖更广学科
影响：催生 mllm-benchmark-survey-2024 等评测综述把 MMMU 列为 Tier-1 榜
数据规模：11.5K 题手工筛选历时数月，强调质量 > 爬虫规模

学到什么

高分 VQA ≠ 专家 AGI：需要大学深度 + 多学科广度的榜才能拉开差距
联合图文理解是硬需求：OCR 流水线不能替代真多模态融合
评测设计要防捷径：题型、图像位置、学科分层都影响「刷分」空间
开源与闭源仍有代差：但 56% 天花板说明闭源也远未「毕业」
榜单选型要看任务形态：交错图文 + 选择题 + 开放题混合，推理链长度分布接近真实考试
子学科均衡很重要：只刷某一科（如艺术）会制造「虚假高分」

关联

mme-benchmark-2023 —— 感知与指令；MMMU 补学科深度
mllm-benchmark-survey-2024 —— 200+ 榜地图里 MMMU 的定位
[[gemini-1.5-2024]] —— 闭源长上下文在 MMMU 的表现
internvl2-2024 —— 开源冲 70+ MMMU 的代表
cogvlm-2023 —— 深融合架构的对照基线
scienceqa —— 中小学科学 QA，难度低于 MMMU
minicpm-v-2024 —— 端侧模型在专家榜上的效率权衡
mmbench —— 中文综合多模态榜，难度梯度与 MMMU 不同

反向链接

internvl-2023 —— InternVL — 6B 视觉基座 + QLLaMA 对齐开源多模态
lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
minicpm-v-2024 —— MiniCPM-V — 手机能跑的 GPT-4V 级多模态模型
mllm-benchmark-survey-2024 —— MLLM Benchmark Survey — 200+ 多模态评测基准地图
mme-benchmark-2023 —— MME Benchmark — 开源 MLLM 评测的事实起点