跳转到内容

MMMU — 大学级多学科多模态推理基准

是什么

MMMU(Massive Multi-discipline Multimodal Understanding)是 2023 年提出的大学级多学科多模态考试题库:共 11.5K 道题,覆盖艺术、商科、理工、医学、人文、工程等 6 大学科、30 科目,题目里常带图表、乐谱、化学结构、地图等 30 种异构图像,要求模型像大学生一样读图 + 回忆专业知识 + 多步推理才能答对。

日常类比:普通 VQA 像「看图说话」小学测验;MMMU 像把期末试卷扫描件直接扔给 AI——不会傅里叶变换、不懂会计报表,就挂科。

它与 mme-benchmark-2023 互补:MME 偏感知与指令跟随,MMMU 偏专家级学科推理;GPT-4V 在此仅约 56%,远低于许多「看起来很美」的常识 VQA 分数。

为什么重要

不理解 MMMU,会高估当前多模态大模型(MLLM)的「专家能力」:

  • 区分「会识图」和「会做题」:ScienceQA、VQA-v2 高分不代表能做大学物理卷
  • AGI 讨论需要可操作标尺:论文对齐 Morris 等人「Expert AGI」层级——大学考试是可比肩熟练成人的 proxy
  • 暴露 OCR 流水线假象:把图 OCR 成字再喂 LLM 几乎不涨分,说明必须联合理解图文
  • 指导 2024+ 模型训练:InternVL2、Gemini 1.5 等长上下文模型都把 MMMU 当核心榜

核心要点

  1. 广度 × 深度:11.5K 题、183 子领域,不只堆题量,还要求「均衡理论」「傅里叶变换」这类硬推理。类比:不是百科问答,是开卷考试

  2. 图文交错输入:约 97% 题含图,且图可能在题干中间(37%)或末尾(50%),模型不能假设「图总在开头」。这测的是布局鲁棒性

  3. 闭源领先但远未饱和:GPT-4V ~55.7%、Gemini Ultra ~59%,开源 LLaVA-1.5 / BLIP2 ~34%。说明赛道仍有巨大提升空间,也提醒别用单一 VQA 分数营销「接近人类专家」

实践案例

案例 1:用 lmms-eval 跑 MMMU 验证集

Terminal window
# 概念命令(具体模型名依环境)
lmms_eval --model llava_v1.5 \
--tasks mmmu_val \
--batch_size 1 \
--output_path ./results/mmmu_val

要点:mmmu_val 约 900 题可本地复现;test 集 10500 题需官方提交,避免泄漏调参。

案例 2:按学科分层看短板

# 伪代码:解析 lmms-eval 输出的 per-subject 准确率
results = load_json("results/mmmu_val/metrics.json")
for subject in ["Art", "Business", "Science", "Medicine", "Humanities", "Engineering"]:
acc = results.get(f"mmmu_{subject}_acc", None)
print(subject, acc)

论文发现:视觉较简单的艺术、人文分数更高;商科、理工、医学因图表复杂 + 推理链长更难。自家模型若「全科均衡」往往意味着没有真正攻克硬学科

案例 3:错题归因检查清单

抽 50 道错题,人工标因:
[P] 感知:图读错(轴标签、化学键)
[K] 知识:缺学科概念(会计公式、解剖名)
[R] 推理:步骤错(推导中断、选错中间量)
GPT-4V 论文统计约 35% P / 29% K / 26% R
→ 若你模型 K 占比高,加学科指令数据比加分辨率更有效

案例 4:构造「防 OCR 捷径」的本地抽查

# 从 val 集抽 20 题,分别用「原图」与「仅 OCR 文本」提问
for item in sample_val(20):
ans_img = model(item["image"], item["question"])
ans_txt = model(None, item["ocr_text"] + item["question"])
if ans_img == item["label"] and ans_txt != item["label"]:
print("needs vision:", item["id"])

若大量题在「仅文本」条件下仍答对,说明题型可能偏语言捷径;MMMU 设计上刻意降低这种可作弊空间。

踩过的坑

  1. 把 MMMU 当分类题刷模板——大量题需推导,CoT 质量比选项格式重要。
  2. 只放大视觉 encoder——知识型错题占近三成,纯视觉扩容收益有限。
  3. 用 OCR+LLM 偷懒——论文对照实验显示这条路线几乎无效。
  4. 忽略多图题(约 7%)——需要跨图对照,单图假设会系统性掉分。
  5. 混用 dev 与 test 报告分数——dev 仅 150 题用于 few-shot 示例,对外可比分数看 val/test。

适用 vs 不适用场景

适用

  • 评估「大学级」MLLM 推理上限
  • 对比闭源 vs 开源跨学科差距
  • 做错误分析驱动数据配方(感知/知识/推理)

不适用

  • 测日常常识对话(用 MME、MMBench 更合适)
  • 测纯视频理解(用 VideoMME、MVBench)
  • 测 OCR 单模态能力(MMMU 故意避免「只识字」)
  • 替代人类高考评卷——它测模型能力,不是学历认证

历史小故事(可跳过)

  • 2023-11:arXiv 2311.16502 发布,IN.AI / Waterloo / OSU 等联合维护 mmmu-benchmark.github.io
  • 2024:GPT-4V、Gemini 1.5 技术报告均引用 MMMU 作「专家级」对照
  • 同期:MathVista 专攻数学视觉;MMMU 覆盖更广学科
  • 影响:催生 mllm-benchmark-survey-2024 等评测综述把 MMMU 列为 Tier-1 榜
  • 数据规模:11.5K 题手工筛选历时数月,强调质量 > 爬虫规模

学到什么

  • 高分 VQA ≠ 专家 AGI:需要大学深度 + 多学科广度的榜才能拉开差距
  • 联合图文理解是硬需求:OCR 流水线不能替代真多模态融合
  • 评测设计要防捷径:题型、图像位置、学科分层都影响「刷分」空间
  • 开源与闭源仍有代差:但 56% 天花板说明闭源也远未「毕业」
  • 榜单选型要看任务形态:交错图文 + 选择题 + 开放题混合,推理链长度分布接近真实考试
  • 子学科均衡很重要:只刷某一科(如艺术)会制造「虚假高分」

延伸阅读

关联

  • mme-benchmark-2023 —— 感知与指令;MMMU 补学科深度
  • mllm-benchmark-survey-2024 —— 200+ 榜地图里 MMMU 的定位
  • [[gemini-1.5-2024]] —— 闭源长上下文在 MMMU 的表现
  • internvl2-2024 —— 开源冲 70+ MMMU 的代表
  • cogvlm-2023 —— 深融合架构的对照基线
  • scienceqa —— 中小学科学 QA,难度低于 MMMU
  • minicpm-v-2024 —— 端侧模型在专家榜上的效率权衡
  • mmbench —— 中文综合多模态榜,难度梯度与 MMMU 不同

反向链接