MMMU — 大学级多学科多模态推理基准
是什么
MMMU(Massive Multi-discipline Multimodal Understanding)是 2023 年提出的大学级多学科多模态考试题库:共 11.5K 道题,覆盖艺术、商科、理工、医学、人文、工程等 6 大学科、30 科目,题目里常带图表、乐谱、化学结构、地图等 30 种异构图像,要求模型像大学生一样读图 + 回忆专业知识 + 多步推理才能答对。
日常类比:普通 VQA 像「看图说话」小学测验;MMMU 像把期末试卷扫描件直接扔给 AI——不会傅里叶变换、不懂会计报表,就挂科。
它与 mme-benchmark-2023 互补:MME 偏感知与指令跟随,MMMU 偏专家级学科推理;GPT-4V 在此仅约 56%,远低于许多「看起来很美」的常识 VQA 分数。
为什么重要
不理解 MMMU,会高估当前多模态大模型(MLLM)的「专家能力」:
- 区分「会识图」和「会做题」:ScienceQA、VQA-v2 高分不代表能做大学物理卷
- AGI 讨论需要可操作标尺:论文对齐 Morris 等人「Expert AGI」层级——大学考试是可比肩熟练成人的 proxy
- 暴露 OCR 流水线假象:把图 OCR 成字再喂 LLM 几乎不涨分,说明必须联合理解图文
- 指导 2024+ 模型训练:InternVL2、Gemini 1.5 等长上下文模型都把 MMMU 当核心榜
核心要点
-
广度 × 深度:11.5K 题、183 子领域,不只堆题量,还要求「均衡理论」「傅里叶变换」这类硬推理。类比:不是百科问答,是开卷考试。
-
图文交错输入:约 97% 题含图,且图可能在题干中间(37%)或末尾(50%),模型不能假设「图总在开头」。这测的是布局鲁棒性。
-
闭源领先但远未饱和:GPT-4V ~55.7%、Gemini Ultra ~59%,开源 LLaVA-1.5 / BLIP2 ~34%。说明赛道仍有巨大提升空间,也提醒别用单一 VQA 分数营销「接近人类专家」。
实践案例
案例 1:用 lmms-eval 跑 MMMU 验证集
# 概念命令(具体模型名依环境)lmms_eval --model llava_v1.5 \ --tasks mmmu_val \ --batch_size 1 \ --output_path ./results/mmmu_val要点:mmmu_val 约 900 题可本地复现;test 集 10500 题需官方提交,避免泄漏调参。
案例 2:按学科分层看短板
# 伪代码:解析 lmms-eval 输出的 per-subject 准确率results = load_json("results/mmmu_val/metrics.json")for subject in ["Art", "Business", "Science", "Medicine", "Humanities", "Engineering"]: acc = results.get(f"mmmu_{subject}_acc", None) print(subject, acc)论文发现:视觉较简单的艺术、人文分数更高;商科、理工、医学因图表复杂 + 推理链长更难。自家模型若「全科均衡」往往意味着没有真正攻克硬学科。
案例 3:错题归因检查清单
抽 50 道错题,人工标因: [P] 感知:图读错(轴标签、化学键) [K] 知识:缺学科概念(会计公式、解剖名) [R] 推理:步骤错(推导中断、选错中间量)
GPT-4V 论文统计约 35% P / 29% K / 26% R→ 若你模型 K 占比高,加学科指令数据比加分辨率更有效案例 4:构造「防 OCR 捷径」的本地抽查
# 从 val 集抽 20 题,分别用「原图」与「仅 OCR 文本」提问for item in sample_val(20): ans_img = model(item["image"], item["question"]) ans_txt = model(None, item["ocr_text"] + item["question"]) if ans_img == item["label"] and ans_txt != item["label"]: print("needs vision:", item["id"])若大量题在「仅文本」条件下仍答对,说明题型可能偏语言捷径;MMMU 设计上刻意降低这种可作弊空间。
踩过的坑
- 把 MMMU 当分类题刷模板——大量题需推导,CoT 质量比选项格式重要。
- 只放大视觉 encoder——知识型错题占近三成,纯视觉扩容收益有限。
- 用 OCR+LLM 偷懒——论文对照实验显示这条路线几乎无效。
- 忽略多图题(约 7%)——需要跨图对照,单图假设会系统性掉分。
- 混用 dev 与 test 报告分数——dev 仅 150 题用于 few-shot 示例,对外可比分数看 val/test。
适用 vs 不适用场景
适用:
- 评估「大学级」MLLM 推理上限
- 对比闭源 vs 开源跨学科差距
- 做错误分析驱动数据配方(感知/知识/推理)
不适用:
- 测日常常识对话(用 MME、MMBench 更合适)
- 测纯视频理解(用 VideoMME、MVBench)
- 测 OCR 单模态能力(MMMU 故意避免「只识字」)
- 替代人类高考评卷——它测模型能力,不是学历认证
历史小故事(可跳过)
- 2023-11:arXiv 2311.16502 发布,IN.AI / Waterloo / OSU 等联合维护 mmmu-benchmark.github.io
- 2024:GPT-4V、Gemini 1.5 技术报告均引用 MMMU 作「专家级」对照
- 同期:MathVista 专攻数学视觉;MMMU 覆盖更广学科
- 影响:催生 mllm-benchmark-survey-2024 等评测综述把 MMMU 列为 Tier-1 榜
- 数据规模:11.5K 题手工筛选历时数月,强调质量 > 爬虫规模
学到什么
- 高分 VQA ≠ 专家 AGI:需要大学深度 + 多学科广度的榜才能拉开差距
- 联合图文理解是硬需求:OCR 流水线不能替代真多模态融合
- 评测设计要防捷径:题型、图像位置、学科分层都影响「刷分」空间
- 开源与闭源仍有代差:但 56% 天花板说明闭源也远未「毕业」
- 榜单选型要看任务形态:交错图文 + 选择题 + 开放题混合,推理链长度分布接近真实考试
- 子学科均衡很重要:只刷某一科(如艺术)会制造「虚假高分」
延伸阅读
- 论文 PDF:https://arxiv.org/abs/2311.16502
- 官方站:https://mmmu-benchmark.github.io/
- mme-benchmark-2023 —— 手工防泄漏的感知向基准
- [[gemini-1.5-2024]] —— 长视频/长文档闭源对照
- [[llava-1.5-2023]] —— 开源基线代表
- lmms-eval —— 统一跑 MMMU 等 30+ 榜的 CLI
- MMLU 文本版大学基准——与 MMMU 跨模态对照读
- 官方 Leaderboard——跟踪闭源迭代需看日期戳版本
关联
- mme-benchmark-2023 —— 感知与指令;MMMU 补学科深度
- mllm-benchmark-survey-2024 —— 200+ 榜地图里 MMMU 的定位
- [[gemini-1.5-2024]] —— 闭源长上下文在 MMMU 的表现
- internvl2-2024 —— 开源冲 70+ MMMU 的代表
- cogvlm-2023 —— 深融合架构的对照基线
- scienceqa —— 中小学科学 QA,难度低于 MMMU
- minicpm-v-2024 —— 端侧模型在专家榜上的效率权衡
- mmbench —— 中文综合多模态榜,难度梯度与 MMMU 不同
反向链接
- internvl-2023 —— InternVL — 6B 视觉基座 + QLLaMA 对齐开源多模态
- lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
- minicpm-v-2024 —— MiniCPM-V — 手机能跑的 GPT-4V 级多模态模型
- mllm-benchmark-survey-2024 —— MLLM Benchmark Survey — 200+ 多模态评测基准地图
- mme-benchmark-2023 —— MME Benchmark — 开源 MLLM 评测的事实起点