MLLM Benchmark Survey — 200+ 多模态评测基准地图

是什么

这篇 2024 年综述把 200 多个多模态大模型（MLLM）评测基准 整理成一张「地图」——告诉你每个 benchmark 测的是看、想、专业领域还是跨模态能力。

日常类比：像逛一个巨型商场前的导购图。没有它，你只知道「某模型在某某榜排第几」；有了它，你知道「这个榜测的是视力还是逻辑，那个榜测的是医学还是视频」。

论文把 benchmark 分成五类：感知与理解（认图、OCR）、认知与推理（数物体、因果推断）、特定领域（医疗、法律）、关键能力（幻觉、安全）、其他模态（音频、3D）。GitHub 仓库持续更新清单。

为什么重要

不读这篇综述，下面这些事说不清：

为什么两个 MLLM 在不同榜单上排名完全相反——它们测的根本不是同一类能力
为什么 mme-benchmark-2023 和 MMMU 都要跑、却不能用一个分数概括模型好坏
为什么新 benchmark 层出不穷，研究者却越来越困惑「到底该信哪个数」
为什么做视频 MLLM 要先分清 VideoMME 测的是长视频理解还是短视频问答

核心要点

五维分类是读榜的语法：感知类看「认不认得」，认知类看「推不推得出来」，领域类看「专不专业」，能力类看「稳不稳」，模态类看「听不听得到」。类比：体检分科——血常规和心电图不能合成一个「健康分」。
200+ 清单 ≠ 200 个都要跑：综述的价值是帮你选互补组合。通常 2-3 个感知 + 1-2 个推理 + 1 个领域就够刻画模型轮廓。
评测本身也在进化：从早期 VQA 准确率，到手工指令-答案对（防泄漏），再到 LLM-as-judge。读综述能看清这条时间线，避免用 2015 年的尺子量 2024 年的模型。

实践案例

案例 1：为新模型选评测组合

# 伪代码：按综述五类各挑一个代表
benchmark_plan = {
    "perception": ["MME-Perception", "POPE"],      # 看得准不准
    "cognition": ["MME-Cognition", "MathVista"],   # 推得对不对
    "domain": ["Med-VQA"],                         # 领域专项
    "capability": ["HallusionBench"],              # 幻觉检测
    "modality": ["VideoMME"],                      # 视频模态
}
# 不要只跑一个 MMMU 就写 "SOTA"

解释：五类各取一个，才能回答「看得清、想得对、不胡说、能看视频」四个独立问题。

案例 2：读懂 leaderboard 脚注

模型 A: MME 总分 2100  |  MMMU 48%
模型 B: MME 总分 1800  |  MMMU 52%

→ A 感知强（MME 感知子项高），B 推理强（MMMU 多学科推理）
→ 综述告诉你：不能写 "A 全面优于 B"

案例 3：维护团队自己的评测看板

# 克隆综述维护的清单
git clone https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey
# 按子目录 tags 过滤你关心的模态（image / video / audio）

把清单当活文档，新 benchmark 出来先查分类再决定是否接入 lmms-eval。

把 GitHub 清单同步成内部表格时，建议列名固定为：五维分类、模态、官方链接、lmms-eval 任务名、上次跑分日期。新模型发版只改「跑哪几列」，避免工程和论文各用一套名单。

第一次读 MLLM 论文实验章节，用五类当 checklist：是否覆盖感知+推理？judge 方式是否写明？训练集去重是否说明？综述把隐式假设变成显式字段。

VideoMME、MVBench 等视频榜在综述「其他模态」类；做 videollama2-2024 选型时，应单独拉视频列，不要只用图像 MME 分数外推视频能力。

踩过的坑

把总分当唯一 KPI：MME 总分高不代表视频理解强——子任务权重不同，必须拆项看。
忽略训练集污染：模型见过 benchmark 图片，分数会虚高；综述强调手工构造指令的重要性。
benchmark 越多越好：跑 50 个榜不如精跑 5 个互补榜；算力和时间都浪费在高度相关的任务上。
不区分 zero-shot 与 fine-tune 设定：同一 benchmark 两种设定分数差很大，对比论文时必须对齐协议。

适用 vs 不适用场景

适用：

刚入门 MLLM，需要一张评测全景图
写模型论文前规划实验矩阵
判断某个新 benchmark 填补的是哪块空白

不适用：

替代具体 benchmark 的官方协议文档
直接给出「哪个模型最强」的单一排名
深入某个 benchmark 的出题细节（需读原始论文如 mme-benchmark-2023）

进阶话题（可跳过）

这一节把前文和工业落地再绑紧一点，方便你读完就能动手选型或读论文。

榜单迭代速度：2024 年平均每月新增数个 MLLM benchmark；综述 GitHub 的 commit 频率高于 arXiv 版本，实践应以仓库为准。
领域榜与通用榜：医疗、自动驾驶等域内榜分数不可与 MME 总分比较；写材料时要分章节呈现。
工具链绑定：lmms-eval 未收录的榜，复现成本陡增；优先选有开源脚本的条目。
视频理解单列：图像榜高分不代表 VideoMME 表现好；长视频需结合 [[gemini-1.5-2024]] 或 qwen2-vl-2024 专项测试。

历史小故事（可跳过）

2023 年初：mme-benchmark-2023 等手工基准出现，防数据泄漏成共识。
2023 下半年：MMMU、MathVista 等推理类 benchmark 爆发。
2024 年：视频/音频/3D 模态 benchmark 激增，200+ 数量让社区呼吁系统综述。
2024 年 8 月：本篇综述 arXiv 发布，GitHub 持续更新。

学到什么

评测是学科，不是附录——没有地图就会迷失在 leaderboard 海洋里
分类比分数重要——先问「测什么」再问「多少分」
互补选取 > 全盘跑遍——五维各取代表，性价比最高
综述要和工具链配合——清单 + lmms-eval 才能真正落地

关联

mme-benchmark-2023 —— 综述里感知/认知类的代表基准
mme-survey-2024 —— 本篇列清单，那篇讲评测流程
[[gemini-1.5-2024]] —— 长上下文 MLLM 在长文档/长视频榜上的参照
qwen2-vl-2024 —— 工业级视频 MLLM，常在 Video 类 benchmark 对比
clip —— 视觉-语言对齐的基础，很多 benchmark 的底层假设
lmms-eval —— 把综述里的 benchmark 名字变成可执行命令
videollama2-2024 —— 视频 MLLM 代表，需配 VideoMME 等视频类榜
入门路径：先读「是什么」+「核心要点」，跑通一个最小案例后再翻「进阶话题」。
复习抓手：把「为什么重要」四条用自己的话复述一遍，能讲给同事即算掌握。
与仓库其他笔记：用文内 wikilink 跳到已写条目，别孤立读单篇。
写论文 Related Work 时可引用五维分类作评测章节骨架。

反向链接

clip —— CLIP — Contrastive Language-Image Pre-training
[[gemini-1.5-2024]] —— Gemini 1.5 — 百万 token 多模态长上下文
lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
mme-benchmark-2023 —— MME Benchmark — 开源 MLLM 评测的事实起点
mme-survey-2024 —— MME-Survey — 多模态 LLM 怎么评才靠谱
mmmu-2023 —— MMMU — 大学级多学科多模态推理基准
qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE，工业级视频理解的里程碑
videollama2-2024 —— VideoLLaMA 2 — 时空卷积连接器 + 音视频联合理解