MLLM Benchmark Survey — 200+ 多模态评测基准地图
是什么
这篇 2024 年综述把 200 多个多模态大模型(MLLM)评测基准 整理成一张「地图」——告诉你每个 benchmark 测的是看、想、专业领域还是跨模态能力。
日常类比:像逛一个巨型商场前的导购图。没有它,你只知道「某模型在某某榜排第几」;有了它,你知道「这个榜测的是视力还是逻辑,那个榜测的是医学还是视频」。
论文把 benchmark 分成五类:感知与理解(认图、OCR)、认知与推理(数物体、因果推断)、特定领域(医疗、法律)、关键能力(幻觉、安全)、其他模态(音频、3D)。GitHub 仓库持续更新清单。
为什么重要
不读这篇综述,下面这些事说不清:
- 为什么两个 MLLM 在不同榜单上排名完全相反——它们测的根本不是同一类能力
- 为什么 mme-benchmark-2023 和 MMMU 都要跑、却不能用一个分数概括模型好坏
- 为什么新 benchmark 层出不穷,研究者却越来越困惑「到底该信哪个数」
- 为什么做视频 MLLM 要先分清 VideoMME 测的是长视频理解还是短视频问答
核心要点
-
五维分类是读榜的语法:感知类看「认不认得」,认知类看「推不推得出来」,领域类看「专不专业」,能力类看「稳不稳」,模态类看「听不听得到」。类比:体检分科——血常规和心电图不能合成一个「健康分」。
-
200+ 清单 ≠ 200 个都要跑:综述的价值是帮你选互补组合。通常 2-3 个感知 + 1-2 个推理 + 1 个领域就够刻画模型轮廓。
-
评测本身也在进化:从早期 VQA 准确率,到手工指令-答案对(防泄漏),再到 LLM-as-judge。读综述能看清这条时间线,避免用 2015 年的尺子量 2024 年的模型。
实践案例
案例 1:为新模型选评测组合
# 伪代码:按综述五类各挑一个代表benchmark_plan = { "perception": ["MME-Perception", "POPE"], # 看得准不准 "cognition": ["MME-Cognition", "MathVista"], # 推得对不对 "domain": ["Med-VQA"], # 领域专项 "capability": ["HallusionBench"], # 幻觉检测 "modality": ["VideoMME"], # 视频模态}# 不要只跑一个 MMMU 就写 "SOTA"解释:五类各取一个,才能回答「看得清、想得对、不胡说、能看视频」四个独立问题。
案例 2:读懂 leaderboard 脚注
模型 A: MME 总分 2100 | MMMU 48%模型 B: MME 总分 1800 | MMMU 52%
→ A 感知强(MME 感知子项高),B 推理强(MMMU 多学科推理)→ 综述告诉你:不能写 "A 全面优于 B"案例 3:维护团队自己的评测看板
# 克隆综述维护的清单git clone https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey# 按子目录 tags 过滤你关心的模态(image / video / audio)把清单当活文档,新 benchmark 出来先查分类再决定是否接入 lmms-eval。
把 GitHub 清单同步成内部表格时,建议列名固定为:五维分类、模态、官方链接、lmms-eval 任务名、上次跑分日期。新模型发版只改「跑哪几列」,避免工程和论文各用一套名单。
第一次读 MLLM 论文实验章节,用五类当 checklist:是否覆盖感知+推理?judge 方式是否写明?训练集去重是否说明?综述把隐式假设变成显式字段。
VideoMME、MVBench 等视频榜在综述「其他模态」类;做 videollama2-2024 选型时,应单独拉视频列,不要只用图像 MME 分数外推视频能力。
踩过的坑
-
把总分当唯一 KPI:MME 总分高不代表视频理解强——子任务权重不同,必须拆项看。
-
忽略训练集污染:模型见过 benchmark 图片,分数会虚高;综述强调手工构造指令的重要性。
-
benchmark 越多越好:跑 50 个榜不如精跑 5 个互补榜;算力和时间都浪费在高度相关的任务上。
-
不区分 zero-shot 与 fine-tune 设定:同一 benchmark 两种设定分数差很大,对比论文时必须对齐协议。
适用 vs 不适用场景
适用:
- 刚入门 MLLM,需要一张评测全景图
- 写模型论文前规划实验矩阵
- 判断某个新 benchmark 填补的是哪块空白
不适用:
- 替代具体 benchmark 的官方协议文档
- 直接给出「哪个模型最强」的单一排名
- 深入某个 benchmark 的出题细节(需读原始论文如 mme-benchmark-2023)
进阶话题(可跳过)
这一节把前文和工业落地再绑紧一点,方便你读完就能动手选型或读论文。
- 榜单迭代速度:2024 年平均每月新增数个 MLLM benchmark;综述 GitHub 的 commit 频率高于 arXiv 版本,实践应以仓库为准。
- 领域榜与通用榜:医疗、自动驾驶等域内榜分数不可与 MME 总分比较;写材料时要分章节呈现。
- 工具链绑定:lmms-eval 未收录的榜,复现成本陡增;优先选有开源脚本的条目。
- 视频理解单列:图像榜高分不代表 VideoMME 表现好;长视频需结合 [[gemini-1.5-2024]] 或 qwen2-vl-2024 专项测试。
历史小故事(可跳过)
- 2023 年初:mme-benchmark-2023 等手工基准出现,防数据泄漏成共识。
- 2023 下半年:MMMU、MathVista 等推理类 benchmark 爆发。
- 2024 年:视频/音频/3D 模态 benchmark 激增,200+ 数量让社区呼吁系统综述。
- 2024 年 8 月:本篇综述 arXiv 发布,GitHub 持续更新。
学到什么
- 评测是学科,不是附录——没有地图就会迷失在 leaderboard 海洋里
- 分类比分数重要——先问「测什么」再问「多少分」
- 互补选取 > 全盘跑遍——五维各取代表,性价比最高
- 综述要和工具链配合——清单 + lmms-eval 才能真正落地
延伸阅读
- 论文 PDF:arXiv 2408.08632
- 维护清单:GitHub Evaluation-Multimodal-LLMs-Survey
- mme-benchmark-2023 —— 开源 MLLM 跑分的事实起点
- mme-survey-2024 —— 互补篇,讲「怎么评」的方法论
- lmms-eval —— 把多个 benchmark 串成一条命令的工具链
关联
-
mme-benchmark-2023 —— 综述里感知/认知类的代表基准
-
mme-survey-2024 —— 本篇列清单,那篇讲评测流程
-
[[gemini-1.5-2024]] —— 长上下文 MLLM 在长文档/长视频榜上的参照
-
qwen2-vl-2024 —— 工业级视频 MLLM,常在 Video 类 benchmark 对比
-
clip —— 视觉-语言对齐的基础,很多 benchmark 的底层假设
-
lmms-eval —— 把综述里的 benchmark 名字变成可执行命令
-
videollama2-2024 —— 视频 MLLM 代表,需配 VideoMME 等视频类榜
-
入门路径:先读「是什么」+「核心要点」,跑通一个最小案例后再翻「进阶话题」。
-
复习抓手:把「为什么重要」四条用自己的话复述一遍,能讲给同事即算掌握。
-
与仓库其他笔记:用文内 wikilink 跳到已写条目,别孤立读单篇。
-
写论文 Related Work 时可引用五维分类作评测章节骨架。
反向链接
- clip —— CLIP — Contrastive Language-Image Pre-training
- [[gemini-1.5-2024]] —— Gemini 1.5 — 百万 token 多模态长上下文
- lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
- mme-benchmark-2023 —— MME Benchmark — 开源 MLLM 评测的事实起点
- mme-survey-2024 —— MME-Survey — 多模态 LLM 怎么评才靠谱
- mmmu-2023 —— MMMU — 大学级多学科多模态推理基准
- qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE,工业级视频理解的里程碑
- videollama2-2024 —— VideoLLaMA 2 — 时空卷积连接器 + 音视频联合理解