跳转到内容

MLLM Benchmark Survey — 200+ 多模态评测基准地图

是什么

这篇 2024 年综述把 200 多个多模态大模型(MLLM)评测基准 整理成一张「地图」——告诉你每个 benchmark 测的是专业领域还是跨模态能力。

日常类比:像逛一个巨型商场前的导购图。没有它,你只知道「某模型在某某榜排第几」;有了它,你知道「这个榜测的是视力还是逻辑,那个榜测的是医学还是视频」。

论文把 benchmark 分成五类:感知与理解(认图、OCR)、认知与推理(数物体、因果推断)、特定领域(医疗、法律)、关键能力(幻觉、安全)、其他模态(音频、3D)。GitHub 仓库持续更新清单。

为什么重要

不读这篇综述,下面这些事说不清:

  • 为什么两个 MLLM 在不同榜单上排名完全相反——它们测的根本不是同一类能力
  • 为什么 mme-benchmark-2023 和 MMMU 都要跑、却不能用一个分数概括模型好坏
  • 为什么新 benchmark 层出不穷,研究者却越来越困惑「到底该信哪个数」
  • 为什么做视频 MLLM 要先分清 VideoMME 测的是长视频理解还是短视频问答

核心要点

  1. 五维分类是读榜的语法:感知类看「认不认得」,认知类看「推不推得出来」,领域类看「专不专业」,能力类看「稳不稳」,模态类看「听不听得到」。类比:体检分科——血常规和心电图不能合成一个「健康分」。

  2. 200+ 清单 ≠ 200 个都要跑:综述的价值是帮你选互补组合。通常 2-3 个感知 + 1-2 个推理 + 1 个领域就够刻画模型轮廓。

  3. 评测本身也在进化:从早期 VQA 准确率,到手工指令-答案对(防泄漏),再到 LLM-as-judge。读综述能看清这条时间线,避免用 2015 年的尺子量 2024 年的模型。

实践案例

案例 1:为新模型选评测组合

# 伪代码:按综述五类各挑一个代表
benchmark_plan = {
"perception": ["MME-Perception", "POPE"], # 看得准不准
"cognition": ["MME-Cognition", "MathVista"], # 推得对不对
"domain": ["Med-VQA"], # 领域专项
"capability": ["HallusionBench"], # 幻觉检测
"modality": ["VideoMME"], # 视频模态
}
# 不要只跑一个 MMMU 就写 "SOTA"

解释:五类各取一个,才能回答「看得清、想得对、不胡说、能看视频」四个独立问题。

案例 2:读懂 leaderboard 脚注

模型 A: MME 总分 2100 | MMMU 48%
模型 B: MME 总分 1800 | MMMU 52%
→ A 感知强(MME 感知子项高),B 推理强(MMMU 多学科推理)
→ 综述告诉你:不能写 "A 全面优于 B"

案例 3:维护团队自己的评测看板

Terminal window
# 克隆综述维护的清单
git clone https://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey
# 按子目录 tags 过滤你关心的模态(image / video / audio)

把清单当活文档,新 benchmark 出来先查分类再决定是否接入 lmms-eval

把 GitHub 清单同步成内部表格时,建议列名固定为:五维分类、模态、官方链接、lmms-eval 任务名、上次跑分日期。新模型发版只改「跑哪几列」,避免工程和论文各用一套名单。

第一次读 MLLM 论文实验章节,用五类当 checklist:是否覆盖感知+推理?judge 方式是否写明?训练集去重是否说明?综述把隐式假设变成显式字段。

VideoMME、MVBench 等视频榜在综述「其他模态」类;做 videollama2-2024 选型时,应单独拉视频列,不要只用图像 MME 分数外推视频能力。

踩过的坑

  1. 把总分当唯一 KPI:MME 总分高不代表视频理解强——子任务权重不同,必须拆项看。

  2. 忽略训练集污染:模型见过 benchmark 图片,分数会虚高;综述强调手工构造指令的重要性。

  3. benchmark 越多越好:跑 50 个榜不如精跑 5 个互补榜;算力和时间都浪费在高度相关的任务上。

  4. 不区分 zero-shot 与 fine-tune 设定:同一 benchmark 两种设定分数差很大,对比论文时必须对齐协议。

适用 vs 不适用场景

适用

  • 刚入门 MLLM,需要一张评测全景图
  • 写模型论文前规划实验矩阵
  • 判断某个新 benchmark 填补的是哪块空白

不适用

  • 替代具体 benchmark 的官方协议文档
  • 直接给出「哪个模型最强」的单一排名
  • 深入某个 benchmark 的出题细节(需读原始论文如 mme-benchmark-2023

进阶话题(可跳过)

这一节把前文和工业落地再绑紧一点,方便你读完就能动手选型或读论文。

  1. 榜单迭代速度:2024 年平均每月新增数个 MLLM benchmark;综述 GitHub 的 commit 频率高于 arXiv 版本,实践应以仓库为准。
  2. 领域榜与通用榜:医疗、自动驾驶等域内榜分数不可与 MME 总分比较;写材料时要分章节呈现。
  3. 工具链绑定lmms-eval 未收录的榜,复现成本陡增;优先选有开源脚本的条目。
  4. 视频理解单列:图像榜高分不代表 VideoMME 表现好;长视频需结合 [[gemini-1.5-2024]] 或 qwen2-vl-2024 专项测试。

历史小故事(可跳过)

  • 2023 年初mme-benchmark-2023 等手工基准出现,防数据泄漏成共识。
  • 2023 下半年:MMMU、MathVista 等推理类 benchmark 爆发。
  • 2024 年:视频/音频/3D 模态 benchmark 激增,200+ 数量让社区呼吁系统综述。
  • 2024 年 8 月:本篇综述 arXiv 发布,GitHub 持续更新。

学到什么

  1. 评测是学科,不是附录——没有地图就会迷失在 leaderboard 海洋里
  2. 分类比分数重要——先问「测什么」再问「多少分」
  3. 互补选取 > 全盘跑遍——五维各取代表,性价比最高
  4. 综述要和工具链配合——清单 + lmms-eval 才能真正落地

延伸阅读

关联

  • mme-benchmark-2023 —— 综述里感知/认知类的代表基准

  • mme-survey-2024 —— 本篇列清单,那篇讲评测流程

  • [[gemini-1.5-2024]] —— 长上下文 MLLM 在长文档/长视频榜上的参照

  • qwen2-vl-2024 —— 工业级视频 MLLM,常在 Video 类 benchmark 对比

  • clip —— 视觉-语言对齐的基础,很多 benchmark 的底层假设

  • lmms-eval —— 把综述里的 benchmark 名字变成可执行命令

  • videollama2-2024 —— 视频 MLLM 代表,需配 VideoMME 等视频类榜

  • 入门路径:先读「是什么」+「核心要点」,跑通一个最小案例后再翻「进阶话题」。

  • 复习抓手:把「为什么重要」四条用自己的话复述一遍,能讲给同事即算掌握。

  • 与仓库其他笔记:用文内 wikilink 跳到已写条目,别孤立读单篇。

  • 写论文 Related Work 时可引用五维分类作评测章节骨架。

反向链接

  • clip —— CLIP — Contrastive Language-Image Pre-training
  • [[gemini-1.5-2024]] —— Gemini 1.5 — 百万 token 多模态长上下文
  • lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
  • mme-benchmark-2023 —— MME Benchmark — 开源 MLLM 评测的事实起点
  • mme-survey-2024 —— MME-Survey — 多模态 LLM 怎么评才靠谱
  • mmmu-2023 —— MMMU — 大学级多学科多模态推理基准
  • qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE,工业级视频理解的里程碑
  • videollama2-2024 —— VideoLLaMA 2 — 时空卷积连接器 + 音视频联合理解