MLVU — 九类任务、多时长分层的长视频理解大考

是什么

MLVU（Multi-task Long Video Understanding Benchmark）是 2024 年 6 月发布的长视频理解综合评测集：在 1,730 条长视频上布置 3,102 道题目，覆盖 9 种任务类型，视频平均时长约 15 分钟（最短 3 分钟、最长超过 2 小时），专门考多模态大模型能不能「真看完整段片子再答题」。

日常类比：以前的 VideoQA 像看 15 秒短视频后问「画面里有什么」——暂停一帧就能蒙对。MLVU 像看完一整集电视剧后还要答：「第三段剧情里猫做了什么？」「整集里拍手出现了几次？」「用三句话概括全片」——必须同时会定位片段、数动作、写摘要。

论文对 23 个主流 MLLM 做了系统评测。最强闭源模型在多选题上平均也只有约 54.5%；动作计数、动作排序、视频摘要等需要细粒度全局信息的任务，几乎所有模型都明显掉队。MLVU 因此和 VideoMME、EgoSchema 并列，成为 2024 年长视频评测「三件套」里任务多样性最重的那一个。

为什么重要

不了解 MLVU，下面这些事容易误判：

为什么 VideoMME 高分不等于长视频全能——VideoMME 偏综合知识问答，MLVU 用 9 类任务把「摘要 / 找针 / 数动作」拆开，能暴露模型在细粒度全局理解上的崩盘
为什么「均匀采 16 帧」在长视频上几乎失效——论文显示帧数一多，多数短视频优化模型的收益反而有限，上下文长度与采样策略才是瓶颈
为什么后续 LongVA、Video-XL、LLaMA-Vid 都强调扩上下文——MLVU 的多时长分层设计直接量化了「视频越长、分数掉得越狠」
为什么工业论文开始同时报 VideoMME + MLVU——前者测广度，后者测多任务 + 多类型视频 + 多时长的深度组合能力

核心要点

九类任务 = 三种长视频能力层次：Holistic（全局：主题推理 TR、异常识别 AR、视频摘要 VS）、Single-Detail（单点定位：针眼问答 NQA、第一人称推理 ER、剧情问答 PQA、子场景描述 SSC）、Multi-Detail（跨片段：动作排序 AO、动作计数 AC）。类比：不是一张卷子考一门课，而是先考「读完全书概括」，再考「翻到第 37 页找细节」，最后考「把三处情节按顺序串起来」。
多时长分层（Multi-Level）：同一条视频可切成「前 3 分钟 / 前 6 分钟 / 全长」三段分别出题，灵活观察模型随视频变长时的性能衰减曲线——这是 MLVU 相对 EgoSchema、MovieChat-1K 的关键增量。
视频类型极度多样：电影、纪录片、电视剧、第一人称、生活记录、体育、教程、监控、动画、游戏等十类来源并进 ULVC（Universal Long Video Collection），避免「只会答电影梗」的捷径——剧情题故意不写知名角色名（如写 cat/mouse 而非具体片名），逼模型看视频而非背常识。

实践案例

案例 1：九类任务长什么样

Holistic — Topic Reasoning（主题推理）：
  长视频：一部纪录片全程
  问题：本片主要探讨的核心议题是？
  A. 气候变化  B. 人工智能伦理  C. 城市规划  D. 海洋生态  ✓

Single-Detail — Needle QA（针眼问答）：
  背景：45 分钟生活 vlog
  插入：3 秒「红杯子特写」短片（needle）
  问题：穿蓝外套的人在咖啡厅拿起的是什么颜色的杯子？
  → 模型必须先定位 needle 片段，再答细节

Multi-Detail — Action Count（动作计数）：
  背景：20 分钟体育集锦
  插入：多次「投篮」probe 片段
  问题：视频中出现了几次投篮动作？  A.2 B.4 C.6✓ D.8

案例 2：用 lmms-eval 跑 MLVU

pip install lmms-eval

python -m lmms_eval \
  --model qwen2_vl \
  --model_args pretrained="Qwen/Qwen2-VL-7B-Instruct" \
  --tasks mlvu \
  --batch_size 1 \
  --output_path ./results/mlvu

# 输出按 9 个子任务分别报告
# TR / AR / VS / NQA / ER / PQA / SSC / AO / AC
# 开放题 VS、SSC 用 GPT-4 裁判打分（论文同款流程）

案例 3：多时长分层评测思路

# MLVU 对同一视频按片段长度出题（概念化）
video_id = "doc_042"
segments = {
    "3min":  video_id + "_first_3min",   # 短上下文基线
    "6min":  video_id + "_first_6min",   # 中等长度
    "full":  video_id + "_entire",       # 全长 ~15min+
}

for seg, clip in segments.items():
    score = mllm.evaluate(clip, task="topic_reasoning")
    print(seg, score)
# 论文常见模式：3min → 6min → full 单调下降
# 说明瓶颈在「有效利用更长视觉上下文」，而非单帧识别

踩过的坑

不要用 M-Avg 总分掩盖子任务崩盘：动作计数 AC、动作排序 AO 上多数模型接近随机猜，合并平均会把「摘要还行、计数全挂」伪装成「中等水平」。
开放题 VS/SSC 的 GPT-4 裁判不可直接横向比：不同实验室用的裁判模型版本、prompt 不一致时，生成任务分数波动大，对比应以多选题子集为主。
采样策略必须对齐论文：Uniform 16 frm vs 1 fps 两种输入策略分数差很大，读 leaderboard 时先核对帧数与 fps 配置，否则结论无效。
dev / test 集规模不对称：dev 2,593 题、test 509 题，test 选择题选项从 4 个增至 6 个——复现时别混用 split 和选项格式。

适用 vs 不适用场景

适用：

评估新长视频 MLLM 的多任务能力（不只 QA，还含摘要与描述生成）
画「视频越长、准确率如何掉」的 decay 曲线，验证上下文扩展是否真有效
对比 Uniform 采帧 vs 高 fps / 记忆模块 / 检索增强等长视频方案

不适用：

纯短视频（<1 分钟）能力筛选——用 MVBench、TempCompass 更省时
纯时序微粒度探针（速度/方向）——TempCompass 更专
替代人工观影体验评测——MLVU 仍是选择题 + GPT 裁判，不衡量叙事审美或情感共鸣

历史小故事（可跳过）

2024-06：MLVU 上传 arXiv 2406.04264，北京智源等机构联合发布，同期 Video-MME、LongVideoBench 并发
2024 下半年：lmms-eval 等框架陆续集成 mlvu 任务，工业模型论文开始标配 MLVU 子表
2024–2025：NVILA、Qwen2-VL、LongVA 等把 MLVU 列入标准 eval，推动「扩上下文 + 强图像底座」成为长视频主线
定位：综述与路线图里，MLVU 与 videomme-2024、EgoSchema 并称长视频评测三件套，MLVU 侧重量级任务组合

学到什么

长视频评测要同时拉长、拉宽、拉深：只加长分钟数不够（EgoSchema 已做），还要多样视频类型 + 多样任务格式，才能逼模型用满整条时间线
全局任务是最难啃的骨头：摘要、动作计数、动作排序普遍低于剧情单点问答——说明「看完再统计/排序」比「找到某一幕」难一个量级
防捷径是 benchmark 设计核心：去掉名人片名、不用裸时间戳、针眼题用明确叙述定位——都是在堵「不看视频也能答」的漏洞
上下文长度 > 多采几帧：论文实证表明扩 LLM 上下文、加强图像理解底座、换更强 backbone，比单纯加均匀采帧更有效
子任务分报告比一张总表诚实：产品选型或论文 claim「支持长视频」时，应至少披露 AO/AC/VS 三项，否则容易高估

关联

videomme-2024 —— 同期长视频综合 benchmark；MLVU 更重九类任务与多时长分层
mvbench-2023 —— 短视频多任务评测前身；MLVU 继承「拆任务」思路并推到 15 分钟级
long-video-retrieval-2023 —— 解决「找对片段」；MLVU 的 NQA/AO/AC 考「找对且算对」
tempcompass-2024 —— 专测时序微粒度；MLVU 的 AO/AC 偏宏观动作统计与排序
qwen2-vl-2024 —— 长上下文工业代表；多篇论文在 MLVU 上验证 M-RoPE 收益
video-llava-2024 —— 论文基线之一；8 帧均匀采样在长视频任务上明显吃亏
llava-next —— LLaVA 视频主线；MLVU 是验证其长视频分支的标配探针
lmms-eval —— 统一跑 MLVU 九子任务的生产入口
vid-llm-survey-2023 —— 综述 benchmark 章节；MLVU 填补长视频多任务空白
video-understanding —— 专题枢纽

反向链接

grounded-videollm-2024 —— Grounded-VideoLLM — 双流编码 + 时间 token，把「何时发生」写进 Video LLM
llava-next —— LLaVA-NeXT — 图像/视频/交织统一多模态主线仓库
lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
long-video-retrieval-2023 —— R-VLM — 长视频不靠均匀采帧，靠可学习检索选片段
lvbench-2024 —— LVBench — 平均 68 分钟、六维能力的长视频极限考
moviechat-2024 —— MovieChat — 从稠密帧到稀疏记忆，小时级电影也能聊
mvbench-2023 —— MVBench — 二十道题拆穿视频大模型真懂还是装懂
qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE，工业级视频理解的里程碑
sharegpt4video-2024 —— ShareGPT4Video — 用 GPT-4V 级密集字幕，喂饱视频理解与生成
streamingbench-2024 —— StreamingBench — 流式视频理解的 18 任务在线大考
tempcompass-2024 —— TempCompass — 专门拆穿 Video LLM 有没有真懂时间
vid-llm-survey-2023 —— Vid-LLM Survey — 用大语言模型理解视频的全景地图
video-llava-2024 —— Video-LLaVA — 投影之前先对齐，图像和视频共用一个 LLM
videomme-2024 —— Video-MME — 视频多模态大模型的「高考卷」