MLVU — 九类任务、多时长分层的长视频理解大考
是什么
MLVU(Multi-task Long Video Understanding Benchmark)是 2024 年 6 月发布的长视频理解综合评测集:在 1,730 条长视频上布置 3,102 道题目,覆盖 9 种任务类型,视频平均时长约 15 分钟(最短 3 分钟、最长超过 2 小时),专门考多模态大模型能不能「真看完整段片子再答题」。
日常类比:以前的 VideoQA 像看 15 秒短视频后问「画面里有什么」——暂停一帧就能蒙对。MLVU 像看完一整集电视剧后还要答:「第三段剧情里猫做了什么?」「整集里拍手出现了几次?」「用三句话概括全片」——必须同时会定位片段、数动作、写摘要。
论文对 23 个主流 MLLM 做了系统评测。最强闭源模型在多选题上平均也只有约 54.5%;动作计数、动作排序、视频摘要等需要细粒度全局信息的任务,几乎所有模型都明显掉队。MLVU 因此和 VideoMME、EgoSchema 并列,成为 2024 年长视频评测「三件套」里任务多样性最重的那一个。
为什么重要
不了解 MLVU,下面这些事容易误判:
- 为什么 VideoMME 高分不等于长视频全能——VideoMME 偏综合知识问答,MLVU 用 9 类任务把「摘要 / 找针 / 数动作」拆开,能暴露模型在细粒度全局理解上的崩盘
- 为什么「均匀采 16 帧」在长视频上几乎失效——论文显示帧数一多,多数短视频优化模型的收益反而有限,上下文长度与采样策略才是瓶颈
- 为什么后续 LongVA、Video-XL、LLaMA-Vid 都强调扩上下文——MLVU 的多时长分层设计直接量化了「视频越长、分数掉得越狠」
- 为什么工业论文开始同时报 VideoMME + MLVU——前者测广度,后者测多任务 + 多类型视频 + 多时长的深度组合能力
核心要点
-
九类任务 = 三种长视频能力层次:Holistic(全局:主题推理 TR、异常识别 AR、视频摘要 VS)、Single-Detail(单点定位:针眼问答 NQA、第一人称推理 ER、剧情问答 PQA、子场景描述 SSC)、Multi-Detail(跨片段:动作排序 AO、动作计数 AC)。类比:不是一张卷子考一门课,而是先考「读完全书概括」,再考「翻到第 37 页找细节」,最后考「把三处情节按顺序串起来」。
-
多时长分层(Multi-Level):同一条视频可切成「前 3 分钟 / 前 6 分钟 / 全长」三段分别出题,灵活观察模型随视频变长时的性能衰减曲线——这是 MLVU 相对 EgoSchema、MovieChat-1K 的关键增量。
-
视频类型极度多样:电影、纪录片、电视剧、第一人称、生活记录、体育、教程、监控、动画、游戏等十类来源并进 ULVC(Universal Long Video Collection),避免「只会答电影梗」的捷径——剧情题故意不写知名角色名(如写 cat/mouse 而非具体片名),逼模型看视频而非背常识。
实践案例
案例 1:九类任务长什么样
Holistic — Topic Reasoning(主题推理): 长视频:一部纪录片全程 问题:本片主要探讨的核心议题是? A. 气候变化 B. 人工智能伦理 C. 城市规划 D. 海洋生态 ✓
Single-Detail — Needle QA(针眼问答): 背景:45 分钟生活 vlog 插入:3 秒「红杯子特写」短片(needle) 问题:穿蓝外套的人在咖啡厅拿起的是什么颜色的杯子? → 模型必须先定位 needle 片段,再答细节
Multi-Detail — Action Count(动作计数): 背景:20 分钟体育集锦 插入:多次「投篮」probe 片段 问题:视频中出现了几次投篮动作? A.2 B.4 C.6✓ D.8案例 2:用 lmms-eval 跑 MLVU
pip install lmms-eval
python -m lmms_eval \ --model qwen2_vl \ --model_args pretrained="Qwen/Qwen2-VL-7B-Instruct" \ --tasks mlvu \ --batch_size 1 \ --output_path ./results/mlvu
# 输出按 9 个子任务分别报告# TR / AR / VS / NQA / ER / PQA / SSC / AO / AC# 开放题 VS、SSC 用 GPT-4 裁判打分(论文同款流程)案例 3:多时长分层评测思路
# MLVU 对同一视频按片段长度出题(概念化)video_id = "doc_042"segments = { "3min": video_id + "_first_3min", # 短上下文基线 "6min": video_id + "_first_6min", # 中等长度 "full": video_id + "_entire", # 全长 ~15min+}
for seg, clip in segments.items(): score = mllm.evaluate(clip, task="topic_reasoning") print(seg, score)# 论文常见模式:3min → 6min → full 单调下降# 说明瓶颈在「有效利用更长视觉上下文」,而非单帧识别踩过的坑
-
不要用 M-Avg 总分掩盖子任务崩盘:动作计数 AC、动作排序 AO 上多数模型接近随机猜,合并平均会把「摘要还行、计数全挂」伪装成「中等水平」。
-
开放题 VS/SSC 的 GPT-4 裁判不可直接横向比:不同实验室用的裁判模型版本、prompt 不一致时,生成任务分数波动大,对比应以多选题子集为主。
-
采样策略必须对齐论文:Uniform 16 frm vs 1 fps 两种输入策略分数差很大,读 leaderboard 时先核对帧数与 fps 配置,否则结论无效。
-
dev / test 集规模不对称:dev 2,593 题、test 509 题,test 选择题选项从 4 个增至 6 个——复现时别混用 split 和选项格式。
适用 vs 不适用场景
适用:
- 评估新长视频 MLLM 的多任务能力(不只 QA,还含摘要与描述生成)
- 画「视频越长、准确率如何掉」的 decay 曲线,验证上下文扩展是否真有效
- 对比 Uniform 采帧 vs 高 fps / 记忆模块 / 检索增强等长视频方案
不适用:
- 纯短视频(<1 分钟)能力筛选——用 MVBench、TempCompass 更省时
- 纯时序微粒度探针(速度/方向)——TempCompass 更专
- 替代人工观影体验评测——MLVU 仍是选择题 + GPT 裁判,不衡量叙事审美或情感共鸣
历史小故事(可跳过)
- 2024-06:MLVU 上传 arXiv 2406.04264,北京智源等机构联合发布,同期 Video-MME、LongVideoBench 并发
- 2024 下半年:lmms-eval 等框架陆续集成
mlvu任务,工业模型论文开始标配 MLVU 子表 - 2024–2025:NVILA、Qwen2-VL、LongVA 等把 MLVU 列入标准 eval,推动「扩上下文 + 强图像底座」成为长视频主线
- 定位:综述与路线图里,MLVU 与 videomme-2024、EgoSchema 并称长视频评测三件套,MLVU 侧重量级任务组合
学到什么
- 长视频评测要同时拉长、拉宽、拉深:只加长分钟数不够(EgoSchema 已做),还要多样视频类型 + 多样任务格式,才能逼模型用满整条时间线
- 全局任务是最难啃的骨头:摘要、动作计数、动作排序普遍低于剧情单点问答——说明「看完再统计/排序」比「找到某一幕」难一个量级
- 防捷径是 benchmark 设计核心:去掉名人片名、不用裸时间戳、针眼题用明确叙述定位——都是在堵「不看视频也能答」的漏洞
- 上下文长度 > 多采几帧:论文实证表明扩 LLM 上下文、加强图像理解底座、换更强 backbone,比单纯加均匀采帧更有效
- 子任务分报告比一张总表诚实:产品选型或论文 claim「支持长视频」时,应至少披露 AO/AC/VS 三项,否则容易高估
延伸阅读
- 论文 PDF:arXiv 2406.04264
- 项目主页与数据:MLVU GitHub
- 并列 benchmark:videomme-2024(900 视频综合长视频考)、EgoSchema(第一人称长推理)
- mvbench-2023 —— 短视频 20 任务先驱;MLVU 可看作其在「更长 + 更杂」方向的继任
- lmms-eval —— 推荐跑分入口;
--tasks mlvu一行接入 - long-video-retrieval-2023 —— 检索选片段路线;与 MLVU 的「全片理解」互补
关联
- videomme-2024 —— 同期长视频综合 benchmark;MLVU 更重九类任务与多时长分层
- mvbench-2023 —— 短视频多任务评测前身;MLVU 继承「拆任务」思路并推到 15 分钟级
- long-video-retrieval-2023 —— 解决「找对片段」;MLVU 的 NQA/AO/AC 考「找对且算对」
- tempcompass-2024 —— 专测时序微粒度;MLVU 的 AO/AC 偏宏观动作统计与排序
- qwen2-vl-2024 —— 长上下文工业代表;多篇论文在 MLVU 上验证 M-RoPE 收益
- video-llava-2024 —— 论文基线之一;8 帧均匀采样在长视频任务上明显吃亏
- llava-next —— LLaVA 视频主线;MLVU 是验证其长视频分支的标配探针
- lmms-eval —— 统一跑 MLVU 九子任务的生产入口
- vid-llm-survey-2023 —— 综述 benchmark 章节;MLVU 填补长视频多任务空白
- video-understanding —— 专题枢纽
反向链接
- grounded-videollm-2024 —— Grounded-VideoLLM — 双流编码 + 时间 token,把「何时发生」写进 Video LLM
- llava-next —— LLaVA-NeXT — 图像/视频/交织统一多模态主线仓库
- lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
- long-video-retrieval-2023 —— R-VLM — 长视频不靠均匀采帧,靠可学习检索选片段
- lvbench-2024 —— LVBench — 平均 68 分钟、六维能力的长视频极限考
- moviechat-2024 —— MovieChat — 从稠密帧到稀疏记忆,小时级电影也能聊
- mvbench-2023 —— MVBench — 二十道题拆穿视频大模型真懂还是装懂
- qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE,工业级视频理解的里程碑
- sharegpt4video-2024 —— ShareGPT4Video — 用 GPT-4V 级密集字幕,喂饱视频理解与生成
- streamingbench-2024 —— StreamingBench — 流式视频理解的 18 任务在线大考
- tempcompass-2024 —— TempCompass — 专门拆穿 Video LLM 有没有真懂时间
- vid-llm-survey-2023 —— Vid-LLM Survey — 用大语言模型理解视频的全景地图
- video-llava-2024 —— Video-LLaVA — 投影之前先对齐,图像和视频共用一个 LLM
- videomme-2024 —— Video-MME — 视频多模态大模型的「高考卷」