EgoSchema — 三分钟第一视角长视频理解的诊断探针
是什么
EgoSchema 是一个专门诊断「超长时序视频理解」能力的 benchmark:每道题给一段约 3 分钟的第一视角(egocentric)视频,让模型从 5 个选项里选出正确答案。数据集来自 Ego4D,共 5000+ 道人工把关的多选题,覆盖 250+ 小时真实日常活动。
日常类比:普通 VideoQA 像看 10 秒短视频后答「他在干什么」——瞄一眼就能蒙对。EgoSchema 像看完一整集《向往的生活》后回答「嘉宾从头到尾的主线行为是什么」——必须把开头、中间、结尾串起来,单看几个画面远远不够。
论文还提出 temporal certificate(时序证据长度):人类要确认答案正确,最少需要连续观看多长的视频片段。EgoSchema 的中位证据长度约 100 秒,比第二名数据集长 5.7 倍,比多数视频 benchmark 长 10–100 倍——它测的不是「片长」,而是「解题真正需要看多长」。
为什么重要
不了解 EgoSchema,下面这些事容易误判:
- 为什么 ActivityNet-QA 高分不代表模型能懂长视频——很多题只看几秒动作就能答对,时序证据很短
- 为什么「把 clip 拉长到 3 分钟」不等于更难——片长和 intrinsic temporal hardness 弱相关,EgoSchema 用 certificate 把两者拆开
- 为什么 2023 年十亿参数 Video LLM 在 EgoSchema 上 <33%(随机 20%),人类却 ~76%——说明长程记忆与抽象推理仍是硬伤
- 为什么后续 R-VLM、VideoAgent、VideoLLaMA2 都把 EgoSchema 列入标准 eval——它是长视频路线的「照妖镜」
核心要点
-
Temporal Certificate Set(时序证据集):一道题的正确标注,需要人类 verifier 观看的最短必要子片段集合。证据越长,说明任务越依赖长程时序——EgoSchema 中位约 100 秒,属「very long-form」档(论文 taxonomy:~1s 短、~10s 长、~100s 超长)。
-
四阶段数据管线:Stage I 从 Ego4D 筛 3 分钟片段(每段 ≥30 条旁白);Stage II 用 GPT-4 等 LLM 链式生成 Q-A-干扰项;Stage III 规则 +「盲答」过滤(不让模型不看视频就猜对);Stage IV 两轮人工审核,确保每题证据 ≥30 秒。宽进严出,最终 5000+ 高质量 MCQA。
-
五选一 MCQA 而非开放生成:开放视频描述难用 BLEU/ROUGE 公平评分;多选用准确率(random=20%)做硬指标,方便横向对比 FrozenBiLM、InternVideo、mPLUG-Owl 等模型,也避免模型只靠文本偏见答题。
实践案例
案例 1:用 lmms-eval 跑 EgoSchema
pip install lmms-eval
python -m lmms_eval \ --model llava_vid \ --model_args pretrained="LanguageBind/Video-LLaVA-7B" \ --tasks egoschema \ --batch_size 1 \ --output_path ./results/egoschema
# 输出 overall accuracy(5 选 1,random baseline 20%)# 需先把 good_clips_git/ 视频按 task 文档放到约定目录EgoSchema 不托管全部原始视频,需按官方脚本从 Ego4D 拉取对应 clip;lmms-eval 把采帧、prompt、计分统一封装,避免每个模型手写一套评测脚本。
案例 2:理解 temporal certificate 怎么量
# 概念示意(非官方 API)# 人类标注员回答:「要确信选项 B 正确,最少要看哪些时间段?」
video_clip = "3min_egocentric_cooking.mp4" # 全长 180squestion = "C 在整个视频中的主要目标是什么?"options = ["A...", "B...", "C...", "D...", "E..."]
# 标注员可能标出非连续证据集,例如:certificate_set = [ (12, 45), # 开头备料阶段 33s (98, 142), # 中段关键操作 44s]certificate_length = (45-12) + (142-98) # = 77s
# EgoSchema 要求人工审核时 certificate >= 30s# 数据集整体中位约 100s —— 远超 MSRVTT-QA、ActivityNet-QA核心洞察:clip 是 180 秒,但证据可能分散在多段;均匀采 8 帧几乎必然漏掉关键片段,这解释了为何 SOTA 模型分数接近随机。
案例 3:论文 Zero-shot 数字对照
EgoSchema 5 选 1 QA(Zero-shot,circa 2023):
基准 Accuracy--------------------------------随机猜测 20.0%VIOLET (75 frames) ~19.6% <- 几乎随机FrozenBiLM (90 frames) ~26.9%mPLUG-Owl (5 frames) ~31.1% <- 当时 SOTA 仍 <33%InternVideo (90 frames) ~32.1%人类(无时间限制) ~75–76%
关键发现:加帧到 90 帧收益饱和;人类 1fps(180 帧)仍达 67.2%说明瓶颈在「长程聚合与推理」,不是单纯分辨率或帧数踩过的坑
-
别把 clip 时长当难度:论文 Fig.3 显示片长与 certificate 弱相关——3 分钟片子里仍可能有「只看 5 秒就够」的题,EgoSchema 通过人工审核剔除了这类伪长视频题。
-
开放域视频 QA 分数不可直接比:EgoSchema 固定 5 选 1、固定 3 分钟 egocentric;换 prompt 格式(如 Yes/No 逐选项打分)会改变 mPLUG-Owl 等模型的排名。
-
数据准备成本高:视频链 Ego4D 元数据,需跑官方 download script;没准备好
good_clips_git/就跑评测会大面积 file not found。 -
egocentric 偏差:全来自 Ego4D 第一视角日常活动,对电影、无人机等第三视角场景泛化有限——高分 EgoSchema 不等于通用长视频 SOTA。
适用 vs 不适用场景
适用:
- 评估长视频 Video LLM 是否真有「分钟级」理解与推理
- 对比检索式(R-VLM)vs 均匀采帧 vs Agent 选帧路线在相同探针上的差距
- 写论文 Related Work 时引用「长时序证据」概念与 human-model gap 的实证
不适用:
- 评测纯时序细粒度(速度/方向/顺序)——tempcompass-2024 更专精
- 评测第三视角影视理解——片源与视角分布不同
- 作为预训练数据——EgoSchema 是 diagnostic benchmark,规模小且专用于评测
历史小故事(可跳过)
- 2023-08:EgoSchema 上传 arXiv 2308.09126,UC Berkeley BAIR(Mangalam、Akshulakov、Malik)
- 2023-12:NeurIPS 2023 Datasets and Benchmarks Track 接收;官网 egoschema.github.io 开放数据与 Zero-shot 评测代码(Ego4D license)
- 2024:R-VLM、VideoAgent 等长视频方法把 EgoSchema 列为关键数字;lmms-eval 集成
egoschematask - 2024–2025:VideoLLaMA2、Qwen2-VL 等把 EgoSchema 纳入标准 eval suite,推动检索 + 长上下文设计
- 启示:它第一次用「时序证据长度」量化 benchmark 难度,而不只靠视频秒数
学到什么
- 长视频难在 evidence span,不在 file size:评测设计要先问「答对这题最少要看多长」,再谈模型架构
- LLM 辅助标注 + 人工证书:GPT-4 生成候选 QA,盲答过滤 + 双轮人工保证质量——大规模长视频标注的可行范式
- 人类 76% vs 模型 33% 说明任务有效:gap 足够大,才是好 diagnostic probe,不是饱和榜单
- 均匀加帧有天花板:InternVideo 从 10 帧到 90 帧只涨不到 1 点——长视频需要检索、记忆或 agent 式选帧,而非简单多采几帧
- MCQA 是长视频评测的务实选择:避免开放生成指标的模糊性,让 Zero-shot 对比可复现
延伸阅读
- 论文 PDF:arXiv 2308.09126
- 官网与 Explorer:egoschema.github.io
- 上游数据:Ego4D —— EgoSchema 视频与旁白的来源
- 对照 benchmark:tempcompass-2024(细粒度时序)、long-video-retrieval-2023(检索路线在 EgoSchema 上的数字)
- lmms-eval ——
--tasks egoschema一行接入评测 - vid-llm-survey-2023 —— 综述 benchmark 章节中的长视频探针定位
关联
- long-video-retrieval-2023 —— R-VLM 在 EgoSchema 上验证「检索选对片段」优于均匀 8 帧
- tempcompass-2024 —— 互补:TempCompass 测秒级时序维度,EgoSchema 测分钟级行为与意图
- lmms-eval —— 生产级跑分入口;VideoMME / MVBench / EgoSchema 可一条命令联跑
- vid-llm-survey-2023 —— 全景地图里「长视频评测」节点的代表作
- videollama2 —— 官方 eval 含 EgoSchema;7B 档长视频榜单常引用
- qwen2-vl-2024 —— 长上下文 + M-RoPE 路线的重要对照数字来源
- internvideo —— 论文 baseline 之一;加帧收益饱和的典型案例
- decord —— 评测管线里的高效解码;采帧策略直接影响 EgoSchema 分数
- video-llava-2024 —— 8 帧均匀采样路线在 EgoSchema 上暴露长程短板
- video-understanding —— 专题枢纽
反向链接
- chapter-llama-2025 —— Chapter-Llama — 语音引导采帧,一小时视频一次前向切章节
- decord —— Decord — Video-LLM 数据管线的高效视频解码库
- internvideo —— InternVideo — 上海 AI Lab 视频基础模型套件
- llmvs-2025 —— LLMVS — 用 LLM 语义裁判给视频帧打分做摘要
- lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
- long-video-retrieval-2023 —— R-VLM — 长视频不靠均匀采帧,靠可学习检索选片段
- longvideobench-2024 —— LongVideoBench — 一小时交织字幕视频的长上下文理解考卷
- qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE,工业级视频理解的里程碑
- tempcompass-2024 —— TempCompass — 专门拆穿 Video LLM 有没有真懂时间
- traveler-2024 —— TraveLER — 四段式多 Agent,帧级问答看懂长视频
- vid-llm-survey-2023 —— Vid-LLM Survey — 用大语言模型理解视频的全景地图
- video-llava-2024 —— Video-LLaVA — 投影之前先对齐,图像和视频共用一个 LLM
- videoagent-longform-2024 —— VideoAgent (Wang) — LLM Agent 迭代选帧理解长视频
- videoagent-memory-2024 —— VideoAgent(Fan)— 双记忆 + 四工具,长视频逼近 Gemini
- videollama2 —— VideoLLaMA2 — 阿里达摩院音视频 Video-LLM 可运行实现
- vsi-bench-2024 —— VSI-Bench — 用室内漫游视频考视频大模型的空间智商