跳转到内容

EgoSchema — 三分钟第一视角长视频理解的诊断探针

是什么

EgoSchema 是一个专门诊断「超长时序视频理解」能力的 benchmark:每道题给一段约 3 分钟的第一视角(egocentric)视频,让模型从 5 个选项里选出正确答案。数据集来自 Ego4D,共 5000+ 道人工把关的多选题,覆盖 250+ 小时真实日常活动。

日常类比:普通 VideoQA 像看 10 秒短视频后答「他在干什么」——瞄一眼就能蒙对。EgoSchema 像看完一整集《向往的生活》后回答「嘉宾从头到尾的主线行为是什么」——必须把开头、中间、结尾串起来,单看几个画面远远不够。

论文还提出 temporal certificate(时序证据长度):人类要确认答案正确,最少需要连续观看多长的视频片段。EgoSchema 的中位证据长度约 100 秒,比第二名数据集长 5.7 倍,比多数视频 benchmark 长 10–100 倍——它测的不是「片长」,而是「解题真正需要看多长」。

为什么重要

不了解 EgoSchema,下面这些事容易误判:

  • 为什么 ActivityNet-QA 高分不代表模型能懂长视频——很多题只看几秒动作就能答对,时序证据很短
  • 为什么「把 clip 拉长到 3 分钟」不等于更难——片长和 intrinsic temporal hardness 弱相关,EgoSchema 用 certificate 把两者拆开
  • 为什么 2023 年十亿参数 Video LLM 在 EgoSchema 上 <33%(随机 20%),人类却 ~76%——说明长程记忆与抽象推理仍是硬伤
  • 为什么后续 R-VLM、VideoAgent、VideoLLaMA2 都把 EgoSchema 列入标准 eval——它是长视频路线的「照妖镜」

核心要点

  1. Temporal Certificate Set(时序证据集):一道题的正确标注,需要人类 verifier 观看的最短必要子片段集合。证据越长,说明任务越依赖长程时序——EgoSchema 中位约 100 秒,属「very long-form」档(论文 taxonomy:~1s 短、~10s 长、~100s 超长)。

  2. 四阶段数据管线:Stage I 从 Ego4D 筛 3 分钟片段(每段 ≥30 条旁白);Stage II 用 GPT-4 等 LLM 链式生成 Q-A-干扰项;Stage III 规则 +「盲答」过滤(不让模型不看视频就猜对);Stage IV 两轮人工审核,确保每题证据 ≥30 秒。宽进严出,最终 5000+ 高质量 MCQA。

  3. 五选一 MCQA 而非开放生成:开放视频描述难用 BLEU/ROUGE 公平评分;多选用准确率(random=20%)做硬指标,方便横向对比 FrozenBiLM、InternVideo、mPLUG-Owl 等模型,也避免模型只靠文本偏见答题。

实践案例

案例 1:用 lmms-eval 跑 EgoSchema

Terminal window
pip install lmms-eval
python -m lmms_eval \
--model llava_vid \
--model_args pretrained="LanguageBind/Video-LLaVA-7B" \
--tasks egoschema \
--batch_size 1 \
--output_path ./results/egoschema
# 输出 overall accuracy(5 选 1,random baseline 20%)
# 需先把 good_clips_git/ 视频按 task 文档放到约定目录

EgoSchema 不托管全部原始视频,需按官方脚本从 Ego4D 拉取对应 clip;lmms-eval 把采帧、prompt、计分统一封装,避免每个模型手写一套评测脚本。

案例 2:理解 temporal certificate 怎么量

# 概念示意(非官方 API)
# 人类标注员回答:「要确信选项 B 正确,最少要看哪些时间段?」
video_clip = "3min_egocentric_cooking.mp4" # 全长 180s
question = "C 在整个视频中的主要目标是什么?"
options = ["A...", "B...", "C...", "D...", "E..."]
# 标注员可能标出非连续证据集,例如:
certificate_set = [
(12, 45), # 开头备料阶段 33s
(98, 142), # 中段关键操作 44s
]
certificate_length = (45-12) + (142-98) # = 77s
# EgoSchema 要求人工审核时 certificate >= 30s
# 数据集整体中位约 100s —— 远超 MSRVTT-QA、ActivityNet-QA

核心洞察:clip 是 180 秒,但证据可能分散在多段;均匀采 8 帧几乎必然漏掉关键片段,这解释了为何 SOTA 模型分数接近随机。

案例 3:论文 Zero-shot 数字对照

EgoSchema 5 选 1 QA(Zero-shot,circa 2023):
基准 Accuracy
--------------------------------
随机猜测 20.0%
VIOLET (75 frames) ~19.6% <- 几乎随机
FrozenBiLM (90 frames) ~26.9%
mPLUG-Owl (5 frames) ~31.1% <- 当时 SOTA 仍 <33%
InternVideo (90 frames) ~32.1%
人类(无时间限制) ~75–76%
关键发现:加帧到 90 帧收益饱和;人类 1fps(180 帧)仍达 67.2%
说明瓶颈在「长程聚合与推理」,不是单纯分辨率或帧数

踩过的坑

  1. 别把 clip 时长当难度:论文 Fig.3 显示片长与 certificate 弱相关——3 分钟片子里仍可能有「只看 5 秒就够」的题,EgoSchema 通过人工审核剔除了这类伪长视频题。

  2. 开放域视频 QA 分数不可直接比:EgoSchema 固定 5 选 1、固定 3 分钟 egocentric;换 prompt 格式(如 Yes/No 逐选项打分)会改变 mPLUG-Owl 等模型的排名。

  3. 数据准备成本高:视频链 Ego4D 元数据,需跑官方 download script;没准备好 good_clips_git/ 就跑评测会大面积 file not found。

  4. egocentric 偏差:全来自 Ego4D 第一视角日常活动,对电影、无人机等第三视角场景泛化有限——高分 EgoSchema 不等于通用长视频 SOTA。

适用 vs 不适用场景

适用

  • 评估长视频 Video LLM 是否真有「分钟级」理解与推理
  • 对比检索式(R-VLM)vs 均匀采帧 vs Agent 选帧路线在相同探针上的差距
  • 写论文 Related Work 时引用「长时序证据」概念与 human-model gap 的实证

不适用

  • 评测纯时序细粒度(速度/方向/顺序)——tempcompass-2024 更专精
  • 评测第三视角影视理解——片源与视角分布不同
  • 作为预训练数据——EgoSchema 是 diagnostic benchmark,规模小且专用于评测

历史小故事(可跳过)

  • 2023-08:EgoSchema 上传 arXiv 2308.09126,UC Berkeley BAIR(Mangalam、Akshulakov、Malik)
  • 2023-12:NeurIPS 2023 Datasets and Benchmarks Track 接收;官网 egoschema.github.io 开放数据与 Zero-shot 评测代码(Ego4D license)
  • 2024:R-VLM、VideoAgent 等长视频方法把 EgoSchema 列为关键数字;lmms-eval 集成 egoschema task
  • 2024–2025:VideoLLaMA2、Qwen2-VL 等把 EgoSchema 纳入标准 eval suite,推动检索 + 长上下文设计
  • 启示:它第一次用「时序证据长度」量化 benchmark 难度,而不只靠视频秒数

学到什么

  1. 长视频难在 evidence span,不在 file size:评测设计要先问「答对这题最少要看多长」,再谈模型架构
  2. LLM 辅助标注 + 人工证书:GPT-4 生成候选 QA,盲答过滤 + 双轮人工保证质量——大规模长视频标注的可行范式
  3. 人类 76% vs 模型 33% 说明任务有效:gap 足够大,才是好 diagnostic probe,不是饱和榜单
  4. 均匀加帧有天花板:InternVideo 从 10 帧到 90 帧只涨不到 1 点——长视频需要检索、记忆或 agent 式选帧,而非简单多采几帧
  5. MCQA 是长视频评测的务实选择:避免开放生成指标的模糊性,让 Zero-shot 对比可复现

延伸阅读

关联

  • long-video-retrieval-2023 —— R-VLM 在 EgoSchema 上验证「检索选对片段」优于均匀 8 帧
  • tempcompass-2024 —— 互补:TempCompass 测秒级时序维度,EgoSchema 测分钟级行为与意图
  • lmms-eval —— 生产级跑分入口;VideoMME / MVBench / EgoSchema 可一条命令联跑
  • vid-llm-survey-2023 —— 全景地图里「长视频评测」节点的代表作
  • videollama2 —— 官方 eval 含 EgoSchema;7B 档长视频榜单常引用
  • qwen2-vl-2024 —— 长上下文 + M-RoPE 路线的重要对照数字来源
  • internvideo —— 论文 baseline 之一;加帧收益饱和的典型案例
  • decord —— 评测管线里的高效解码;采帧策略直接影响 EgoSchema 分数
  • video-llava-2024 —— 8 帧均匀采样路线在 EgoSchema 上暴露长程短板
  • video-understanding —— 专题枢纽

反向链接

  • chapter-llama-2025 —— Chapter-Llama — 语音引导采帧,一小时视频一次前向切章节
  • decord —— Decord — Video-LLM 数据管线的高效视频解码库
  • internvideo —— InternVideo — 上海 AI Lab 视频基础模型套件
  • llmvs-2025 —— LLMVS — 用 LLM 语义裁判给视频帧打分做摘要
  • lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
  • long-video-retrieval-2023 —— R-VLM — 长视频不靠均匀采帧,靠可学习检索选片段
  • longvideobench-2024 —— LongVideoBench — 一小时交织字幕视频的长上下文理解考卷
  • qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE,工业级视频理解的里程碑
  • tempcompass-2024 —— TempCompass — 专门拆穿 Video LLM 有没有真懂时间
  • traveler-2024 —— TraveLER — 四段式多 Agent,帧级问答看懂长视频
  • vid-llm-survey-2023 —— Vid-LLM Survey — 用大语言模型理解视频的全景地图
  • video-llava-2024 —— Video-LLaVA — 投影之前先对齐,图像和视频共用一个 LLM
  • videoagent-longform-2024 —— VideoAgent (Wang) — LLM Agent 迭代选帧理解长视频
  • videoagent-memory-2024 —— VideoAgent(Fan)— 双记忆 + 四工具,长视频逼近 Gemini
  • videollama2 —— VideoLLaMA2 — 阿里达摩院音视频 Video-LLM 可运行实现
  • vsi-bench-2024 —— VSI-Bench — 用室内漫游视频考视频大模型的空间智商