EgoSchema — 三分钟第一视角长视频理解的诊断探针

是什么

EgoSchema 是一个专门诊断「超长时序视频理解」能力的 benchmark：每道题给一段约 3 分钟的第一视角（egocentric）视频，让模型从 5 个选项里选出正确答案。数据集来自 Ego4D，共 5000+ 道人工把关的多选题，覆盖 250+ 小时真实日常活动。

日常类比：普通 VideoQA 像看 10 秒短视频后答「他在干什么」——瞄一眼就能蒙对。EgoSchema 像看完一整集《向往的生活》后回答「嘉宾从头到尾的主线行为是什么」——必须把开头、中间、结尾串起来，单看几个画面远远不够。

论文还提出 temporal certificate（时序证据长度）：人类要确认答案正确，最少需要连续观看多长的视频片段。EgoSchema 的中位证据长度约 100 秒，比第二名数据集长 5.7 倍，比多数视频 benchmark 长 10–100 倍——它测的不是「片长」，而是「解题真正需要看多长」。

为什么重要

不了解 EgoSchema，下面这些事容易误判：

为什么 ActivityNet-QA 高分不代表模型能懂长视频——很多题只看几秒动作就能答对，时序证据很短
为什么「把 clip 拉长到 3 分钟」不等于更难——片长和 intrinsic temporal hardness 弱相关，EgoSchema 用 certificate 把两者拆开
为什么 2023 年十亿参数 Video LLM 在 EgoSchema 上 <33%（随机 20%），人类却 ~76%——说明长程记忆与抽象推理仍是硬伤
为什么后续 R-VLM、VideoAgent、VideoLLaMA2 都把 EgoSchema 列入标准 eval——它是长视频路线的「照妖镜」

核心要点

Temporal Certificate Set（时序证据集）：一道题的正确标注，需要人类 verifier 观看的最短必要子片段集合。证据越长，说明任务越依赖长程时序——EgoSchema 中位约 100 秒，属「very long-form」档（论文 taxonomy：~1s 短、~10s 长、~100s 超长）。
四阶段数据管线：Stage I 从 Ego4D 筛 3 分钟片段（每段 ≥30 条旁白）；Stage II 用 GPT-4 等 LLM 链式生成 Q-A-干扰项；Stage III 规则 +「盲答」过滤（不让模型不看视频就猜对）；Stage IV 两轮人工审核，确保每题证据 ≥30 秒。宽进严出，最终 5000+ 高质量 MCQA。
五选一 MCQA 而非开放生成：开放视频描述难用 BLEU/ROUGE 公平评分；多选用准确率（random=20%）做硬指标，方便横向对比 FrozenBiLM、InternVideo、mPLUG-Owl 等模型，也避免模型只靠文本偏见答题。

实践案例

案例 1：用 lmms-eval 跑 EgoSchema

pip install lmms-eval

python -m lmms_eval \
  --model llava_vid \
  --model_args pretrained="LanguageBind/Video-LLaVA-7B" \
  --tasks egoschema \
  --batch_size 1 \
  --output_path ./results/egoschema

# 输出 overall accuracy（5 选 1，random baseline 20%）
# 需先把 good_clips_git/ 视频按 task 文档放到约定目录

EgoSchema 不托管全部原始视频，需按官方脚本从 Ego4D 拉取对应 clip；lmms-eval 把采帧、prompt、计分统一封装，避免每个模型手写一套评测脚本。

案例 2：理解 temporal certificate 怎么量

# 概念示意（非官方 API）
# 人类标注员回答：「要确信选项 B 正确，最少要看哪些时间段？」

video_clip = "3min_egocentric_cooking.mp4"  # 全长 180s
question = "C 在整个视频中的主要目标是什么？"
options = ["A...", "B...", "C...", "D...", "E..."]

# 标注员可能标出非连续证据集，例如：
certificate_set = [
    (12, 45),   # 开头备料阶段 33s
    (98, 142),  # 中段关键操作 44s
]
certificate_length = (45-12) + (142-98)  # = 77s

# EgoSchema 要求人工审核时 certificate >= 30s
# 数据集整体中位约 100s —— 远超 MSRVTT-QA、ActivityNet-QA

核心洞察：clip 是 180 秒，但证据可能分散在多段；均匀采 8 帧几乎必然漏掉关键片段，这解释了为何 SOTA 模型分数接近随机。

案例 3：论文 Zero-shot 数字对照

EgoSchema 5 选 1 QA（Zero-shot，circa 2023）：

基准                    Accuracy
--------------------------------
随机猜测                 20.0%
VIOLET (75 frames)      ~19.6%   <- 几乎随机
FrozenBiLM (90 frames)  ~26.9%
mPLUG-Owl (5 frames)    ~31.1%   <- 当时 SOTA 仍 <33%
InternVideo (90 frames) ~32.1%
人类（无时间限制）        ~75–76%

关键发现：加帧到 90 帧收益饱和；人类 1fps（180 帧）仍达 67.2%
说明瓶颈在「长程聚合与推理」，不是单纯分辨率或帧数

踩过的坑

别把 clip 时长当难度：论文 Fig.3 显示片长与 certificate 弱相关——3 分钟片子里仍可能有「只看 5 秒就够」的题，EgoSchema 通过人工审核剔除了这类伪长视频题。
开放域视频 QA 分数不可直接比：EgoSchema 固定 5 选 1、固定 3 分钟 egocentric；换 prompt 格式（如 Yes/No 逐选项打分）会改变 mPLUG-Owl 等模型的排名。
数据准备成本高：视频链 Ego4D 元数据，需跑官方 download script；没准备好 good_clips_git/ 就跑评测会大面积 file not found。
egocentric 偏差：全来自 Ego4D 第一视角日常活动，对电影、无人机等第三视角场景泛化有限——高分 EgoSchema 不等于通用长视频 SOTA。

适用 vs 不适用场景

适用：

评估长视频 Video LLM 是否真有「分钟级」理解与推理
对比检索式（R-VLM）vs 均匀采帧 vs Agent 选帧路线在相同探针上的差距
写论文 Related Work 时引用「长时序证据」概念与 human-model gap 的实证

不适用：

评测纯时序细粒度（速度/方向/顺序）——tempcompass-2024 更专精
评测第三视角影视理解——片源与视角分布不同
作为预训练数据——EgoSchema 是 diagnostic benchmark，规模小且专用于评测

历史小故事（可跳过）

2023-08：EgoSchema 上传 arXiv 2308.09126，UC Berkeley BAIR（Mangalam、Akshulakov、Malik）
2023-12：NeurIPS 2023 Datasets and Benchmarks Track 接收；官网 egoschema.github.io 开放数据与 Zero-shot 评测代码（Ego4D license）
2024：R-VLM、VideoAgent 等长视频方法把 EgoSchema 列为关键数字；lmms-eval 集成 egoschema task
2024–2025：VideoLLaMA2、Qwen2-VL 等把 EgoSchema 纳入标准 eval suite，推动检索 + 长上下文设计
启示：它第一次用「时序证据长度」量化 benchmark 难度，而不只靠视频秒数

学到什么

长视频难在 evidence span，不在 file size：评测设计要先问「答对这题最少要看多长」，再谈模型架构
LLM 辅助标注 + 人工证书：GPT-4 生成候选 QA，盲答过滤 + 双轮人工保证质量——大规模长视频标注的可行范式
人类 76% vs 模型 33% 说明任务有效：gap 足够大，才是好 diagnostic probe，不是饱和榜单
均匀加帧有天花板：InternVideo 从 10 帧到 90 帧只涨不到 1 点——长视频需要检索、记忆或 agent 式选帧，而非简单多采几帧
MCQA 是长视频评测的务实选择：避免开放生成指标的模糊性，让 Zero-shot 对比可复现

关联

long-video-retrieval-2023 —— R-VLM 在 EgoSchema 上验证「检索选对片段」优于均匀 8 帧
tempcompass-2024 —— 互补：TempCompass 测秒级时序维度，EgoSchema 测分钟级行为与意图
lmms-eval —— 生产级跑分入口；VideoMME / MVBench / EgoSchema 可一条命令联跑
vid-llm-survey-2023 —— 全景地图里「长视频评测」节点的代表作
videollama2 —— 官方 eval 含 EgoSchema；7B 档长视频榜单常引用
qwen2-vl-2024 —— 长上下文 + M-RoPE 路线的重要对照数字来源
internvideo —— 论文 baseline 之一；加帧收益饱和的典型案例
decord —— 评测管线里的高效解码；采帧策略直接影响 EgoSchema 分数
video-llava-2024 —— 8 帧均匀采样路线在 EgoSchema 上暴露长程短板
video-understanding —— 专题枢纽

反向链接

chapter-llama-2025 —— Chapter-Llama — 语音引导采帧，一小时视频一次前向切章节
decord —— Decord — Video-LLM 数据管线的高效视频解码库
internvideo —— InternVideo — 上海 AI Lab 视频基础模型套件
llmvs-2025 —— LLMVS — 用 LLM 语义裁判给视频帧打分做摘要
lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
long-video-retrieval-2023 —— R-VLM — 长视频不靠均匀采帧，靠可学习检索选片段
longvideobench-2024 —— LongVideoBench — 一小时交织字幕视频的长上下文理解考卷
qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE，工业级视频理解的里程碑
tempcompass-2024 —— TempCompass — 专门拆穿 Video LLM 有没有真懂时间
traveler-2024 —— TraveLER — 四段式多 Agent，帧级问答看懂长视频
vid-llm-survey-2023 —— Vid-LLM Survey — 用大语言模型理解视频的全景地图
video-llava-2024 —— Video-LLaVA — 投影之前先对齐，图像和视频共用一个 LLM
videoagent-longform-2024 —— VideoAgent (Wang) — LLM Agent 迭代选帧理解长视频
videoagent-memory-2024 —— VideoAgent（Fan）— 双记忆 + 四工具，长视频逼近 Gemini
videollama2 —— VideoLLaMA2 — 阿里达摩院音视频 Video-LLM 可运行实现
vsi-bench-2024 —— VSI-Bench — 用室内漫游视频考视频大模型的空间智商