COVER — 四象限反事实视频推理 benchmark

是什么

COVER（COunterfactual VidEo Reasoning，2025）是系统评测 MLLM 视频反事实推理 的 benchmark：在 抽象–具体 × 感知–认知 四个象限里出题，并把复杂问题拆成子问题（sub-questions），观察「中间步对了，反事实题是否才对」。

日常类比：老师不只问「如果视频倒放，男孩还会先踢球吗？」，还拆成「倒放后第一个动作是什么？」「最后一个动作是什么？」——像数学大题要分步给分，才能看出模型是真推理还是蒙对。

论文发现：子问题准确率与反事实主问题强相关；想提升视频泛化，得先加强结构化推理，而不只是堆训练数据。后继于 vinoground-2024 的时序反事实，但覆盖感知/认知/抽象/具体全维度。

为什么重要

不了解 COVER，会误判 Video-LLM「已经会推理」：

反事实是 OOD 泛化的试金石：改事件顺序或假设未发生，模型不能靠统计相关性答题
四象限暴露不同短板：有的模型「看得清」（感知）但「推不动」（认知），或只会具体物体不会抽象关系
子问题机制可指导训练：中间步错在哪一象限，数据增强才有靶子
与 vinoground-2024 互补：Vinoground 专盯像素级顺序；COVER 还考抽象因果与认知链

核心要点

四象限任务设计：横轴抽象↔具体，纵轴感知↔认知。每格有专门题型，避免「只会认物体」的假高分。
反事实主问题 + 子问题：主问题改现实（倒放、假设另一结果）；子问题对应必要条件（先发生什么、谁在场）。子问题对 → 主问题更可能对。
人机混合标注：视频、原问、反事实问、子问题均人工校验；部分子问题可自动生成再审核。
核心结论：商业与开源 MLLM 在子问题链上掉分明显；推理能力是视频鲁棒性的关键因子，不是更大分辨率 alone。

实践案例

案例 1：四象限 + 子问题（示意）

原视频：男孩 → 捡球 → 踢球 → 进门

主问题（反事实）：「若视频倒放，男孩是否仍先踢球再进门？」
子问题 Q1：倒放后第一个可见动作是什么？
子问题 Q2：倒放后最后一个动作是什么？
子问题 Q3：踢球发生在进门之前还是之后？

模型若 Q1/Q2 错，主问题几乎必错 → 可定位是「时序感知」还是「事件认知」失败。

案例 2：评测脚本骨架

for item in cover_dataset:
    sub_scores = [model.answer(item.video, sq) for sq in item.sub_questions]
    main_pred = model.answer(item.video, item.counterfactual_q)
    log(sub_acc=mean(sub_scores), main_acc=(main_pred == item.label))
    log(quadrant=item.quadrant)  # 抽象/具体 × 感知/认知

# 分析：子问题准确率 vs 主问题准确率的相关系数

报告要分象限贴表，不能只有一个总分。

案例 3：与 Vinoground 分工

Benchmark	变量	测什么
vinoground-2024	同帧不同顺序	像素级时序
COVER	反事实 + 子问题链	多象限推理 + 中间步
tempcompass-2024	时间概念词	语言–时序对齐

发版前应 Vinoground + COVER 至少各跑一遍，覆盖「顺序敏感」与「假设推理」。

踩过的坑

把 COVER 当普通 Video QA 榜：核心是反事实 + 子问题，不是认动作分类。
只看主问题不看子问题：失去诊断价值，无法指导 ablation。
忽略象限：总分掩盖「认知象限全挂、感知很高」的假象。
温度 / 采帧不固定：反事实对分数抖动大，复现要锁协议。

适用 vs 不适用场景

适用：

新连接器、CoT、子问题训练策略的鲁棒性验证
与 vinoground-2024 组成反事实双探针
研究「推理是否 video 泛化关键」的 ablation

不适用：

长视频小时级理解（用 lvbench-2024 / Agent 路线）
纯图像 MLLM（无视频输入）
单一排行榜官宣 SOTA

历史小故事（可跳过）

2024：vinoground-2024 提出极简反事实视频对。
2025-03：COVER arXiv 2503.10691，四象限 + 子问题评估框架。
2025：countervqa-2025 从因果图角度并行推进反事实视频评测。

学到什么

视频泛化要靠推理，不只靠规模；子问题准确率是领先指标。
反事实 benchmark 要分维度，否则不知道模型哪种「不懂」。
子问题 = 可解释评分尺，适合 CI 回归与训练课程设计。
与 Vinoground 叠加才能覆盖时序与假设两类失败。
开源与闭源模型都未饱和，推理链仍是 2025 frontier。

关联

vinoground-2024 —— 时序反事实短 clip 探针
countervqa-2025 —— 因果图反事实 VQA
tempcompass-2024 —— 时序概念词评测
videomme-2024 —— 综合视频理解榜
qwen2-vl-2024 —— 工业 MLLM 基线对照
videollama2-2024 —— 开源视频模型对照
lmms-eval —— 潜在统一跑分

维护提示：

双千进度以 data/written.txt 与 atlas 为准，勿手工改计数。
反事实评测建议与 vinoground-2024 组合跑，覆盖像素时序与多象限推理两层。
报分请锁采帧数、温度与子问题协议；COVER 对采样抖动敏感。
子问题链准确率是主问题的领先指标，勿只看四象限总分。
候选队列见 research/papers-video-understanding.md，站内 slug 以 atlas 为准。
长视频子题见专题站 /stations/video-understanding/ 分阶段表。
工程对照见 lmms-eval、decord 等笔记，复现数字以官方脚本为准。
关联条目使用 [[slug]] 格式，build 时由 backlink 脚本补全反向链。
与 countervqa-2025 因果图路线对照，避免孤立记 benchmark 名。
开源/闭源模型均未饱和，推理链仍是 2025 frontier。
人类子问题基线显著高于主问题，模型掉分多发生在中间步。
四象限表要分格汇报，总分掩盖「感知高、认知低」假象。
发版前用 lmms-eval 或 COVER 官方仓库脚本复现文中数字。
pinned 依赖以各仓库 README 为准，勿混用不同 checkpoint 协议。
与专题阅读站 video-understanding 路线图对照，避免候选表脱节。

反向链接

countervqa-2025 —— CounterVQA — 因果图驱动的反事实视频 VQA
decord —— Decord — Video-LLM 数据管线的高效视频解码库
lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
lvbench-2024 —— LVBench — 平均 68 分钟、六维能力的长视频极限考
mvbench-2023 —— MVBench — 二十道题拆穿视频大模型真懂还是装懂
qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE，工业级视频理解的里程碑
tempcompass-2024 —— TempCompass — 专门拆穿 Video LLM 有没有真懂时间
videollama2-2024 —— VideoLLaMA 2 — 时空卷积连接器 + 音视频联合理解
videomme-2024 —— Video-MME — 视频多模态大模型的「高考卷」
vinoground-2024 —— Vinoground — 时序反事实短视频探针