CounterVQA — 因果图驱动的反事实视频 VQA

是什么

CounterVQA（2025）是评测 视频反事实推理 的 benchmark：用多智能体 pipeline 为每段视频建因果图（causal graph），再生成三级难度反事实问答题（邻接、长链、不存在事件）。论文还提出 CFGPT 后训练法：让语言模态当老师，把反事实推理能力蒸馏到视觉模态，并用因果图一致性作奖励。

日常类比：普通 VQA 像看监控回答「谁摔倒了」；反事实 VQA 问「如果没扶栏杆，他会摔吗？」——需要脑内事件因果链。CounterVQA 像先把链画成图再出题，并分「改一步」「改多步」「问根本没发生的事」三档难度。

与 cover-2025、vinoground-2024 同属反事实视频评测，但 CounterVQA 强调显式因果图 + 语言→视觉蒸馏训练。

为什么重要

不理解 CounterVQA，会高估 VLM「懂因果」：

Pearl 因果层级顶端是反事实：识别相关 ≠ 理解干预与假设结果
三级难度暴露崩点：简单邻接题还行，多跳长链与幻觉题断崖式下跌
CFGPT 给出可复现训练路径：不只测问题，还用因果图奖励做 SFT + RL
与静态图反事实 benchmark 互补：视频有时序与未观测帧，更难

核心要点

多智能体因果图生成：推断视频事件成对因果 → 构图 → 按复杂度排序视频 → 自动生成并校验反事实 QA。
三级难度：Adjacent（改邻接事件）、Long-chain（多跳干预）、Non-existent（问未发生事件，测幻觉）。类比：小学改一步算术 → 奥数连锁推理 → 防「编造没发生的事」。
评测发现：SOTA 开源/闭源 VLM 在简单级尚可，复杂链显著退化——说明当前模型多靠表面相关。
CFGPT 训练：语言侧擅长抽象逻辑；视觉侧当学生；Causal Graph Reward 约束预测与真图一致；SFT + RL 后在各级 CounterVQA 上稳定提升。

实践案例

案例 1：因果图 → 题目（概念）

视频事件链：A 下雨 → B 地滑 → C 人摔倒 → D 旁人扶起

Adjacent 反事实：「若没下雨(B 不发生)，人还会摔吗？」
Long-chain：「若地没滑且人穿防滑鞋，还会需要扶起吗？」（多跳）
Non-existent：「若人提前带了伞，视频里会出现伞吗？」（可能从未出现）

每题 ground truth 由因果图上的 do-演算 / 可达性导出。

案例 2：CFGPT 两阶段（伪代码）

# Stage 1 SFT：语言教师生成 CoT + 答案，视觉学生模仿
for (video, q, causal_graph) in countervqa_train:
    teacher_cot = llm.reason(q, graph=causal_graph)
    loss = sft(vlm(video, q), target=teacher_cot)

# Stage 2 RL：奖励 = 答案正确 + 预测图与真图结构相似度
reward = acc(pred, label) + graph_match(pred_graph, causal_graph)
rl_update(vlm, reward)

语言模态提供抽象因果模板，视觉模态学习「在像素证据上落地」。

案例 3：与 COVER / Vinoground 三角

方法	结构	训练方案
vinoground-2024	顺序反事实对	无
cover-2025	四象限 + 子问题	无
CounterVQA	因果图 + 三级	CFGPT 蒸馏

做反事实方向应至少读两篇 benchmark + 一篇训练（本篇）。

踩过的坑

把邻接级分数当「会因果」：长链级可能接近随机，要分表报。
忽略 Non-existent 级：模型爱编造未出现物体，这级专门抓幻觉。
CFGPT 只跑 SFT 不跑 RL：论文显示图奖励对长链关键。
因果图生成错误传播：自动构图需人工抽检，否则标签噪声毁评测。

适用 vs 不适用场景

适用：

研究视频因果 / 反事实推理上限
需要训练配方（CFGPT）而不只 benchmark
与 cover-2025 交叉验证鲁棒性

不适用：

快速产品验收（构图 + 三级评测成本高）
无视频因果标注需求的纯识别任务
期望零样本就达人类水平的部署（当前 gap 大）

历史小故事（可跳过）

2006–2018：Pearl 因果层级、图像反事实探针逐步成熟。
2024–2025：视频反事实爆发：vinoground-2024、cover-2025、CounterVQA。
2025-11：CounterVQA arXiv 2511.19923，首套视频因果图 benchmark + CFGPT。

学到什么

反事实视频推理要显式因果结构，否则题难控难度。
语言模态可教视觉模态抽象因果——跨模态蒸馏是可行路线。
三级难度必不可少；平均分会掩盖长链崩溃。
幻觉题（不存在事件）是独立维度，与准确率分开报。
与 COVER 子问题机制互补：一个重图，一个重分步 QA。
语言→视觉蒸馏说明抽象因果不必从零在像素上学，可借力 LLM 教师。

若 Long-chain 级接近随机而 Adjacent 尚可，优先加 CFGPT 式图奖励 RL，而不是继续堆透视预训练数据。

数据集与代码将随论文进一步 release；关注 arXiv 2511.19923 页面更新以获取因果图标注格式说明。评测脚本应输出每级难度与图一致性分项，勿合并成单一 accuracy。

关联

cover-2025 —— 四象限反事实 + 子问题
vinoground-2024 —— 时序反事实对
tempcompass-2024 —— 时序概念探针
qwen2-vl-2024 —— 常见 VLM 基线
videollama2-2024 —— 开源视频模型
lmms-eval —— 评测框架
vid-llm-survey-2023 —— Video-LLM 全景

维护提示：

三级难度（Adjacent / Long-chain / Non-existent）必须分表，禁止平均成一个数。

CFGPT 复现需同时报告 SFT 与 RL 阶段；因果图奖励权重敏感。

与 cover-2025 子问题机制、vinoground-2024 顺序反事实对照阅读。

自动因果图需抽检人工一致率；噪声标签会扭曲 benchmark 结论。

候选见 research/papers-video-understanding.md；站内 slug 以 atlas 为准。

报分注明 VLM 版本、帧数、是否用官方多智能体构图 pipeline。

Pearl 因果层级：关联→干预→反事实；本篇落在第三层。

训练 I/O 对照 decord；评测框架 lmms-eval。

关联 [[slug]] 格式；build 触发 regen-backlinks。

Non-existent 题专门测幻觉，不可从评测集删除。

反向链接

cover-2025 —— COVER — 四象限反事实视频推理 benchmark
decord —— Decord — Video-LLM 数据管线的高效视频解码库
lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
mvbench-2023 —— MVBench — 二十道题拆穿视频大模型真懂还是装懂
qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE，工业级视频理解的里程碑
tempcompass-2024 —— TempCompass — 专门拆穿 Video LLM 有没有真懂时间
vid-llm-survey-2023 —— Vid-LLM Survey — 用大语言模型理解视频的全景地图
videollama2-2024 —— VideoLLaMA 2 — 时空卷积连接器 + 音视频联合理解
videomme-2024 —— Video-MME — 视频多模态大模型的「高考卷」
vinoground-2024 —— Vinoground — 时序反事实短视频探针