Vinoground — 时序反事实短视频探针

是什么

Vinoground 是 2024 年发布的时序理解诊断 benchmark：构造 1,000 对极简短视频，每对只有播放顺序不同（反事实剪辑），配一句描述，要求模型判断哪段视频与文字匹配。人类准确率约 90%，GPT-4o 仅约 50%，揭示主流 Video-LLM「看懂物体但看不懂先后」。

日常类比：两段 GIF 都是「人先坐下再站起来」和「人先站起来再坐下」，画面元素一模一样，只有时间箭头反了。Vinoground 像给模型做箭头辨识测验——不是认不认识椅子，而是懂不懂「先…后…」。

与 tempcompass-2024 互补：TempCompass 测「之前/之后/同时」等概念词；Vinoground 测像素级顺序反事实。

为什么重要

不了解 Vinoground，会误以为 VideoMME 高分等于「时序没问题」：

反事实对消除语义捷径：同一帧 bag，顺序一变答案就变；模型不能靠认物体蒙对
暴露均匀采帧的盲区：8 帧均匀采样经常丢掉关键过渡，反事实对必挂
GPT-4o ≈ 随机提醒闭源也非万能：时序仍是 2024–2025 Video-LLM 共性短板
论文/产品应用小成本快测：1000 对体量小，适合发版前回归

核心要点

Counterfactual video pairs：A/B 两段视频由相同片段不同拼接顺序生成，caption 只描述其中一种顺序。模型必须输出匹配的一段或 True/False。
极简场景控制变量：主体、背景、时长尽量一致，唯一变量是时间顺序。类比：控制实验只改催化剂添加顺序。
诊断而非排行榜：总分绝对值不如看「相对人类 gap」；适合 ablation 新连接器（如 STC、M-RoPE）是否真改善时序。

实践案例

案例 1：评测接口（概念）

# 伪代码：每对 (video_a, video_b, caption)
for pair in vinoground_pairs:
    score_a = model.match_score(pair.video_a, pair.caption)
    score_b = model.match_score(pair.video_b, pair.caption)
    pred = "A" if score_a > score_b else "B"
    acc += (pred == pair.label)

# 报告：accuracy vs human 90% / GPT-4o 50% 基线

也可用二分类：「caption 是否描述 video_a」。

案例 2：均匀采帧为何失败

视频总长 4s，事件在 1.5s 和 2.5s 各发生一次

均匀 8 帧 @ 0.5s → 可能两事件都采到，但顺序信息在帧排列里已丢
反事实对：帧集合相同、顺序不同 → 模型若无时序编码则两视频 embedding 几乎一样

加 STC / 时间 token（[[vtimellm-2023]]）后 Vinoground 可涨 10–20 点（论文 ablation 量级）

案例 3：与 TempCompass 分工

评测	问法	失败模式
tempcompass-2024	「之前还是之后？」选择题	语言概念混淆
Vinoground	哪段视频匹配描述	帧顺序不敏感
mvbench-2023	20 种动态技能	单项运动识别

发版前应 TempCompass + Vinoground 各跑一遍，不能只报 MVBench。

若模型在 Vinoground 接近随机但在 mvbench-2023 运动类很高，通常说明「识动作但不识顺序」——应优先加时间 token 或因果帧编码，而非继续加帧数。

踩过的坑

把 Vinoground 当通用视频榜：只有 1000 对反事实短 clip，不能替代 videomme-2024。
多帧推理温度太高：匹配分数抖动大，应用 greedy + 固定采帧协议复现。
只看准确率不看人类 gap：模型 55% 看似「还行」，相对人类 90% 仍不合格。
与 OCR/字幕泄漏无关：短视频几乎无字幕，别用「读字」解释高分。

适用 vs 不适用场景

适用：

新 temporal connector / M-RoPE / 时间 token 的快速验证
发版前回归（体量小、跑得快）
与 tempcompass-2024 组成时序双探针

不适用：

长视频理解（用 lvbench-2024）
开放域综合榜官宣 SOTA
纯图像模型（无视频输入）

历史小故事（可跳过）

2023：tempcompass-2024 定义时序概念四类探针。
2024-10：Vinoground arxiv 2410.02763，反事实对设计。
2025：videollama2-2024 STC、qwen2-vl-2024 M-RoPE 等仍在此榜与人类有 gap。

学到什么

时序 ≠ 多采几帧；顺序敏感编码（卷积、时间 token、因果 mask）必不可少。
反事实对是廉价而锋利的诊断；比堆大数据更能暴露架构缺陷。
人类 90% vs 模型 50% 说明时序理解仍是 frontier，不是 solved。
适合 CI 回归：1000 对体量小，发版跑 20 分钟就能拦截时序回退。
与 tempcompass-2024 双探针可覆盖「概念词 + 像素顺序」两层失败模式。
反事实对制作成本高：社区扩展需控制剪辑质量，否则人类基线也会下降。

关联

tempcompass-2024 —— 时序概念探针互补
mvbench-2023 —— 动态微技能评测
vtimellm-2023 —— 时间 token VTG 路线
videollama2-2024 —— STC 时空连接器
qwen2-vl-2024 —— M-RoPE 工业时序方案
vid-llm-survey-2023 —— Video-LLM 范式地图
lmms-eval —— 潜在统一跑分入口

维护提示：

双千进度以 data/written.txt 与 atlas 为准，勿手工改计数。
训练 I/O 默认对照 decord；评测迁移可试 torchcodec（lmms-eval v0.7+）。
与 vid-llm-survey-2023 范式分类对照阅读，避免孤立记模型名。
候选队列维护见 research/papers-video-understanding.md，站内 slug 以 atlas 为准。
长视频与流式子题见专题站 /stations/video-understanding/ 分阶段表。
报分请注明采帧数、模态（video / av）与解码后端，便于跨论文对比。
工程对照项目见 decord、lmms-eval、videochat2 等专题笔记。
与专题阅读站 video-understanding / stations 路线图对照，避免候选表与站内 slug 脱节。发版前用 lmms-eval 或官方脚本复现文中数字；pinned 依赖以各仓库 README 为准。
关联条目使用 [[slug]] 格式，build 时由 backlink 脚本补全反向链。
时序探针建议与 tempcompass-2024 组合跑，覆盖概念与反事实两层。
人类 ~90% 基线提醒：模型 50% 附近仍有时序架构升级空间。

反向链接

countervqa-2025 —— CounterVQA — 因果图驱动的反事实视频 VQA
cover-2025 —— COVER — 四象限反事实视频推理 benchmark
decord —— Decord — Video-LLM 数据管线的高效视频解码库
internvideo2-5-2025 —— InternVideo2.5 — 长富上下文 + HiCo 层次压缩
lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
lvbench-2024 —— LVBench — 平均 68 分钟、六维能力的长视频极限考
mvbench-2023 —— MVBench — 二十道题拆穿视频大模型真懂还是装懂
omagent-2024 —— OmAgent — 长视频分治 Agent 与回退检索
qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE，工业级视频理解的里程碑
tempcompass-2024 —— TempCompass — 专门拆穿 Video LLM 有没有真懂时间
torchcodec —— TorchCodec — PyTorch 原生 GPU 视频解码与张量输出
vid-llm-survey-2023 —— Vid-LLM Survey — 用大语言模型理解视频的全景地图
videochat2 —— VideoChat2 — OpenGVLab 三阶段训练 Video-LLM 官方实现
videollama2-2024 —— VideoLLaMA 2 — 时空卷积连接器 + 音视频联合理解
videomme-2024 —— Video-MME — 视频多模态大模型的「高考卷」
vtimellm-2023 —— VTimeLLM — 让 Video LLM 学会标出事件起止时间
worldsense-2025 —— WorldSense — 真实世界同步音视频理解 benchmark