Vinoground — 时序反事实短视频探针
是什么
Vinoground 是 2024 年发布的时序理解诊断 benchmark:构造 1,000 对极简短视频,每对只有播放顺序不同(反事实剪辑),配一句描述,要求模型判断哪段视频与文字匹配。人类准确率约 90%,GPT-4o 仅约 50%,揭示主流 Video-LLM「看懂物体但看不懂先后」。
日常类比:两段 GIF 都是「人先坐下再站起来」和「人先站起来再坐下」,画面元素一模一样,只有时间箭头反了。Vinoground 像给模型做箭头辨识测验——不是认不认识椅子,而是懂不懂「先…后…」。
与 tempcompass-2024 互补:TempCompass 测「之前/之后/同时」等概念词;Vinoground 测像素级顺序反事实。
为什么重要
不了解 Vinoground,会误以为 VideoMME 高分等于「时序没问题」:
- 反事实对消除语义捷径:同一帧 bag,顺序一变答案就变;模型不能靠认物体蒙对
- 暴露均匀采帧的盲区:8 帧均匀采样经常丢掉关键过渡,反事实对必挂
- GPT-4o ≈ 随机提醒闭源也非万能:时序仍是 2024–2025 Video-LLM 共性短板
- 论文/产品应用小成本快测:1000 对体量小,适合发版前回归
核心要点
-
Counterfactual video pairs:A/B 两段视频由相同片段不同拼接顺序生成,caption 只描述其中一种顺序。模型必须输出匹配的一段或 True/False。
-
极简场景控制变量:主体、背景、时长尽量一致,唯一变量是时间顺序。类比:控制实验只改催化剂添加顺序。
-
诊断而非排行榜:总分绝对值不如看「相对人类 gap」;适合 ablation 新连接器(如 STC、M-RoPE)是否真改善时序。
实践案例
案例 1:评测接口(概念)
# 伪代码:每对 (video_a, video_b, caption)for pair in vinoground_pairs: score_a = model.match_score(pair.video_a, pair.caption) score_b = model.match_score(pair.video_b, pair.caption) pred = "A" if score_a > score_b else "B" acc += (pred == pair.label)
# 报告:accuracy vs human 90% / GPT-4o 50% 基线也可用二分类:「caption 是否描述 video_a」。
案例 2:均匀采帧为何失败
视频总长 4s,事件在 1.5s 和 2.5s 各发生一次
均匀 8 帧 @ 0.5s → 可能两事件都采到,但顺序信息在帧排列里已丢反事实对:帧集合相同、顺序不同 → 模型若无时序编码则两视频 embedding 几乎一样
加 STC / 时间 token([[vtimellm-2023]])后 Vinoground 可涨 10–20 点(论文 ablation 量级)案例 3:与 TempCompass 分工
| 评测 | 问法 | 失败模式 |
|---|---|---|
| tempcompass-2024 | 「之前还是之后?」选择题 | 语言概念混淆 |
| Vinoground | 哪段视频匹配描述 | 帧顺序不敏感 |
| mvbench-2023 | 20 种动态技能 | 单项运动识别 |
发版前应 TempCompass + Vinoground 各跑一遍,不能只报 MVBench。
若模型在 Vinoground 接近随机但在 mvbench-2023 运动类很高,通常说明「识动作但不识顺序」——应优先加时间 token 或因果帧编码,而非继续加帧数。
踩过的坑
-
把 Vinoground 当通用视频榜:只有 1000 对反事实短 clip,不能替代 videomme-2024。
-
多帧推理温度太高:匹配分数抖动大,应用 greedy + 固定采帧协议复现。
-
只看准确率不看人类 gap:模型 55% 看似「还行」,相对人类 90% 仍不合格。
-
与 OCR/字幕泄漏无关:短视频几乎无字幕,别用「读字」解释高分。
适用 vs 不适用场景
适用:
- 新 temporal connector / M-RoPE / 时间 token 的快速验证
- 发版前回归(体量小、跑得快)
- 与 tempcompass-2024 组成时序双探针
不适用:
- 长视频理解(用 lvbench-2024)
- 开放域综合榜官宣 SOTA
- 纯图像模型(无视频输入)
历史小故事(可跳过)
- 2023:tempcompass-2024 定义时序概念四类探针。
- 2024-10:Vinoground arxiv 2410.02763,反事实对设计。
- 2025:videollama2-2024 STC、qwen2-vl-2024 M-RoPE 等仍在此榜与人类有 gap。
学到什么
- 时序 ≠ 多采几帧;顺序敏感编码(卷积、时间 token、因果 mask)必不可少。
- 反事实对是廉价而锋利的诊断;比堆大数据更能暴露架构缺陷。
- 人类 90% vs 模型 50% 说明时序理解仍是 frontier,不是 solved。
- 适合 CI 回归:1000 对体量小,发版跑 20 分钟就能拦截时序回退。
- 与 tempcompass-2024 双探针可覆盖「概念词 + 像素顺序」两层失败模式。
- 反事实对制作成本高:社区扩展需控制剪辑质量,否则人类基线也会下降。
延伸阅读
- 论文 PDF:arXiv:2410.02763
- 互补:tempcompass-2024
- 方法:vtimellm-2023、videollama2-2024
- 综合榜:videomme-2024、mvbench-2023
- 地图:vid-llm-survey-2023
关联
- tempcompass-2024 —— 时序概念探针互补
- mvbench-2023 —— 动态微技能评测
- vtimellm-2023 —— 时间 token VTG 路线
- videollama2-2024 —— STC 时空连接器
- qwen2-vl-2024 —— M-RoPE 工业时序方案
- vid-llm-survey-2023 —— Video-LLM 范式地图
- lmms-eval —— 潜在统一跑分入口
维护提示:
- 双千进度以
data/written.txt与 atlas 为准,勿手工改计数。 - 训练 I/O 默认对照 decord;评测迁移可试 torchcodec(lmms-eval v0.7+)。
- 与 vid-llm-survey-2023 范式分类对照阅读,避免孤立记模型名。
- 候选队列维护见
research/papers-video-understanding.md,站内 slug 以 atlas 为准。 - 长视频与流式子题见专题站
/stations/video-understanding/分阶段表。 - 报分请注明采帧数、模态(video / av)与解码后端,便于跨论文对比。
- 工程对照项目见 decord、lmms-eval、videochat2 等专题笔记。
- 与专题阅读站 video-understanding / stations 路线图对照,避免候选表与站内 slug 脱节。 发版前用 lmms-eval 或官方脚本复现文中数字;pinned 依赖以各仓库 README 为准。
- 关联条目使用
[[slug]]格式,build 时由 backlink 脚本补全反向链。 - 时序探针建议与 tempcompass-2024 组合跑,覆盖概念与反事实两层。
- 人类 ~90% 基线提醒:模型 50% 附近仍有时序架构升级空间。
反向链接
- countervqa-2025 —— CounterVQA — 因果图驱动的反事实视频 VQA
- cover-2025 —— COVER — 四象限反事实视频推理 benchmark
- decord —— Decord — Video-LLM 数据管线的高效视频解码库
- internvideo2-5-2025 —— InternVideo2.5 — 长富上下文 + HiCo 层次压缩
- lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
- lvbench-2024 —— LVBench — 平均 68 分钟、六维能力的长视频极限考
- mvbench-2023 —— MVBench — 二十道题拆穿视频大模型真懂还是装懂
- omagent-2024 —— OmAgent — 长视频分治 Agent 与回退检索
- qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE,工业级视频理解的里程碑
- tempcompass-2024 —— TempCompass — 专门拆穿 Video LLM 有没有真懂时间
- torchcodec —— TorchCodec — PyTorch 原生 GPU 视频解码与张量输出
- vid-llm-survey-2023 —— Vid-LLM Survey — 用大语言模型理解视频的全景地图
- videochat2 —— VideoChat2 — OpenGVLab 三阶段训练 Video-LLM 官方实现
- videollama2-2024 —— VideoLLaMA 2 — 时空卷积连接器 + 音视频联合理解
- videomme-2024 —— Video-MME — 视频多模态大模型的「高考卷」
- vtimellm-2023 —— VTimeLLM — 让 Video LLM 学会标出事件起止时间
- worldsense-2025 —— WorldSense — 真实世界同步音视频理解 benchmark