跳转到内容

Vinoground — 时序反事实短视频探针

是什么

Vinoground 是 2024 年发布的时序理解诊断 benchmark:构造 1,000 对极简短视频,每对只有播放顺序不同(反事实剪辑),配一句描述,要求模型判断哪段视频与文字匹配。人类准确率约 90%,GPT-4o 仅约 50%,揭示主流 Video-LLM「看懂物体但看不懂先后」。

日常类比:两段 GIF 都是「人先坐下再站起来」和「人先站起来再坐下」,画面元素一模一样,只有时间箭头反了。Vinoground 像给模型做箭头辨识测验——不是认不认识椅子,而是懂不懂「先…后…」。

tempcompass-2024 互补:TempCompass 测「之前/之后/同时」等概念词;Vinoground 测像素级顺序反事实

为什么重要

不了解 Vinoground,会误以为 VideoMME 高分等于「时序没问题」:

  • 反事实对消除语义捷径:同一帧 bag,顺序一变答案就变;模型不能靠认物体蒙对
  • 暴露均匀采帧的盲区:8 帧均匀采样经常丢掉关键过渡,反事实对必挂
  • GPT-4o ≈ 随机提醒闭源也非万能:时序仍是 2024–2025 Video-LLM 共性短板
  • 论文/产品应用小成本快测:1000 对体量小,适合发版前回归

核心要点

  1. Counterfactual video pairs:A/B 两段视频由相同片段不同拼接顺序生成,caption 只描述其中一种顺序。模型必须输出匹配的一段或 True/False。

  2. 极简场景控制变量:主体、背景、时长尽量一致,唯一变量是时间顺序。类比:控制实验只改催化剂添加顺序。

  3. 诊断而非排行榜:总分绝对值不如看「相对人类 gap」;适合 ablation 新连接器(如 STC、M-RoPE)是否真改善时序。

实践案例

案例 1:评测接口(概念)

# 伪代码:每对 (video_a, video_b, caption)
for pair in vinoground_pairs:
score_a = model.match_score(pair.video_a, pair.caption)
score_b = model.match_score(pair.video_b, pair.caption)
pred = "A" if score_a > score_b else "B"
acc += (pred == pair.label)
# 报告:accuracy vs human 90% / GPT-4o 50% 基线

也可用二分类:「caption 是否描述 video_a」。

案例 2:均匀采帧为何失败

视频总长 4s,事件在 1.5s 和 2.5s 各发生一次
均匀 8 帧 @ 0.5s → 可能两事件都采到,但顺序信息在帧排列里已丢
反事实对:帧集合相同、顺序不同 → 模型若无时序编码则两视频 embedding 几乎一样
加 STC / 时间 token([[vtimellm-2023]])后 Vinoground 可涨 10–20 点(论文 ablation 量级)

案例 3:与 TempCompass 分工

评测问法失败模式
tempcompass-2024「之前还是之后?」选择题语言概念混淆
Vinoground哪段视频匹配描述帧顺序不敏感
mvbench-202320 种动态技能单项运动识别

发版前应 TempCompass + Vinoground 各跑一遍,不能只报 MVBench。

若模型在 Vinoground 接近随机但在 mvbench-2023 运动类很高,通常说明「识动作但不识顺序」——应优先加时间 token 或因果帧编码,而非继续加帧数。

踩过的坑

  1. 把 Vinoground 当通用视频榜:只有 1000 对反事实短 clip,不能替代 videomme-2024

  2. 多帧推理温度太高:匹配分数抖动大,应用 greedy + 固定采帧协议复现。

  3. 只看准确率不看人类 gap:模型 55% 看似「还行」,相对人类 90% 仍不合格。

  4. 与 OCR/字幕泄漏无关:短视频几乎无字幕,别用「读字」解释高分。

适用 vs 不适用场景

适用

  • 新 temporal connector / M-RoPE / 时间 token 的快速验证
  • 发版前回归(体量小、跑得快)
  • tempcompass-2024 组成时序双探针

不适用

  • 长视频理解(用 lvbench-2024
  • 开放域综合榜官宣 SOTA
  • 纯图像模型(无视频输入)

历史小故事(可跳过)

学到什么

  • 时序 ≠ 多采几帧;顺序敏感编码(卷积、时间 token、因果 mask)必不可少。
  • 反事实对是廉价而锋利的诊断;比堆大数据更能暴露架构缺陷。
  • 人类 90% vs 模型 50% 说明时序理解仍是 frontier,不是 solved。
  • 适合 CI 回归:1000 对体量小,发版跑 20 分钟就能拦截时序回退。
  • tempcompass-2024 双探针可覆盖「概念词 + 像素顺序」两层失败模式。
  • 反事实对制作成本高:社区扩展需控制剪辑质量,否则人类基线也会下降。

延伸阅读

关联

维护提示:

  • 双千进度以 data/written.txt 与 atlas 为准,勿手工改计数。
  • 训练 I/O 默认对照 decord;评测迁移可试 torchcodec(lmms-eval v0.7+)。
  • vid-llm-survey-2023 范式分类对照阅读,避免孤立记模型名。
  • 候选队列维护见 research/papers-video-understanding.md,站内 slug 以 atlas 为准。
  • 长视频与流式子题见专题站 /stations/video-understanding/ 分阶段表。
  • 报分请注明采帧数、模态(video / av)与解码后端,便于跨论文对比。
  • 工程对照项目见 decordlmms-evalvideochat2 等专题笔记。
  • 与专题阅读站 video-understanding / stations 路线图对照,避免候选表与站内 slug 脱节。 发版前用 lmms-eval 或官方脚本复现文中数字;pinned 依赖以各仓库 README 为准。
  • 关联条目使用 [[slug]] 格式,build 时由 backlink 脚本补全反向链。
  • 时序探针建议与 tempcompass-2024 组合跑,覆盖概念与反事实两层。
  • 人类 ~90% 基线提醒:模型 50% 附近仍有时序架构升级空间。

反向链接

  • countervqa-2025 —— CounterVQA — 因果图驱动的反事实视频 VQA
  • cover-2025 —— COVER — 四象限反事实视频推理 benchmark
  • decord —— Decord — Video-LLM 数据管线的高效视频解码库
  • internvideo2-5-2025 —— InternVideo2.5 — 长富上下文 + HiCo 层次压缩
  • lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
  • lvbench-2024 —— LVBench — 平均 68 分钟、六维能力的长视频极限考
  • mvbench-2023 —— MVBench — 二十道题拆穿视频大模型真懂还是装懂
  • omagent-2024 —— OmAgent — 长视频分治 Agent 与回退检索
  • qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE,工业级视频理解的里程碑
  • tempcompass-2024 —— TempCompass — 专门拆穿 Video LLM 有没有真懂时间
  • torchcodec —— TorchCodec — PyTorch 原生 GPU 视频解码与张量输出
  • vid-llm-survey-2023 —— Vid-LLM Survey — 用大语言模型理解视频的全景地图
  • videochat2 —— VideoChat2 — OpenGVLab 三阶段训练 Video-LLM 官方实现
  • videollama2-2024 —— VideoLLaMA 2 — 时空卷积连接器 + 音视频联合理解
  • videomme-2024 —— Video-MME — 视频多模态大模型的「高考卷」
  • vtimellm-2023 —— VTimeLLM — 让 Video LLM 学会标出事件起止时间
  • worldsense-2025 —— WorldSense — 真实世界同步音视频理解 benchmark