Grounded-VideoLLM — 双流编码 + 时间 token，把「何时发生」写进 Video LLM

是什么

Grounded-VideoLLM 是 UC Davis 等团队 2024 年 10 月发布（EMNLP 2025 Findings 收录）的视频大语言模型，专门解决 fine-grained temporal grounding（细粒度时序定位）：不只回答「视频里发生了什么」，还要精确说出 「在第几秒到第几秒发生」。

日常类比：普通 Video LLM 像看完新闻集锦后只能概括「今天有球赛、有发布会」——粗粒度。Grounded-VideoLLM 像带时间轴的剪辑师：「0:12–0:18 婴儿在哭，0:19–0:32 男人进门抱起婴儿，0:40–0:45 婴儿在吃苹果」。每个事件都绑在具体时间窗口上。

论文指出多数 Video-LLM 的短板来自两点：逐帧独立编码、忽视帧间运动关系，以及 用纯文本写浮点秒数（如 "from 102.3 to 120.1 seconds"），LLM 的 next-token 机制对数字不友好。Grounded-VideoLLM 用 双流视觉编码 + 离散时间 token + 三阶段渐进训练 把「何时」和「何事」放进同一套离散 token 序列里联合解码。

为什么重要

不理解 Grounded-VideoLLM，下面这些事容易误判：

为什么 video-llava-2024 / video-chatgpt-2023 在 MVBench 还行、一到 Charades-STA 定位就崩——它们优化的是全局语义，缺少显式时间戳表示与运动建模
为什么「把秒数写进 prompt」不是好方案——论文消融显示纯文本时间戳在 ActivityNet 等长视频上明显弱于 300 个专用 <t> token
为什么 2024–2025 年 Video LLM 开始分 Refer / Localize / Reason 三种时序能力——Grounded-VideoLLM 把句子定位、密集字幕、带证据的 VideoQA 统一成一条 grounding 主线
为什么 VCG-Bench 的 TU（Temporal Understanding） 子项成为新卖点——Grounded-VideoLLM TU 分 3.12，比 P-LLaVA 等同规模模型高约 7%，双流运动编码直接受益

核心要点

双流编码（Two-Stream Encoding）：视频均匀采 96 帧，切成 12 段；每段 空间流 取中间关键帧走图像 encoder（保留外观细节），时间流 把段内多帧送进 InternVideo2 抽运动特征。两路特征经 MLP 投影后拼接。类比：空间流看「这一幕长什么样」，时间流看「这一小段里动作怎么变」。
离散时间 token：向 LLM 词表新增 300 个 相对时间 token（如 <0> 表视频起点、<300> 表终点）。连续秒数 $\tau$ 按 $t = \mathrm{Round}(M \cdot \tau / L)$ 量化后再解码。输出可以是：From <0> to <6>, a baby is crying. —— 文本与时间 token 同序列生成，避免 LLM 逐字符拼浮点数。
三阶段渐进训练：Stage-1 用 128 万 video-caption 对齐视频 encoder（只训投影层）；Stage-2 Temporal Token Alignment，在 TSG / 密集字幕 / 时间指代任务上对齐时间 token 与视频时间轴；Stage-3 多任务指令微调（含自建的 17K Grounded VideoQA + VideoChat2 等），并加 LoRA 训 LLM。类比：先学会「看视频」，再学会「读时间轴」，最后学会「边答边指证据片段」。

实践案例

案例 1：模型输出里的时间 token 长什么样

输入（概念化）：
  [96帧视频特征] + 指令："Describe events with timestamps."

模型输出：
  From <0> to <6>, a baby is crying.
  From <7> to <16>, a man is coming and picking up the baby.
  From <20> to <25>, the baby is eating an apple.

解读：
  - <0>–<6> 映射到视频前 ~2% 时长（300 档相对量化）
  - 文本事件与时间 token 在同一条自回归序列里生成
  - 特殊 token <ground> 可提示模型「接下来要输出 grounded 时间戳」

案例 2：双流 vs 单流（论文 Table 5 量级）

配置                          Charades mIoU    MVBench Avg
----------------------------------------------------------
Grounded-VideoLLM（双流）        36.8            60.0
去掉时间流，稀疏 24 帧             30.4            58.5
去掉时间流，密集 96 帧             34.3            53.2   ← 定位略升、通用理解掉
去掉空间流                        33.5            57.7

结论：运动流 + 外观流缺一不可；只堆帧数不能替代显式 temporal stream

案例 3：用官方仓库跑推理（概念命令）

git clone https://github.com/WHB139426/Grounded-Video-LLM
cd Grounded-Video-LLM

# 权重见 Hugging Face: WHB139426/Grounded-Video-LLM
# 典型输入：均匀 96 帧 + 文本指令

python inference.py \
  --video_path demo.mp4 \
  --question "When does the person pick up the object?" \
  --model_path WHB139426/Grounded-Video-LLM-Phi3.5

# 期望输出：自然语言答案 + <t_start> to <t_end> 形式的时间 token 区间
# Phi3.5-3.8B 版在 ANet-Grounding mIoU 36.1，强于同规模 Vicuna-7B 版

踩过的坑

时间 token 太少会伤长视频：消融显示 100 token 与纯文本接近，300 token 在 ActivityNet 等长片上增益最明显——部署时别为省词表随意砍 $M$。
跳过 Stage-2 对齐，Stage-3 也救不回来：去掉 Temporal Token Alignment 后 Charades mIoU 从 36.8 跌到 27.5——时间 token 必须专门对齐视频时间轴，不能指望最后一轮指令微调硬背。
底座 LLM 强弱影响大于参数量：Vicuna-7B 版整体略弱于 Phi3.5-4B 版——grounding 再强也受限于底座推理与指令跟随能力。
Grounded VideoQA 训练集靠 GPT-4 流水线合成：17K 样本 scalable 但有噪声，零样本迁移到分布外领域（监控、体育）时要预期 IoU 回落。
96 帧上限对极长视频不友好：均匀分段在 10 分钟片上每段仍覆盖数十秒，毫秒级动作边界会被量化 token 平滑——需要更密采样或层次 grounding 时得换架构。

适用 vs 不适用场景

适用：

需要 句子级时间定位（Temporal Sentence Grounding）或 密集事件字幕（Dense Video Captioning）
问答必须附带 证据时间段（NExT-GQA / Grounded VideoQA 形态）
在通用 VideoQA（MSVD / MSRVTT / ActivityNet-QA）上也要兼顾 VCG-Bench 时间理解 TU 子项

不适用：

纯短视频全局问答、不关心秒级定位——video-llava-2024 更轻
小时级电影全片对话——看 moviechat-2024 的记忆压缩路线，Grounded-VideoLLM 固定 96 帧
空域框级定位（谁在哪）——本文只做 时间轴 grounding，不做 spatial bbox
实时低延迟流式分析——96 帧 + 双流 encoder 离线算力不低

历史小故事（可跳过）

2024-10：论文上传 arXiv:2410.03290，提出双流 + 时间 token + 三阶段训练完整方案
2024 同期：VTimeLLM、TimeChat、Momentor、VTG-LLM 等并发探索「Video LLM + 时间定位」，Grounded-VideoLLM 强调 离散 token 对齐 而非纯文本秒数
2025：收录 EMNLP 2025 Findings；代码与 Phi3.5 / Vicuna 权重释出 Hugging Face
评测位势：在 Charades-STA R@0.7、ANet-Captions SODA_c、NExT-GQA Acc@GQA、MVBench 上同时拿到 Video-LLM 阵营前列，证明 grounding 专项训练不必牺牲通用理解

学到什么

「何时」和「何事」应共用离散 token 词表，而不是让 LLM 当 OCR 读浮点秒数——这是 fine-grained grounding 的工程关键
双流要在编码早期分工：空间看关键帧、时间看段内密集帧，比只在 LLM 里靠 position embedding 猜时序更稳
渐进课程学习对 grounding 有效：caption → 对齐时间 token → 多任务指令，比一上来混训 grounding + 闲聊 loss 更易收敛
专用 grounding 与通用 VideoQA 可兼得：MVBench 60.0、VCG-Bench 3.24 说明 sharpen temporal 不等于牺牲 video-chatgpt-2023 式开放问答
R@0.7 比 R@0.3 更能区分模型：论文强调高 IoU 阈值上的领先，说明定位 边界更准 而不只是「大概区间」

关联

video-llava-2024 —— 统一图像/视频表征、弱时序；Grounded-VideoLLM 补「秒级定位」短板
video-chatgpt-2023 —— 论文主要对照基线之一；文本写秒数的 grounding 尝试
moviechat-2024 —— 超长视频记忆；Grounded-VideoLLM 专攻中等长度精细时间轴
mlvu-2024 —— 长视频九类任务 benchmark；可检验 grounding 模型在 AO/AC 上的表现
llava —— Vicuna 版 Grounded-VideoLLM 的图像 MLLM 底座来源
internvideo —— 时间流采用 InternVideo2-1B；运动特征质量绑定 grounding 上限
lmms-eval —— 复现 MSVD-QA / MVBench 等通用指标的推荐框架
tempcompass-2024 —— 专测时序理解微粒度；可对比 Grounded-VideoLLM 在速度/方向题上的泛化
video-understanding —— 专题枢纽

反向链接

internvideo —— InternVideo — 上海 AI Lab 视频基础模型套件
llava —— LLaVA — 开源多模态对话模型
lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
mlvu-2024 —— MLVU — 九类任务、多时长分层的长视频理解大考
moviechat-2024 —— MovieChat — 从稠密帧到稀疏记忆，小时级电影也能聊
qwen2-5-vl-2025 —— Qwen2.5-VL — 绝对时间编码 + 动态分辨率，小时级视频原生理解
sharegpt4video-2024 —— ShareGPT4Video — 用 GPT-4V 级密集字幕，喂饱视频理解与生成
spacevllm-2025 —— SpaceVLLM — 一个 MLLM 同时做时序定位、图像指代与时空管定位
streamingbench-2024 —— StreamingBench — 流式视频理解的 18 任务在线大考
tempcompass-2024 —— TempCompass — 专门拆穿 Video LLM 有没有真懂时间
traveler-2024 —— TraveLER — 四段式多 Agent，帧级问答看懂长视频
vid-llm-survey-2023 —— Vid-LLM Survey — 用大语言模型理解视频的全景地图
video-chatgpt-2023 —— Video-ChatGPT — 让大语言模型看懂视频并聊起来
video-llava-2024 —— Video-LLaVA — 投影之前先对齐，图像和视频共用一个 LLM
videoagent-memory-2024 —— VideoAgent（Fan）— 双记忆 + 四工具，长视频逼近 Gemini
vidstg-2020 —— VidSTG — 用自然语言在长视频里框出「谁在何时何地」
vtg-llm-2024 —— VTG-LLM — 绝对时间 token + VTG-IT-120K，让 Video LLM 精确定位时刻