SpaceVLLM — 一个 MLLM 同时做时序定位、图像指代与时空管定位

是什么

SpaceVLLM 是中科大与人大团队 2025 年 3 月发布的时空视频定位多模态大模型：在单一 MLLM 里同时完成三件事——Video Temporal Grounding（VTG，按文字找起止时间）、Referring Expression Comprehension（REC，在单张图里框出被指物体）、Spatio-Temporal Video Grounding（STVG，在视频里框出「谁在何时何地做了什么」的时空管）。

日常类比：vtg-llm-2024 像剪辑师只会在时间轴上标「0:12–0:18」；REC 模型像摄影师在一张照片里圈出「穿红衣服的人」；传统 STVG 专用模型像安防回放员逐帧画框。SpaceVLLM 像带三维坐标的导播台——同一句「男人什么时候抱起婴儿」既能回答时间段，又能在该时段每一帧画出婴儿和男人的框，且三种能力共用一套对话接口。

论文核心结构：Spatio-Temporal Aware Query（每帧插入一个可学习查询 token，与视觉 token 交错拼接，吸收帧内静态细节与帧间动态线索）+ Query-Guided Space Decoder（用双重交叉注意力把查询映射成 (cx, cy, w, h) 框坐标，时间范围仍由 LLM 文本生成）。配套合成数据集 Uni-STG（48 万条，覆盖 VTG / REC / STVG 三任务）做多任务指令微调；骨干为 SigLIP 视觉编码器 + Qwen2 LLM，在 LLaVA-Video 上 16×A800 训练约 24 小时。

为什么重要

不理解 SpaceVLLM，下面这些事容易误判：

为什么 grounded-videollm-2024、vtg-llm-2024、TRACE 很强却仍做不了 STVG——它们主攻时间轴或单图框选；STVG 要每帧对齐框与时间管，视觉 token 海量，一次性让 LLM 吐出所有坐标极易错位
为什么 vidstg-2020 定义的 STVG 长期只有 DETR 类专用模型——缺大规模时空联合标注；SpaceVLLM 用 Grounding-DINO + Qwen2.5-72B 流水线合成 11 万 STVG 样本，把任务拉回 MLLM 统一范式
为什么 GroundingGPT 的「先 VTG 再逐帧 REC」两阶段在 HCSTVG 上 m_vIoU 只有 16.7——静态图定位缺帧间动态；SpaceVLLM 的交错查询 token 显式建模相邻帧运动
为什么 2025 年 Video LLM 评测开始同时报 Charades-STA、RefCOCO、HCSTVG、VidSTG——证明「会答题」≠「会画时空管」；SpaceVLLM 在 11 个基准上联合 SOTA，把 VTG + REC + STVG 收成一条产品线

核心要点

Spatio-Temporal Aware Query（交错时空查询）：均匀采样 $N_v$ 帧，为每帧配一个特殊 token <r_i>，与帧视觉 embedding 按行交错拼接后送入 LLM；末尾再加 <r_{N_v}> 专供单图 REC。查询位置自带时间序，又夹在相邻帧之间吸收动态空间变化。类比：每两页漫画之间插一张「动作过渡便签」，便签既记住当前页画面，又记住翻页时的运动。
Query-Guided Space Decoder（查询引导空间解码器）：LLM 最后一层输出中，取出每帧查询 embedding，经双重交叉注意力——先让视觉 token 与 caption 文本对齐，再让查询 attend 增强后的视觉 token——最后过轻量 MLP 预测框坐标；不新增可训练注意力参数，复用 LLM 已学好的表征。时间起止仍由 LLM 自回归生成文本时间戳，再换算帧区间只对 $[t_s, t_e]$ 内帧算 $\mathcal{L}_{space}$。类比：导游先口头报「请到 12–18 秒那段」，副导播再按便签逐帧圈人。
Uni-STG 三任务 48 万条统一训练：VTG 聚合 DiDeMo、Charades-STA、TACoS（5 万）；REC 用 RefCOCO 系列（32 万）；STVG 11 万由合成流水线产出——Analyzer 用 Qwen2.5-72B 抽 caption 主体 → Annotator 用 Grounding-DINO 打框 → Refiner 收紧时间边界 → Filter 丢复杂场景与面积跳变帧（约滤掉 40%）。另混 VQA、对话、字幕共 20 万条保通用视频理解。类比：同一所驾校既教「看后视镜」（VTG）、「倒车入库」（REC）、「跟车并线」（STVG），结业考试分开考但共用方向盘技巧。
11 基准联合 SOTA：HCSTVG-v1 test m_tIoU 56.9 / m_vIoU 39.3（超 CG-STVG 与 TRACE-7B）；VidSTG 陈述句 m_vIoU 27.4、疑问句 25.4，接近 TubeDETR 等专用模型；Charades-STA R@1@IoU=0.5 63.6%（超 TRACE 1.9pt）；RefCOCO+ test-A 88.4%；MVBench / VideoMME / TempCompass / EgoSchema 相对 LLaVA-Video 基座仍持平或微涨——说明时空头没有牺牲通用理解。

实践案例

案例 1：交错查询 token 在输入序列中的排布

视频 64 帧，每帧 S 个视觉 token，指令为「定位描述中的主体」：

[帧₀: v₀,₁ … v₀,ₛ | <r₀> | 帧₁: v₁,₁ … v₁,ₛ | <r₁> | … | <r₆₃> | USER: 男人抱起婴儿的时间段与框 ]

LLM 文本输出示例：
  「The event occurs from 12.0s to 18.5s.」

再将 [12.0s, 18.5s] 映射到帧索引 [f_s, f_e]，
取出对应 <r_fs>…<r_fe> 的 last-layer embedding → Space Decoder → 每帧一个框

<r_i> 插在相邻帧视觉块之间，既看当前帧又感知帧间运动
时间用自然语言 + 显式秒数 prompt（如「64 帧均匀采自 20 秒片，各帧位于 0.00s, 0.28s, …」）强化时间感知
空间损失只在 GT 时间管内计算，避免全片乱框

案例 2：Uni-STG STVG 合成流水线（论文 Figure 3）

原始源：Charades-STA / TACoS / DiDeMo / InternVid 的 (视频, caption, 粗时段)

Step 1 Analyzer (Qwen2.5-72B)
  → 从 caption 抽可定位物体列表，优先主体

Step 2 Annotator (Grounding-DINO, conf ≥ 0.3)
  → 在粗时段内每帧打 open-set 框

Step 3 Refiner
  → 按框出现时刻收紧起止时间；丢弃 <2s 或 >120s 样本

Step 4 Filter
  → 丢 >3 框的复杂帧；相邻帧框面积不得差 2 倍以上

产出：~110K 高质量 STVG 管标注 + 指令模板

解决老 VTG 数据集「5 秒整数边界」与真实物体出入不对齐的问题
合成数据让 MLLM 见过「时间 + 每帧框」联合格式，零样本迁移到 vidstg-2020 官方测试集

案例 3：读 HCSTVG-v1 与 VidSTG 指标（论文 Table 2–4）

指标          含义
────────────────────────────────────────────────────────
m_tIoU        预测时间管与 GT 时间 IoU 均值（越高越准定位「何时」）
m_vIoU        预测框管与 GT 框管体积 IoU 均值（越高越准「在哪」）
vIoU@0.3/0.5  管 IoU 超阈值的比例（更严的 STVG 命中率）

SpaceVLLM-7B vs TRACE-7B（HCSTVG-v1）：
  m_tIoU  56.9 vs 39.2（+17.7）
  m_vIoU  39.3 vs —（TRACE 未报空间）

SpaceVLLM-7B vs CG-STVG（专用 DETR 类）：
  m_tIoU  56.9 vs 52.8；vIoU@0.5  36.9 vs 36.3（MLLM 追平专用 SOTA）

读法：STVG 必须分「时间」和「空间」两列看；只报 m_tIoU 会掩盖「时段对了但框飞了」

踩过的坑

把「LLM 一次吐出所有坐标」当 STVG 方案：论文消融去掉 Query 与 Space Decoder 后 m_vIoU 掉 11.6pt——海量视觉 token 与坐标难对齐，必须分「文本报时 + 查询导框」两阶段。
用两阶段 VTG→逐帧 REC 代替联合建模：GroundingGPT 在 VidSTG 陈述句 m_vIoU 仅 12.3；静态图定位缺帧间动态，时空管会断档。
忽略 Uni-STG 过滤率：合成流水线约去掉 40% 样本；复现时若跳过 Filter，噪声框会把 $\mathcal{L}_{space}$ 训崩。
在 STVG 榜只比 m_tIoU：TRACE、VTG 专用模型 temporal 分高但 spatial 弱；HCSTVG / VidSTG 必须同时报 m_vIoU 与 vIoU@0.5。

适用 vs 不适用场景

适用：

需要单一 MLLM 同时服务「跳时间段」「图里指物」「视频时空管」三种产品的团队
研究 VTG + REC 多任务是否互促（SpaceVLLM 在 Charades-STA 与 RefCOCO 双涨）
在 vidstg-2020、HCSTVG 上评测 Video LLM 的时空联合能力，而非只看 QA 准确率
作为 vtg-llm-2024 → grounded-videollm-2024 → SpaceVLLM 演进线的时空统一终点参考

不适用：

只要粗粒度「第几秒发生了什么」、不需要每帧框——vtg-llm-2024 或 TRACE 更轻
实时毫秒级多目标跟踪（SpaceVLLM 需 LLM 自回归 + 解码器，非流式检测器）
无 GPU 合成数据复现（Uni-STG STVG 依赖 Qwen2.5-72B + Grounding-DINO 流水线）
纯音频或纯文本时段检索（模型强依赖 SigLIP 视觉编码）

历史小故事（可跳过）

2020：vidstg-2020 提出 STVG 任务与 VidSTG 数据集，主流方法为两阶段 Faster R-CNN + 管匹配
2023–2024：vtg-llm-2024、grounded-videollm-2024、TRACE 等把 VTG 写进 Video LLM，REC 有 Groma、Shikra 等，但时空联合仍空白
2025-03：arXiv 2503.13983 发布 SpaceVLLM + Uni-STG；代码仓库 Jayce1kk/SpaceVLLM
同期：OmniSTVG 等多对象 STVG 工作出现，benchmark 竞争加剧
社区：基于 LLaVA-Video + Qwen2 的 7B 权重成为复现默认；LMMs-Eval 用于补全部分理解榜分数

学到什么

时间 grounding 与空间 grounding 不能简单串联——交错查询 token 让 MLLM 在统一上下文里同时看见「哪一帧」和「帧间怎么动」，比「先截段再当图片」稳得多
缺数据可以合成，但要重度过滤——Grounding-DINO 打框 + 面积/复杂度过滤，比直接信老 VTG 数据集的 5 秒边界更靠谱
解码器分工：LLM 擅长生成时间文本与语义，轻量 Space Decoder 擅长回归框——各用所长比强迫 LLM 吐几百个浮点坐标更稳
多任务联合训练不必然伤通用理解——混 VQA / 对话 / 字幕后 MVBench、EgoSchema 仍微涨，说明时空头是「加能力」而非「换脑子」
评测要 11 榜一起看——只在 Charades-STA 高分不代表会做 STVG；HCSTVG-v2、VidSTG 疑问句才是硬菜

关联

vidstg-2020 —— STVG 任务与 VidSTG 数据集的定义源头；SpaceVLLM 主榜之一
vtg-llm-2024 —— 绝对时间 token + VTG-IT 的 VTG 专模；SpaceVLLM 继承「时间文本输出」思路并扩展到空间管
grounded-videollm-2024 —— 双流 + 相对时间 token 的细粒度 VTG；与 SpaceVLLM 的「查询 + 空间解码器」形成对照
trace-2024 —— 因果事件链 VTG；HCSTVG 上 m_tIoU 被 SpaceVLLM 大幅超过
qvhighlights-2021 —— Moment retrieval + highlight 经典榜；SpaceVLLM 的 VTG 子能力可对接 MR 任务
llava-next —— LLaVA-Video 系多模态基座；SpaceVLLM 训练起点
video-understanding —— 专题枢纽；STVG 子路线以 vidstg → spacevllm 收束

反向链接

grounded-videollm-2024 —— Grounded-VideoLLM — 双流编码 + 时间 token，把「何时发生」写进 Video LLM
llava-next —— LLaVA-NeXT — 图像/视频/交织统一多模态主线仓库
omnistvg-2025 —— OmniSTVG — 按句子把视频里所有相关物体都框出来
qvhighlights-2021 —— QVHighlights — 用自然语言查询在视频里找精彩瞬间
trace-2024 —— TRACE — 用因果事件链同时输出时间、精彩度与描述
uvtg-mllm-2025 —— UniTime — 生成式 MLLM 做通用视频时序定位
vidstg-2020 —— VidSTG — 用自然语言在长视频里框出「谁在何时何地」
vtg-llm-2024 —— VTG-LLM — 绝对时间 token + VTG-IT-120K，让 Video LLM 精确定位时刻