2D-TAN — 用二维时间图做自然语言时刻检索

是什么

2D-TAN（2D Temporal Adjacent Network）是 2019 年提出、2020 年 AAAI 发表的经典自然语言视频时刻检索架构：给你一段未剪辑的长视频和一句描述（比如「那人又吹了一次萨克斯」），模型要在时间轴上标出最匹配的起止区间。

日常类比：老方法像在一根时间尺上每隔几厘米贴一张便签，逐张问「是不是你要的片段」——彼此孤立，看不出「前面吹过、后面又吹一次」这种前后关系。2D-TAN 把候选片段画成一张二维地图：横轴是开始时间、纵轴是结束时间，每个格子代表「从 A 秒到 B 秒」的一段；相邻格子共享边界，模型用 2D 卷积同时看「这段和前后段像不像、语义差在哪」。

论文核心贡献是**单阶段（single-shot）**框架：文本编码 + 二维时间特征图 + 时序邻接卷积，直接输出整张匹配分数图，无需滑动窗口候选 + NMS 后处理。在 Charades-STA、ActivityNet Captions、TACoS 三个 benchmark 上曾达到 SOTA。

为什么重要

不理解 2D-TAN，下面这些事容易误判：

为什么 moment retrieval 领域从「一维滑动窗口」转向「二维时间图 + 卷积」——它首次系统地把起止时间联合建模成一张 map，而不是分别预测 start/end
为什么后来的 QD-DETR、Moment-DETR 仍要回头看 2D-TAN——DETR 路线解决的是 set prediction；2D-TAN 解决的是相邻时刻的上下文与消歧，两条线互补
为什么 Charades-STA 上「视觉很像的相邻片段」容易定位错——一维方法逐段打分；2D-TAN 用邻接卷积区分「同画面、不同语义」的重叠候选
为什么 qvhighlights-2021 等后续 benchmark 的 VTG 论文常引用 2D-TAN——它是语言查询时刻定位在深度学习时代的结构模板之一，理解现代 pipeline 的前置知识

核心要点

二维时间图（2D Temporal Map）：把视频均匀采成 N 个 clip，每个候选时刻 (a, b) 对应图上坐标 (a, b)，其中 a ≤ b（下三角无效）。横纵轴分别是起、止 clip 索引。类比：不是在一维时间轴上撒点，而是在「开始×结束」平面上铺格子，天然覆盖不同长度的片段。
稀疏采样策略：N ≤ 16 时枚举全部候选；N 更大时按公式 G(a,b) 稀疏采样——短片段密采、长片段疏采，在保留多尺度覆盖的同时把计算量压下来。类比：短视频每帧都看，长视频先粗后细，避免 O(N²) 爆炸。
时序邻接网络（Temporal Adjacent Network）：文本经 3 层 LSTM + GloVe 得句向量；视频 clip 经 CNN 特征再 max-pool 成 moment 特征，堆成 N×N×d 的 2D 特征图；与文本 Hadamard 融合后，叠 L 层 2D 卷积（只在有效上三角区域计算）。类比：卷积核在「相邻时间段格子」上滑动，像读地图时同时看本格和邻居。
Scaled IoU 软标签训练：每个候选与 GT 算 IoU，再按阈值 t_min、t_max 缩放到 [0,1] 作为监督，而非硬 0/1。类比：边界差一点的片段也给部分分数，训练更平滑，回归边界更准。

实践案例

案例 1：二维时间图长什么样

视频采 8 个 clip（索引 0–7），有效候选在上三角：

结束 clip →  0  1  2  3  4  5  6  7
开始 clip ↓
    0        ✓  ✓  ✓  ✓  ✓  ✓  ✓  ✓
    1        ×  ✓  ✓  ✓  ✓  ✓  ✓  ✓
    2        ×  ×  ✓  ✓  ✓  ✓  ✓  ✓
    ...
    7        ×  ×  ×  ×  ×  ×  ×  ✓

格子 (2,5) = 从 clip2 到 clip5 的时刻；卷积在此格与邻居上聚合上下文

下三角（a > b）无效，实现中填零
稀疏采样后图上只有部分蓝点参与最终分数收集

案例 2：用官方仓库跑 Charades-STA

git clone https://github.com/microsoft/2D-TAN
cd 2D-TAN

# 按 README 下载 Charades-STA 特征（C3D / I3D）与标注
python train.py --dataset charades --cfg configs/charades.yaml

# 评测：R@1 IoU=0.5 / 0.7，mIoU
python test.py --dataset charades --checkpoint checkpoints/best.pth

论文在 Charades-STA 上 R@1@0.5 约 39%+（随特征 backbone 而异）；复现时务必对齐 clip 采样数 N 与特征提取协议。

案例 3：读一维方法 vs 2D-TAN 的差异

任务              一维滑动窗口              2D-TAN
────────────────────────────────────────────────────────────
候选生成          固定窗长、逐步滑动        上三角格子 + 稀疏采样
上下文            单段或前后各几 clip       2D 卷积看邻接格子
起止建模          常分开预测或独立打分      同一 map 上 (start,end) 联合
后处理            常需 NMS 去重叠           single-shot，取得分最高格

读法：若 val 上 mIoU 低但 R@0.3 高，可能是边界回归弱；查 scaled IoU 阈值与 N 是否对齐

踩过的坑

把 N×N 全矩阵都参与 loss：只有 G(a,b)=1 的有效候选和 GT 算监督；无效下三角与 padding 不参与卷积累加。
特征与 clip 数不对齐：论文默认固定间隔采样 clip；自提 I3D 若帧率或 stride 不同，map 尺寸变，指标不可比。
忽略「again」类指代查询：Query C 类句子依赖前文时刻；一维单段模型易错，2D-TAN 靠邻接上下文缓解——但若 N 过小仍会丢长程依赖。
在 ActivityNet Captions 上只报 R@1：该数据集多 GT 片段，需同时看 R@1、R@5 与 mIoU；单指标会掩盖漏检次要片段。

适用 vs 不适用场景

适用：

学习 moment localization / VTG 的经典结构：二维时间图 + 邻接卷积
在 Charades-STA、ActivityNet Captions、TACoS 上复现或作强基线对照
研究「相邻视觉相似、语义不同」片段的消歧（论文 Figure 1 Query B 场景）
作为理解 qvhighlights-2021、Moment-DETR 等后继工作的前置阅读

不适用：

查询驱动高光检测（QVHighlights 的 saliency 分支；2D-TAN 只做 moment 定位）
长 vlog 开放域对话式 Video LLM（用 video-chatgpt-2023、qwen2-vl-2024 路线）
需要毫秒级精度的动作定位（clip 粒度由采样 N 决定，通常秒级）
无文本查询的 temporal action detection（任务定义不同，类标是固定动作表）

历史小故事（可跳过）

2019-12：arXiv 1912.03590 上传；提出 2D temporal map 与 2D-TAN 单阶段框架
2020-02：AAAI 2020 接收；代码发布于 GitHub microsoft/2D-TAN
2020–2021：VSLNet、CPNet 等一维改进与 2D 路线并行；Charades-STA 榜单交替刷新
2021：qvhighlights-2021 发布，任务扩展到 MR + HD；2D-TAN 仍是 MR 经典参照架构
2022+：DETR 系（Moment-DETR、QD-DETR）成为新主流；2D 卷积思想仍出现在多尺度时间建模变体中

学到什么

时刻检索本质是 (start, end) 二维搜索——一维滑动窗是近似；2D map 把问题变成「在三角网格上找最高分格」
邻接关系是消歧信号——重叠片段共享视觉但语义不同，必须联合建模上下文，不能独立打分
稀疏采样是工程关键——理论 O(N²) 格子，实践靠 G(a,b) 控制候选数，否则长视频训不动
软 IoU 标签比硬分类更稳——边界回归任务里，给「接近 GT」的候选 partial credit，比非 0 即 1 更利于 mIoU
VTG 演进有多条主线——2D-TAN 代表 conv-on-map；后继 DETR 代表 set prediction；读 qvhighlights-2021 时应知二者差异

关联

qvhighlights-2021 —— 后继统一 MR+HD benchmark；2D-TAN 是纯 moment 定位经典前站
vid-llm-survey-2023 —— 综述 VTG 任务与模型谱系，含 2D-TAN 一代方法
video-chatgpt-2023 —— Video LLM 对话式理解；与精确时间 grounding 互补
qwen2-vl-2024 —— 长视频多模态大模型；内部 grounding 模块可对照 2D-TAN 思路
tempcompass-2024 —— 时序推理专测；2D-TAN 侧重定位而非纯时序逻辑
decord —— 自跑原始视频抽 clip 特征时的解码工具
video-understanding —— 专题枢纽；moment retrieval 子路线以 2D-TAN 为结构入门
lmms-eval —— 部分 VTG 任务纳入统一评测时可与 Charades-STA 数字交叉对照

反向链接

clip —— CLIP — Contrastive Language-Image Pre-training
decord —— Decord — Video-LLM 数据管线的高效视频解码库
lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
qvhighlights-2021 —— QVHighlights — 用自然语言查询在视频里找精彩瞬间
qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE，工业级视频理解的里程碑
tempcompass-2024 —— TempCompass — 专门拆穿 Video LLM 有没有真懂时间
vid-llm-survey-2023 —— Vid-LLM Survey — 用大语言模型理解视频的全景地图
video-chatgpt-2023 —— Video-ChatGPT — 让大语言模型看懂视频并聊起来
vidstg-2020 —— VidSTG — 用自然语言在长视频里框出「谁在何时何地」