跳转到内容

QVHighlights — 用自然语言查询在视频里找精彩瞬间

是什么

QVHighlights 是 UNC Chapel Hill 团队在 NeurIPS 2021 发布的查询驱动视频高光数据集:给你一段约 2.5 分钟的真实 YouTube 片段,再给你一句用户写的英文查询(比如「厨师怎么切洋葱」),系统要同时完成两件事——找出所有与查询相关的时段(moment retrieval),以及给每个 2 秒小片段打「有多精彩」的分数(highlight detection)

日常类比:整段 vlog 像一本 150 页的书,查询像书签上的标题。Moment retrieval 是标出「哪几页写了这件事」(可能分散在多处);Highlight detection 是在标出的页里再圈出「最值得截图发朋友圈」的段落。以前的数据集往往只标一页、或不看查询只标「全书高潮」——QVHighlights 把「按问题找片段」和「按问题评精彩度」绑在同一份标注里。

论文还提出基线模型 Moment-DETR:借鉴目标检测里的 DETR,把「找时段」当成集合预测——输入视频特征 + 查询文本,直接输出若干段起止时间和 saliency 分数,省掉传统方法里手工设计的候选框生成和非极大值抑制后处理。

为什么重要

不理解 QVHighlights,下面这些事容易误判:

  • 为什么 2021 年后 moment retrieval / VTG(Video Temporal Grounding)论文几乎必报 QVHighlights——它是首个大规模同时支持查询相关时段定位 + 查询相关高光打分的统一 benchmark
  • 为什么 Charades-STA 高分不等于「懂长 vlog」——Charades 平均 30 秒室内活动;QVHighlights 来自 5–30 分钟原片切出的 150 秒 lifestyle / news 视频,域和时长完全不同
  • 为什么 Moment-DETR 之后出现一串「×-DETR」后继(QD-DETR、UniVTG 等)——它把 DETR 的 set prediction 范式引进视频时段任务,成为 VTG 路线的结构模板
  • 为什么后来的 Video LLM 做「按问题跳转到某一刻」仍要回头看 QVHighlights——开放域对话模型测的是 QA;QVHighlights 测的是时间轴上的精确 grounding,指标是 R@1@IoU 和 mAP,不是生成流畅度

核心要点

  1. 双任务统一标注:每条样本 = 一个自由文本查询 + 一个或多个不连续相关时段(平均 1.8 段/查询)+ 每个 2 秒 clip 的五档 saliency(Very Good → Very Bad,3 人标注)。类比:不只告诉你「答案在书里哪一章」,还告诉你「这一章里哪几段写得最好」。

  2. 减轻「开头偏见」:DiDeMo、TVR 等老数据集的相关时段常堆在视频开头;QVHighlights 的时段中心在时间轴上近似均匀分布(中间略峰),更接近用户真实搜索「中间才出现的关键镜头」的场景。

  3. Moment-DETR 端到端:视频 clip 特征与查询 embedding 送入 Transformer encoder-decoder,decoder 输出固定数量 query slot,每个 slot 预测 (start, end) 和 saliency。训练用匈牙利匹配 + 边界回归损失;高光分支在 encoder 输出上加排序损失。类比:不像「先撒 100 个候选框再筛选」,而像「直接报出最多 N 个答案及其精彩分」。

  4. ASR 弱监督预训练:用视频自动字幕(ASR)做额外预训练,再微调 QVHighlights,Moment-DETR 显著超过手工 pipeline 强的基线——说明大量带时间戳的廉价文本对 query-video 对齐极有价值。

实践案例

案例 1:QVHighlights 标注长什么样

{
"qid": "8720",
"query": "A woman cooking in the kitchen",
"vid": "RoripwjYFp8_60.0_210.0",
"duration": 150,
"relevant_clip_ids": [12, 13, 14, 28, 29],
"relevant_windows": [[24.0, 30.0], [56.0, 60.0]],
"saliency_scores": {
"12": [4, 4, 3],
"13": [5, 4, 4],
"28": [2, 3, 2]
}
}
  • relevant_windows:与查询相关的时段(秒),可有多段
  • relevant_clip_ids:2 秒粒度的 clip 编号(150 秒视频 → 75 个 clip)
  • saliency_scores:三位标注者对每个 clip 的 1–5 分,用于 highlight mAP

案例 2:用官方仓库跑 Moment-DETR 评测

Terminal window
git clone https://github.com/jayleicn/moment_detr
cd moment_detr
# 下载预提取特征(HERO 或 CLIP)与标注,见 data/README.md
bash scripts/train.sh --config configs/qvhighlights_moment_detr.yml
# 在 val 上算 MR + HD;test 需提交 predictions 到评测服务器
python eval.py --split test --submit_path ./preds/test_preds.jsonl

论文主榜:Moment Retrieval 用 R@1, IoU=0.5/0.7;Highlight Detection 用 clip-level mAP(按 saliency 阈值聚合)。test 集标签不公开,防止刷榜。

案例 3:读分任务指标(论文 Table 5 思路)

Moment-DETR(+ ASR 预训练)在 QVHighlights val 上示意:
任务 指标 含义
──────────────────────────────────────────────────
Moment Retrieval R@1, IoU=0.5 预测的第一段与 GT 重叠 ≥0.5 的比例
Moment Retrieval R@1, IoU=0.7 更严的边界对齐
Highlight Det. HL-mAP 按 saliency 排序后的平均精度
读法:MR 看「找对时间段没有」;HD 看「在相关段里能否把更精彩的 clip 排到前面」
联合训练通常 MR、HD 互有裨益——论文 §5.2 消融显示同时优化 saliency 有助于 moment 定位

踩过的坑

  1. 把 10,000+ 理解成 1 万条查询:实际是 10,310 条查询、18,367 个时段、10,148 段视频;平均每条查询对应 1.8 个不连续时段,评估时要允许多 GT。

  2. 在 test 上本地算分:官方 test 标注不发布,只能向 QVHighlights 服务器提交;本地只有 train/val 可复现论文数字。

  3. 忽略 2 秒 clip 粒度:时段边界和 saliency 都按 2 秒离散;把特征抽成 1 秒或 5 秒而不对齐标注,IoU 和 mAP 会系统性偏差。

  4. 用 query-agnostic 高光数据集混训:YouTube Highlights、TVSum 等不随查询变;与 QVHighlights 的 query-dependent HD 目标不一致,直接混训可能拉低 MR。

适用 vs 不适用场景

适用

  • 训练或评测「用户问一句话 → 视频跳到相关片段」的 grounding 模型
  • 研究 moment retrieval 与 highlight detection 联合优化是否互促
  • 作为 VTG 路线(Moment-DETR → QD-DETR → UniVTG → VTimeLLM)的第一站 benchmark
  • 需要多时段、低时间偏见标注的学术对比(比 Charades-STA 更贴近长 vlog)

不适用

  • 测 Video LLM 开放域视频问答(用 videomme-2024、MSRVTT-QA 更合适)
  • 纯时序推理细粒度(用 tempcompass-2024
  • 秒级以下精确定位(2 秒 clip 是标注下限)
  • 非英文查询为主的产品(标注均为标准英文)

历史小故事(可跳过)

  • 2021-07:arXiv 2107.09609 上传;同期发布 QVHighlights 数据与 Moment-DETR 代码
  • 2021-12:NeurIPS 2021 接收;约 3 个月 AMT 标注、总成本约 1.6 万美元
  • 2022–2023:QD-DETR(CVPR 2023)等在 QVHighlights 上刷新 SOTA,强调 query-dependent 视频表征
  • 2023+:UniVTG、VTimeLLM、VTG-LLM 等把「时刻定位」接到大模型;QVHighlights 仍是 MR/HD 经典榜
  • 社区:HERO / CLIP 预提取特征成为复现默认;自提特征需对齐 2 秒 clip 协议

学到什么

  1. Grounding 和 QA 是两种能力——答对「发生了什么」不等于能在时间轴上标出 (24s, 30s);QVHighlights 把后者量死了
  2. 数据集设计会塑造模型——多时段 + 全 clip saliency 标注,逼模型做 set prediction 和排序,而不是单一 span 分类
  3. 弱监督字幕是便宜的大餐——ASR 预训练对 moment 任务增益巨大,长视频产品应重视时间对齐字幕资产
  4. 评测要分 MR 和 HD 报——合并成一个「准确率」会掩盖「找对段但排错精彩度」的失败模式
  5. VTG 是长视频理解的实用前站——先定位再摘要/问答,比整段塞进 LLM 更省算力;QVHighlights 是这条链路的标定基石

延伸阅读

关联

  • videomme-2024 —— 综合 Video LLM 评测;QVHighlights 专测时间 grounding,互补
  • clip —— 查询与 clip 对齐的经典双塔表征;Moment-DETR 特征管线常用
  • blip2-2023 —— 另一套图文对齐桥接范式;VTG 论文常作 query encoder 对照
  • internvideo2-2024 —— 更强视频 encoder 能否抬 QVHighlights 榜的上游问题
  • vid-llm-survey-2023 —— VTG / moment retrieval 在 Video LLM 综述中的位置
  • tempcompass-2024 —— 时序理解专测;与 QVHighlights 的「空间+时间定位」不同侧重
  • decord —— 自跑原始视频抽特征时的解码后端
  • lmms-eval —— 部分 VTG 任务与 Video LLM 统一评测入口
  • video-understanding —— 专题枢纽;VTG 子路线以 QVHighlights 为入口

反向链接

  • 2d-tan-2019 —— 2D-TAN — 用二维时间图做自然语言时刻检索
  • blip2-2023 —— BLIP-2 — 用 188M 小桥接器把冻结的视觉模型和大语言模型拼起来
  • clip —— CLIP — Contrastive Language-Image Pre-training
  • decord —— Decord — Video-LLM 数据管线的高效视频解码库
  • hawkeye-2024 —— HawkEye — 用递归缩窗把文本查询钉在长视频时间轴上
  • hour-llava-2025 —— Hour-LLaVA — 记忆增强,让 LLaVA 读懂一小时视频
  • internvideo2-2024 —— InternVideo2 — 三阶段渐进训练,把视频基础模型扩到 6B
  • lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
  • mlvtg-2025 —— MLVTG — MambaAligner + 冻结 LLM 提纯的多模态视频时序定位
  • omnistvg-2025 —— OmniSTVG — 按句子把视频里所有相关物体都框出来
  • spacevllm-2025 —— SpaceVLLM — 一个 MLLM 同时做时序定位、图像指代与时空管定位
  • ta-stvg-2025 —— TA-STVG — 解耦「找谁 / 何时 / 何地」的时空视频定位
  • tempcompass-2024 —— TempCompass — 专门拆穿 Video LLM 有没有真懂时间
  • timemarker-2024 —— TimeMarker — 时间分隔符 + 任意长度采帧的视频定位大模型
  • trace-2024 —— TRACE — 用因果事件链同时输出时间、精彩度与描述
  • univtg-2023 —— UniVTG — 把视频时刻定位、高光检测、摘要合成一套框架
  • uvtg-mllm-2025 —— UniTime — 生成式 MLLM 做通用视频时序定位
  • vid-llm-survey-2023 —— Vid-LLM Survey — 用大语言模型理解视频的全景地图
  • videomme-2024 —— Video-MME — 视频多模态大模型的「高考卷」
  • vidstg-2020 —— VidSTG — 用自然语言在长视频里框出「谁在何时何地」
  • vslnet-2020 —— VSLNet — 用 span-based QA 做自然语言视频定位
  • vtg-llm-2024 —— VTG-LLM — 绝对时间 token + VTG-IT-120K,让 Video LLM 精确定位时刻
  • vtimellm-2023 —— VTimeLLM — 让 Video LLM 学会标出事件起止时间