视频理解阅读站
专题一句话:教模型「看视频、答问题、跟时间轴对齐」——从 2023 对话式 Video-LLM 到 2025 长视频工业标杆。
候选池与维护清单:仓库research/video-understanding-roadmap.md
统计
| 维度 | 数量 |
|---|---|
| 已写论文 | 65 |
| 候选待写 | 0 |
| 关联项目 | 11 |
| 关联项目待写 | 0 |
专题导读
Video-LLM 把图像多模态(CLIP + LLaVA)延伸到时间维:帧采样、压缩、检索、时序探针评测。本专题覆盖四条主线:
- 对话式 Video-LLM — 指令微调 + 多轮 QA
- 长视频 — 检索选片段 vs 扩 context
- 时空定位(VTG) — 用自然语言在视频里「找片段」
- 编码器基座 — 冻结 video encoder 服务下游
前置枢纽(图像 / MLLM 地基,建议先扫 MLLM 阅读站):
- clip · blip2-2023 · llava · flamingo-2022
阅读路线图
阶段 0 · 地图(入门,~1 篇)
| 顺序 | 论文 | 难度 | 读完你会 |
|---|---|---|---|
| 1 | vid-llm-survey-2023 | 初级 | 拿到 Video-LLM 术语表与范式分类 |
阶段 1 · 对话范式史(入门→中级,~5 篇)
| 顺序 | 论文 | 难度 | 读完你会 |
|---|---|---|---|
| 2 | videochat-2023 | 初级 | 理解「视频 + 指令微调 + 多轮对话」开山 |
| 3 | video-chatgpt-2023 | 初级 | 对照 GPT-4 路线的早期尝试 |
| 4 | video-llama-2023 | 中级 | 音视频同时进 LLM |
| 5 | video-llava-2024 | 中级 | LLaVA 路线延伸到视频(ABP) |
| 6 | chat-univi-2023 | 中级 | 统一图像-视频对话框架 |
阶段 2 · 工业对标(中级→高级,~4 篇)
| 顺序 | 论文 | 难度 | 读完你会 |
|---|---|---|---|
| 7 | qwen2-vl-2024 | 中级 | 动态分辨率 + M-RoPE 工业标杆 |
| 8 | internvideo2-2024 | 高级 | 视频基础模型 2.0 栈 |
| 9 | llava-onevision-2024 | 中级 | 单图 / 多图 / 视频统一 |
| 10 | videochat-flash-2025 | 高级 | 分层压缩长视频 |
阶段 3 · 长视频 + 评测(中级,~10 篇)
| 顺序 | 论文 | 难度 | 读完你会 |
|---|---|---|---|
| 11 | long-video-retrieval-2023 | 高级 | 可学习检索替代均匀采帧 |
| 12 | llama-vid-2023 | 中级 | 长视频 token 压缩 |
| 13 | longva-2024 | 中级 | 扩 context 开源路线 |
| 14 | longvila-2024 | 高级 | VILA 长视频训练管线 |
| 15 | hour-llava-2025 | 高级 | 一小时级记忆增强 |
| 16 | videomme-2024 | 中级 | VideoMME 综合大考 |
| 17 | mvbench-2023 | 中级 | 多任务视频 benchmark |
| 18 | mlvu-2024 | 中级 | 多时长分层评测 |
| 19 | tempcompass-2024 | 中级 | 四类时序能力探针 |
| 20 | egoschema-2023 | 中级 | 第一视角长视频诊断 |
阶段 4 · VTG / 时空定位(高级,~6 篇)
| 顺序 | 论文 | 难度 | 读完你会 |
|---|---|---|---|
| 21 | qvhighlights-2021 | 中级 | 精彩集锦检索经典 |
| 22 | vtimellm-2023 | 高级 | 时间戳语言 grounding |
| 23 | timechat-2024 | 高级 | 时间感知对话 |
| 24 | grounded-videollm-2024 | 高级 | 带框视频 QA |
| 25 | univtg-2023 | 高级 | 统一 VTG 框架 |
| 26 | 2d-tan-2019 | 高级 | 经典 moment retrieval |
阶段 5 · 编码器 + 扩展评测(高级,~10 篇)
| 顺序 | 论文 | 难度 | 读完你会 |
|---|---|---|---|
| 27 | videoprism-2024 | 高级 | 冻结 video encoder 基座 |
| 28 | llava-video-2024 | 中级 | LLaVA-NeXT 视频主线 |
| 29 | sharegpt4video-2024 | 中级 | 视频 caption 数据配方 |
| 30 | moviechat-2024 | 高级 | 电影级长叙事 |
| 31 | streamingbench-2024 | 高级 | 流式在线评测 |
| 32 | lvbench-2024 | 高级 | 超长视频 benchmark |
| 33 | longvideobench-2024 | 高级 | 长视频综合考 |
| 34 | vsi-bench-2024 | 高级 | 空间智能探针 |
| 35 | st-llm-2024 | 高级 | 时空 LLM |
| 36 | vslnet-2020 | 高级 | 视频 span 定位经典 |
阶段 6 · 本批新增(8 篇)
| 顺序 | 论文 | 难度 | 读完你会 |
|---|---|---|---|
| 37 | videollama2-2024 | 中级 | STC 连接器 + 音视频双分支 |
| 38 | videollama3-2025 | 中级 | 动态分辨率 + token 压缩 |
| 39 | internvideo2-5-2025 | 高级 | 长富上下文 + HiCo 压缩 |
| 40 | videollm-online-2024 | 高级 | 流式 Video-LLM 开山 |
| 41 | flash-vstream-2024 | 高级 | STAR 双进程在线记忆 |
| 42 | livevlm-2025 | 高级 | 免训练流式 KV 管理 |
| 43 | worldsense-2025 | 中级 | 同步音视频全模态 benchmark |
| 44 | vinoground-2024 | 中级 | 时序反事实短视频探针 |
关联项目工具
| 项目 | 角色 | 状态 |
|---|---|---|
| decord | 训练 / 评测侧高效视频解码 | ✅ 已写 |
| torchcodec | PyTorch 官方视频解码;lmms-eval v0.7+ 推荐路径 | ✅ 已写 |
| lmms-eval | VideoMME / MVBench / TempCompass 统一跑分 | ✅ 已写 |
| internvideo | 上海 AI Lab 视频基础模型全栈 | ✅ 已写 |
| videollama2 | Video-LLaMA 可运行实现 | ✅ 已写 |
| llava-next | LLaVA 主线:图像 / 视频 / OneVision | ✅ 已写 |
| videochat2 | VideoChat2 三阶段 + MVBench 官方代码 | ✅ 已写 |
| ffmpeg | 转码 / 抽帧上游(decord 底层依赖;media 侧链) | ✅ 已写 |
| opencv | 传统 CV 解码 fallback(media 侧链) | ✅ 已写 |
| vllm-multimodal | Qwen2-VL 等视频 serving | ✅ 已写 |
| transformers-video | HF 视频 Processor 与解码后端选型 | ✅ 已写 |
media 侧链(projects-media.md):
| 项目 | 角色 | 状态 |
|---|---|---|
| librosa | 音频特征 / MIR 分析(Video-LLM 音轨侧) | ✅ 已写 |
| yt-dlp | 评测集 / demo 视频抓取上游 | ✅ 已写 |
| pillow | 帧预处理 / 缩略图 IO | ✅ 已写 |
训练底座:pytorch · 阅读站入口:专题总览 · 视频理解 hub
待写候选(精选)
以下 slug 尚未发布为正式笔记,仅作排期参考。完整列表见
research/papers-video-understanding.md。
| 优先级 | 待写 slug | 子类 |
|---|---|---|
| P0 | qwen2-5-vl-2025 | Qwen 视频工业续作 |
| P1 | videoagent-longform-2024 | 长视频 Agent |
| P1 | cover-2025 | 反事实视频推理 |
里程碑
| 里程碑 | 目标 | 状态 |
|---|---|---|
| M1 范式史可读 | 阶段 0–1 全部在站 | ✅ |
| M2 评测闭环 | 阶段 3 前 5 篇 + lmms-eval 跑分指引 | ✅ |
| M3 长视频纵深 | 已写 54 / 候选 65(83%) | 🔄 |
| M4 VTG 专精 | 阶段 4 六篇可读 | ✅ |
| M5 候选清零 | 68 篇候选全部落站 | ⏳ |
两条技术路线
学术 / 对话路线 工业 / 编码器路线videochat → video-llama videoprism ↔ internvideo2 ↓ video-llava ↓ qwen2-vl(统一多模态顶峰)长视频:long-video-retrieval(检索) vs qwen2-vl(扩 context)评测:tempcompass(时序)+ lmms-eval(跑分入口)