跳转到内容

视频理解阅读站

专题一句话:教模型「看视频、答问题、跟时间轴对齐」——从 2023 对话式 Video-LLM 到 2025 长视频工业标杆。
候选池与维护清单:仓库 research/video-understanding-roadmap.md

统计

维度数量
已写论文65
候选待写0
关联项目11
关联项目待写0

← 返回专题阅读站 · 论文全景 · 视频理解


专题导读

Video-LLM 把图像多模态(CLIP + LLaVA)延伸到时间维:帧采样、压缩、检索、时序探针评测。本专题覆盖四条主线:

  1. 对话式 Video-LLM — 指令微调 + 多轮 QA
  2. 长视频 — 检索选片段 vs 扩 context
  3. 时空定位(VTG) — 用自然语言在视频里「找片段」
  4. 编码器基座 — 冻结 video encoder 服务下游

前置枢纽(图像 / MLLM 地基,建议先扫 MLLM 阅读站):


阅读路线图

阶段 0 · 地图(入门,~1 篇)

顺序论文难度读完你会
1vid-llm-survey-2023初级拿到 Video-LLM 术语表与范式分类

阶段 1 · 对话范式史(入门→中级,~5 篇)

顺序论文难度读完你会
2videochat-2023初级理解「视频 + 指令微调 + 多轮对话」开山
3video-chatgpt-2023初级对照 GPT-4 路线的早期尝试
4video-llama-2023中级音视频同时进 LLM
5video-llava-2024中级LLaVA 路线延伸到视频(ABP)
6chat-univi-2023中级统一图像-视频对话框架

阶段 2 · 工业对标(中级→高级,~4 篇)

顺序论文难度读完你会
7qwen2-vl-2024中级动态分辨率 + M-RoPE 工业标杆
8internvideo2-2024高级视频基础模型 2.0 栈
9llava-onevision-2024中级单图 / 多图 / 视频统一
10videochat-flash-2025高级分层压缩长视频

阶段 3 · 长视频 + 评测(中级,~10 篇)

顺序论文难度读完你会
11long-video-retrieval-2023高级可学习检索替代均匀采帧
12llama-vid-2023中级长视频 token 压缩
13longva-2024中级扩 context 开源路线
14longvila-2024高级VILA 长视频训练管线
15hour-llava-2025高级一小时级记忆增强
16videomme-2024中级VideoMME 综合大考
17mvbench-2023中级多任务视频 benchmark
18mlvu-2024中级多时长分层评测
19tempcompass-2024中级四类时序能力探针
20egoschema-2023中级第一视角长视频诊断

阶段 4 · VTG / 时空定位(高级,~6 篇)

顺序论文难度读完你会
21qvhighlights-2021中级精彩集锦检索经典
22vtimellm-2023高级时间戳语言 grounding
23timechat-2024高级时间感知对话
24grounded-videollm-2024高级带框视频 QA
25univtg-2023高级统一 VTG 框架
262d-tan-2019高级经典 moment retrieval

阶段 5 · 编码器 + 扩展评测(高级,~10 篇)

顺序论文难度读完你会
27videoprism-2024高级冻结 video encoder 基座
28llava-video-2024中级LLaVA-NeXT 视频主线
29sharegpt4video-2024中级视频 caption 数据配方
30moviechat-2024高级电影级长叙事
31streamingbench-2024高级流式在线评测
32lvbench-2024高级超长视频 benchmark
33longvideobench-2024高级长视频综合考
34vsi-bench-2024高级空间智能探针
35st-llm-2024高级时空 LLM
36vslnet-2020高级视频 span 定位经典

阶段 6 · 本批新增(8 篇)

顺序论文难度读完你会
37videollama2-2024中级STC 连接器 + 音视频双分支
38videollama3-2025中级动态分辨率 + token 压缩
39internvideo2-5-2025高级长富上下文 + HiCo 压缩
40videollm-online-2024高级流式 Video-LLM 开山
41flash-vstream-2024高级STAR 双进程在线记忆
42livevlm-2025高级免训练流式 KV 管理
43worldsense-2025中级同步音视频全模态 benchmark
44vinoground-2024中级时序反事实短视频探针

关联项目工具

项目角色状态
decord训练 / 评测侧高效视频解码✅ 已写
torchcodecPyTorch 官方视频解码;lmms-eval v0.7+ 推荐路径✅ 已写
lmms-evalVideoMME / MVBench / TempCompass 统一跑分✅ 已写
internvideo上海 AI Lab 视频基础模型全栈✅ 已写
videollama2Video-LLaMA 可运行实现✅ 已写
llava-nextLLaVA 主线:图像 / 视频 / OneVision✅ 已写
videochat2VideoChat2 三阶段 + MVBench 官方代码✅ 已写
ffmpeg转码 / 抽帧上游(decord 底层依赖;media 侧链)✅ 已写
opencv传统 CV 解码 fallback(media 侧链)✅ 已写
vllm-multimodalQwen2-VL 等视频 serving✅ 已写
transformers-videoHF 视频 Processor 与解码后端选型✅ 已写

media 侧链projects-media.md):

项目角色状态
librosa音频特征 / MIR 分析(Video-LLM 音轨侧)✅ 已写
yt-dlp评测集 / demo 视频抓取上游✅ 已写
pillow帧预处理 / 缩略图 IO✅ 已写

训练底座:pytorch · 阅读站入口:专题总览 · 视频理解 hub


待写候选(精选)

以下 slug 尚未发布为正式笔记,仅作排期参考。完整列表见 research/papers-video-understanding.md

优先级待写 slug子类
P0qwen2-5-vl-2025Qwen 视频工业续作
P1videoagent-longform-2024长视频 Agent
P1cover-2025反事实视频推理

里程碑

里程碑目标状态
M1 范式史可读阶段 0–1 全部在站
M2 评测闭环阶段 3 前 5 篇 + lmms-eval 跑分指引
M3 长视频纵深已写 54 / 候选 65(83%)🔄
M4 VTG 专精阶段 4 六篇可读
M5 候选清零68 篇候选全部落站

两条技术路线

学术 / 对话路线 工业 / 编码器路线
videochat → video-llama videoprism ↔ internvideo2
↓ video-llava ↓
qwen2-vl(统一多模态顶峰)
长视频:long-video-retrieval(检索) vs qwen2-vl(扩 context)
评测:tempcompass(时序)+ lmms-eval(跑分入口)