跳转到内容

视频理解专题(旧入口)

专题范围:对话式 Video-LLM、长视频与评测、视频基础编码器,以及对应的工程工具链。 详细写作路线图与候选队列在仓库 research/video-understanding-roadmap.md(站外维护,不纳入 build)。

快速入口

类型数量索引
论文8论文全景 · 视频理解
项目5项目全景 · 视频理解

推荐阅读顺序

适合第一次系统啃 Video-LLM:先地图,再范式史,最后长视频与工业对标。

  1. vid-llm-survey-2023 —— 术语表与范式分类(必读地图)
  2. videochat-2023 —— 对话式 Video-LLM 开山
  3. video-llama-2023 —— 音视频联合理解
  4. video-llava-2024 —— LLaVA 路线延伸到视频(ABP)
  5. qwen2-vl-2024 —— 工业级动态分辨率 + M-RoPE
  6. long-video-retrieval-2023 —— 长视频:检索选片段 vs 均匀采帧
  7. tempcompass-2024 —— 时序理解探针 benchmark
  8. videoprism-2024 —— 冻结视频 encoder 基座路线

前置枢纽(图像 / 多模态地基,建议先扫一眼):

  • clip —— 90% Video-LLM 的视觉 backbone 来源
  • blip2-2023 —— Q-Former 两阶段范式
  • llava —— 图像侧指令微调;Video-LLaVA 直接前身
  • flamingo-2022 —— 冻结 LLM + 视觉 resampler 工业先驱

8 篇论文

论文一句话
vid-llm-survey-2023Video-LLM 全景地图与范式分类
videochat-2023视频 + 指令微调 + 多轮对话第一次合体
video-llama-2023视觉与音频同时进 LLM
video-llava-2024投影前先对齐,图像视频共用 LLM
qwen2-vl-2024任意分辨率 + 20 分钟长视频工业标杆
long-video-retrieval-2023可学习检索替代均匀采帧
tempcompass-2024四类时序能力探针评测
videoprism-2024两阶段预训练,冻结即 SOTA encoder

5 个项目(工程对照)

项目角色
decord训练 / 评测侧高效视频解码(按帧 seek)
lmms-evalVideoMME / MVBench / TempCompass 等统一跑分
internvideo上海 AI Lab 视频基础模型全栈
videollama2Video-LLaMA 系列可运行实现(含音视频)
llava-nextLLaVA 主线:图像 / 视频 / OneVision 统一仓库

训练底座:pytorch(Video-LLM 的 nn.Module 与训练循环均在此之上)。

两条技术路线对照

学术 / 对话路线 工业 / 编码器路线
videochat → video-llama videoprism ↔ internvideo
↓ video-llava ↓
qwen2-vl(统一多模态顶峰)
长视频:long-video-retrieval(检索) vs qwen2-vl(扩 context)
评测:tempcompass(时序)+ lmms-eval(跑分入口)

与全景索引的关系

  • 论文子类「视频理解」在 papers-atlas 机器学习主题下,当前 8 篇均已发布。
  • 项目子类「视频理解」在 projects-atlas 机器学习主题下,当前 5 个均已发布。
  • 候选队列中尚未写成正式笔记的 slug 不会在本页挂假链接;新篇发布后 atlas 会在 prebuild 时自动收录。