ShareGPT4Video — 用 GPT-4V 级密集字幕，喂饱视频理解与生成

是什么

ShareGPT4Video 是上海 AI Lab 等团队 2024 年 6 月发布（NeurIPS 2024 Datasets and Benchmarks Track）的视频字幕数据与模型系列：用 GPT-4V 写出「像解说员一样细」的视频描述，再蒸馏成可大规模标注的 ShareCaptioner-Video，最后训出 ShareGPT4Video-8B 视频大语言模型。

日常类比：以前的视频训练数据像电影海报加一句「男子在厨房做饭」——信息太少，模型只能猜大概。ShareGPT4Video 像专业剪辑笔记：「0:00 切黄瓜，旁边有彩色小番茄和白醋瓶；接着切红洋葱、拍蒜；镜头拉远后他在大玻璃碗里调酱汁并用力搅拌……」——谁、在哪、怎么动、镜头怎么变都写清楚。

核心创新是 DiffSW（Differential Sliding-Window，差分滑动窗口）：不把几十帧一次性塞给 GPT-4V（容易时序混乱），而是逐对关键帧只描述「相对上一帧变了什么」，再让 GPT-4 汇总成整段字幕。由此得到 4 万条 GPT-4V 精标 + 480 万条 ShareCaptioner-Video 扩标，总时长约 300 小时 + 3000 小时。

为什么重要

不理解 ShareGPT4Video，下面这些事容易误判：

为什么 video-chatgpt-2023 / video-llava-2024 换一批 caption 就能涨分——论文用 2.8 万条 ShareGPT4Video 字幕替换 VideoChatGPT-100K 里等量短描述，VideoLLaVA-7B 在 TempCompass 从 50.6 涨到 52.7，说明数据质量 > 架构微调
为什么「多帧拼大图」给 GPT-4V 标视频会翻车——帧数一多细节丢失、时序关系搞反；DiffSW 把任务拆成相邻帧差分，专门治 inter-frame temporal change
为什么 2024 年 Text-to-Video 开始强调「长 prompt 可控」——4.8M 密集字幕训 DiT 后，10 秒片能跟复杂镜头运动指令（无人机绕教堂飞等），短字幕 baseline 跟不住
为什么 tempcompass-2024 成为 Video LLM 必争场——ShareGPT4Video-8B 在该 benchmark 61.5% 平均准确率，比当时最强的 VideoLLaVA-7B（49.9%）高 11.6 个点，密集时序描述直接受益

核心要点

DiffSW 差分标注流水线：语义去重筛视频 → 语义感知关键帧抽取（约每 2 秒一帧）→ 第一帧用 GPT-4V 写静态详述 → 滑动窗口 (k_{n-1}, k_n) 只输出「镜头/物体/人物动作变化」→ GPT-4 汇总全片。类比：不是让翻译一次读完整本小说，而是逐页批注「这一页比上一页多了什么」，最后装订成目录。
ShareGPT4Video 数据集组成：40K 高质量对来自 Panda-70M、Pexels、Ego4D、BDD100K 等多元源（烹饪、自驾、第一视角、风景）；字幕含世界知识、物体属性、运镜与事件先后顺序。480 万条由 ShareCaptioner-Video 在 MixKit / Pexels / Pixabay 美学视频上扩标，且差分设计支持任意子片段复用差分 caption 再摘要（不必重跑 GPT-4V）。
ShareGPT4Video-8B 模型配方：以 LLaVA-NeXT-8B 为底座，训练时均匀采 16 帧 排成 4×4 网格（IG-VLM 思路）；数据 = 153K 视频 VQA + 28K ShareGPT4Video 密集 caption（181K 总量）。8×A100 全模型微调约 5 小时 即在 VideoBench 41.2、MVBench 51.2、TempCompass 61.5 拿到当时 LVLM 前列。

实践案例

案例 1：DiffSW 单步在标什么

视频：40 分钟厨房做沙拉（关键帧 k1…k18，每步约 2 分钟）

Step 1 — GPT-4V 详述 k1：
  「纹身前臂的人在设备齐全的厨房切黄瓜，旁有小番茄与白醋瓶……」

Step 2 — 差分 (k1 → k2)：
  输入：k1 图 + k1 字幕 + k2 图
  输出：「开始切红洋葱；黄瓜片仍在砧板上未动……」

Step 3 — 差分 (k2 → k3)：
  「转向拍蒜；此前切好的洋葱仍在……」

…… 全部差分完成后 — GPT-4 汇总：
  一篇带时间推进的完整长 caption（物体持续/消失、镜头推拉都有记录）

案例 2：只换 caption，架构不动也能涨分

实验设置（论文 Table 1）：
  基座训练数据 = LLaVA-mix665K 图像 + VideoChatGPT-100K 视频
  唯一改动：把其中 28K 短 caption 换成 ShareGPT4Video 密集 caption

结果（三 benchmark 平均）：
  VideoLLaVA-7B        42.7  →  +Ours  43.8  (+1.1)
  LLaMA-VID-7B         42.0  →  +Ours  44.0  (+2.0)
  LLaMA-VID-13B        47.7  →  +Ours  50.0  (+2.3)

TempCompass 涨幅最大 —— 证明「时序字幕」对时序 benchmark 最对症

案例 3：用官方仓库加载 ShareCaptioner-Video（概念）

# 官方: https://github.com/ShareGPT4Omni/ShareGPT4Video
# Hugging Face: ShareCaptioner-Video（质量模式 vs 快速模式 HD-25 / HD-55）

from sharecaptioner import ShareCaptionerVideo  # 概念化 import

captioner = ShareCaptionerVideo.from_pretrained("ShareCaptioner-Video")
video_path = "cooking_clip.mp4"

# 质量模式：差分滑动窗口，接近 GPT-4V 细节
long_caption = captioner.caption(video_path, mode="quality")

# 若已有整片差分 caption，可只摘要子片段 10.5s–14s（论文 Figure 1c）
clip_caption = captioner.summarize_clip(
    differential_captions=stored_diffs,
    start_sec=10.5,
    end_sec=14.0,
)
# 输出仍保留「先收番茄 → 镜头拉远 → 男子摇晃玻璃碗」等时序链

踩过的坑

短 caption + VQA 混训可能反而掉分：消融显示在已有 153K VQA 上再加短字幕对齐，部分 benchmark 低于纯 VQA baseline——劣质对齐数据会污染模态对齐，只有密集、时序正确的 caption 才稳赚。
DiffSW 超参是经验值：关键帧约每 2 秒、滑动窗口长度 2 帧，针对多数 <2 分钟片调优；极速运动或毫秒级剪辑可能欠采样，差分描述会跳过中间态。
GPT-4V 管线不吃音频：对话场景里「说了什么」无法进字幕；论文承认这是当前 pipeline 硬限制，需等支持音频的多模态 API 才能补全。
480 万条美学片偏生成友好、理解偏窄：MixKit/Pexels 风景与静美人像多，复杂新闻/体育过渡少——拿它训 LVLM 在 Panda-70M 类复杂片上涨，在纯美学分布上别指望全覆盖。

适用 vs 不适用场景

适用：

需要密集视频-text 对训 LVLM 或做 caption 监督（替换 VideoChatGPT-100K 式短描述）
Text-to-Video 需要长 prompt 可控（运镜、物体属性、事件顺序）
研究「数据质量 vs 架构」——ShareGPT4Video 是「同骨架换字幕」的对照实验标准件
要为 tempcompass-2024 / MVBench 等时序敏感 benchmark 做数据增强

不适用：

预算极低、只能承受 YouTube 原始短标题——DiffSW + GPT-4V 40K 成本高，需直接用 ShareCaptioner-Video 蒸馏版
任务只需全局一句话摘要（检索粗标签）——密集字幕训练可能过拟合冗长输出
强依赖音画同步理解（访谈、歌词 MV）——当前字幕几乎无音频维度
实时在线 caption——ShareCaptioner-Video 高质量模式仍是离线 GPU 批处理

历史小故事（可跳过）

2023-11：同团队 ShareGPT4V（图像版）已证明 GPT-4V 详细 caption 对 LMM 的价值；视频版把「差分标注」从图像扩展到时间轴
2024-06-06：论文上传 arXiv:2406.04325，同步发布项目页与数据集计划
2024-09：NeurIPS 2024 Datasets and Benchmarks Track 收录；ShareGPT4Video-8B、ShareCaptioner-Video 权重陆续开源
2024 同期：video-llava-2024、LLaMA-VID 等架构战白热化；ShareGPT4Video 用数据侧证明「换字幕」就能掀桌 TempCompass

学到什么

视频 caption 的三难：帧间时序变化、帧内细节、任意长度可扩展—— naive 多帧输入同时踩三个坑，DiffSW 用「恒定 2 帧差分」化解
对齐数据要「详细且时序正确」：短字幕甚至有害；密集字幕 + 解锁 ViT 联合训练（Table 2）才能把 TempCompass 推到 61.5%
差分 caption 是可复用资产：子片段摘要不必重标全片，这对长视频数据工程极省钱
理解与生成共用一条数据链：同一套 ShareCaptioner-Video 字幕既喂 ShareGPT4Video-8B，也喂 DiT T2VM——视频-text 对齐是跨任务基础设施

关联

video-chatgpt-2023 —— VideoChatGPT-100K 短描述是论文默认视频指令数据来源；28K 置换实验的靶子
video-llava-2024 —— Table 1 主要受益架构之一；ABP 统一表征 + 密集字幕是互补路线
tempcompass-2024 —— 专测速度/方向/属性变化；证明密集时序 caption 的价值
llava-next —— ShareGPT4Video-8B 的图像多模态底座与训练代码栈来源
llava —— LLaVA 指令微调范式延续到视频侧数据配方
vid-llm-survey-2023 —— 视频 LLM 全景；本文填补「高质量 caption 数据」空白
lmms-eval —— 复现 VideoBench / MVBench 等指标的推荐框架
qwen2-vl-2024 —— 同期工业 LVLM；可与 ShareGPT4Video-8B 在时序 benchmark 对照
grounded-videollm-2024 —— 另一路强化时序（离散时间 token）；数据 vs 架构两条线
mlvu-2024 —— 长视频九类任务考；检验密集字幕是否泛化到小时级
video-understanding —— 专题枢纽
decord —— 视频解码常出现在 LVLM 数据管线中

反向链接

decord —— Decord — Video-LLM 数据管线的高效视频解码库
grounded-videollm-2024 —— Grounded-VideoLLM — 双流编码 + 时间 token，把「何时发生」写进 Video LLM
llava —— LLaVA — 开源多模态对话模型
llava-next —— LLaVA-NeXT — 图像/视频/交织统一多模态主线仓库
lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
mlvu-2024 —— MLVU — 九类任务、多时长分层的长视频理解大考
qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE，工业级视频理解的里程碑
streamingbench-2024 —— StreamingBench — 流式视频理解的 18 任务在线大考
tempcompass-2024 —— TempCompass — 专门拆穿 Video LLM 有没有真懂时间
vid-llm-survey-2023 —— Vid-LLM Survey — 用大语言模型理解视频的全景地图
video-chatgpt-2023 —— Video-ChatGPT — 让大语言模型看懂视频并聊起来
video-llava-2024 —— Video-LLaVA — 投影之前先对齐，图像和视频共用一个 LLM