ShareGPT4Video — 用 GPT-4V 级密集字幕,喂饱视频理解与生成
是什么
ShareGPT4Video 是上海 AI Lab 等团队 2024 年 6 月发布(NeurIPS 2024 Datasets and Benchmarks Track)的视频字幕数据与模型系列:用 GPT-4V 写出「像解说员一样细」的视频描述,再蒸馏成可大规模标注的 ShareCaptioner-Video,最后训出 ShareGPT4Video-8B 视频大语言模型。
日常类比:以前的视频训练数据像电影海报加一句「男子在厨房做饭」——信息太少,模型只能猜大概。ShareGPT4Video 像专业剪辑笔记:「0:00 切黄瓜,旁边有彩色小番茄和白醋瓶;接着切红洋葱、拍蒜;镜头拉远后他在大玻璃碗里调酱汁并用力搅拌……」——谁、在哪、怎么动、镜头怎么变都写清楚。
核心创新是 DiffSW(Differential Sliding-Window,差分滑动窗口):不把几十帧一次性塞给 GPT-4V(容易时序混乱),而是逐对关键帧只描述「相对上一帧变了什么」,再让 GPT-4 汇总成整段字幕。由此得到 4 万条 GPT-4V 精标 + 480 万条 ShareCaptioner-Video 扩标,总时长约 300 小时 + 3000 小时。
为什么重要
不理解 ShareGPT4Video,下面这些事容易误判:
- 为什么 video-chatgpt-2023 / video-llava-2024 换一批 caption 就能涨分——论文用 2.8 万条 ShareGPT4Video 字幕替换 VideoChatGPT-100K 里等量短描述,VideoLLaVA-7B 在 TempCompass 从 50.6 涨到 52.7,说明数据质量 > 架构微调
- 为什么「多帧拼大图」给 GPT-4V 标视频会翻车——帧数一多细节丢失、时序关系搞反;DiffSW 把任务拆成相邻帧差分,专门治 inter-frame temporal change
- 为什么 2024 年 Text-to-Video 开始强调「长 prompt 可控」——4.8M 密集字幕训 DiT 后,10 秒片能跟复杂镜头运动指令(无人机绕教堂飞等),短字幕 baseline 跟不住
- 为什么 tempcompass-2024 成为 Video LLM 必争场——ShareGPT4Video-8B 在该 benchmark 61.5% 平均准确率,比当时最强的 VideoLLaVA-7B(49.9%)高 11.6 个点,密集时序描述直接受益
核心要点
-
DiffSW 差分标注流水线:语义去重筛视频 → 语义感知关键帧抽取(约每 2 秒一帧)→ 第一帧用 GPT-4V 写静态详述 → 滑动窗口 (k_{n-1}, k_n) 只输出「镜头/物体/人物动作变化」→ GPT-4 汇总全片。类比:不是让翻译一次读完整本小说,而是逐页批注「这一页比上一页多了什么」,最后装订成目录。
-
ShareGPT4Video 数据集组成:40K 高质量对来自 Panda-70M、Pexels、Ego4D、BDD100K 等多元源(烹饪、自驾、第一视角、风景);字幕含世界知识、物体属性、运镜与事件先后顺序。480 万条由 ShareCaptioner-Video 在 MixKit / Pexels / Pixabay 美学视频上扩标,且差分设计支持任意子片段复用差分 caption 再摘要(不必重跑 GPT-4V)。
-
ShareGPT4Video-8B 模型配方:以 LLaVA-NeXT-8B 为底座,训练时均匀采 16 帧 排成 4×4 网格(IG-VLM 思路);数据 = 153K 视频 VQA + 28K ShareGPT4Video 密集 caption(181K 总量)。8×A100 全模型微调约 5 小时 即在 VideoBench 41.2、MVBench 51.2、TempCompass 61.5 拿到当时 LVLM 前列。
实践案例
案例 1:DiffSW 单步在标什么
视频:40 分钟厨房做沙拉(关键帧 k1…k18,每步约 2 分钟)
Step 1 — GPT-4V 详述 k1: 「纹身前臂的人在设备齐全的厨房切黄瓜,旁有小番茄与白醋瓶……」
Step 2 — 差分 (k1 → k2): 输入:k1 图 + k1 字幕 + k2 图 输出:「开始切红洋葱;黄瓜片仍在砧板上未动……」
Step 3 — 差分 (k2 → k3): 「转向拍蒜;此前切好的洋葱仍在……」
…… 全部差分完成后 — GPT-4 汇总: 一篇带时间推进的完整长 caption(物体持续/消失、镜头推拉都有记录)案例 2:只换 caption,架构不动也能涨分
实验设置(论文 Table 1): 基座训练数据 = LLaVA-mix665K 图像 + VideoChatGPT-100K 视频 唯一改动:把其中 28K 短 caption 换成 ShareGPT4Video 密集 caption
结果(三 benchmark 平均): VideoLLaVA-7B 42.7 → +Ours 43.8 (+1.1) LLaMA-VID-7B 42.0 → +Ours 44.0 (+2.0) LLaMA-VID-13B 47.7 → +Ours 50.0 (+2.3)
TempCompass 涨幅最大 —— 证明「时序字幕」对时序 benchmark 最对症案例 3:用官方仓库加载 ShareCaptioner-Video(概念)
# 官方: https://github.com/ShareGPT4Omni/ShareGPT4Video# Hugging Face: ShareCaptioner-Video(质量模式 vs 快速模式 HD-25 / HD-55)
from sharecaptioner import ShareCaptionerVideo # 概念化 import
captioner = ShareCaptionerVideo.from_pretrained("ShareCaptioner-Video")video_path = "cooking_clip.mp4"
# 质量模式:差分滑动窗口,接近 GPT-4V 细节long_caption = captioner.caption(video_path, mode="quality")
# 若已有整片差分 caption,可只摘要子片段 10.5s–14s(论文 Figure 1c)clip_caption = captioner.summarize_clip( differential_captions=stored_diffs, start_sec=10.5, end_sec=14.0,)# 输出仍保留「先收番茄 → 镜头拉远 → 男子摇晃玻璃碗」等时序链踩过的坑
-
短 caption + VQA 混训可能反而掉分:消融显示在已有 153K VQA 上再加短字幕对齐,部分 benchmark 低于纯 VQA baseline——劣质对齐数据会污染模态对齐,只有密集、时序正确的 caption 才稳赚。
-
DiffSW 超参是经验值:关键帧约每 2 秒、滑动窗口长度 2 帧,针对多数 <2 分钟片调优;极速运动或毫秒级剪辑可能欠采样,差分描述会跳过中间态。
-
GPT-4V 管线不吃音频:对话场景里「说了什么」无法进字幕;论文承认这是当前 pipeline 硬限制,需等支持音频的多模态 API 才能补全。
-
480 万条美学片偏生成友好、理解偏窄:MixKit/Pexels 风景与静美人像多,复杂新闻/体育过渡少——拿它训 LVLM 在 Panda-70M 类复杂片上涨,在纯美学分布上别指望全覆盖。
适用 vs 不适用场景
适用:
- 需要密集视频-text 对训 LVLM 或做 caption 监督(替换 VideoChatGPT-100K 式短描述)
- Text-to-Video 需要长 prompt 可控(运镜、物体属性、事件顺序)
- 研究「数据质量 vs 架构」——ShareGPT4Video 是「同骨架换字幕」的对照实验标准件
- 要为 tempcompass-2024 / MVBench 等时序敏感 benchmark 做数据增强
不适用:
- 预算极低、只能承受 YouTube 原始短标题——DiffSW + GPT-4V 40K 成本高,需直接用 ShareCaptioner-Video 蒸馏版
- 任务只需全局一句话摘要(检索粗标签)——密集字幕训练可能过拟合冗长输出
- 强依赖音画同步理解(访谈、歌词 MV)——当前字幕几乎无音频维度
- 实时在线 caption——ShareCaptioner-Video 高质量模式仍是离线 GPU 批处理
历史小故事(可跳过)
- 2023-11:同团队 ShareGPT4V(图像版)已证明 GPT-4V 详细 caption 对 LMM 的价值;视频版把「差分标注」从图像扩展到时间轴
- 2024-06-06:论文上传 arXiv:2406.04325,同步发布项目页与数据集计划
- 2024-09:NeurIPS 2024 Datasets and Benchmarks Track 收录;ShareGPT4Video-8B、ShareCaptioner-Video 权重陆续开源
- 2024 同期:video-llava-2024、LLaMA-VID 等架构战白热化;ShareGPT4Video 用数据侧证明「换字幕」就能掀桌 TempCompass
学到什么
- 视频 caption 的三难:帧间时序变化、帧内细节、任意长度可扩展—— naive 多帧输入同时踩三个坑,DiffSW 用「恒定 2 帧差分」化解
- 对齐数据要「详细且时序正确」:短字幕甚至有害;密集字幕 + 解锁 ViT 联合训练(Table 2)才能把 TempCompass 推到 61.5%
- 差分 caption 是可复用资产:子片段摘要不必重标全片,这对长视频数据工程极省钱
- 理解与生成共用一条数据链:同一套 ShareCaptioner-Video 字幕既喂 ShareGPT4Video-8B,也喂 DiT T2VM——视频-text 对齐是跨任务基础设施
延伸阅读
- 论文 PDF:arXiv 2406.04325
- 项目页:sharegpt4video.github.io
- 官方代码:ShareGPT4Omni/ShareGPT4Video
- 权重:ShareGPT4Video-8B / ShareCaptioner-Video
- video-chatgpt-2023 —— 被替换的 100K 短 caption 管线;ShareGPT4Video 的直接对照基线
- tempcompass-2024 —— ShareGPT4Video-8B 涨幅最大的评测场
关联
- video-chatgpt-2023 —— VideoChatGPT-100K 短描述是论文默认视频指令数据来源;28K 置换实验的靶子
- video-llava-2024 —— Table 1 主要受益架构之一;ABP 统一表征 + 密集字幕是互补路线
- tempcompass-2024 —— 专测速度/方向/属性变化;证明密集时序 caption 的价值
- llava-next —— ShareGPT4Video-8B 的图像多模态底座与训练代码栈来源
- llava —— LLaVA 指令微调范式延续到视频侧数据配方
- vid-llm-survey-2023 —— 视频 LLM 全景;本文填补「高质量 caption 数据」空白
- lmms-eval —— 复现 VideoBench / MVBench 等指标的推荐框架
- qwen2-vl-2024 —— 同期工业 LVLM;可与 ShareGPT4Video-8B 在时序 benchmark 对照
- grounded-videollm-2024 —— 另一路强化时序(离散时间 token);数据 vs 架构两条线
- mlvu-2024 —— 长视频九类任务考;检验密集字幕是否泛化到小时级
- video-understanding —— 专题枢纽
- decord —— 视频解码常出现在 LVLM 数据管线中
反向链接
- decord —— Decord — Video-LLM 数据管线的高效视频解码库
- grounded-videollm-2024 —— Grounded-VideoLLM — 双流编码 + 时间 token,把「何时发生」写进 Video LLM
- llava —— LLaVA — 开源多模态对话模型
- llava-next —— LLaVA-NeXT — 图像/视频/交织统一多模态主线仓库
- lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
- mlvu-2024 —— MLVU — 九类任务、多时长分层的长视频理解大考
- qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE,工业级视频理解的里程碑
- streamingbench-2024 —— StreamingBench — 流式视频理解的 18 任务在线大考
- tempcompass-2024 —— TempCompass — 专门拆穿 Video LLM 有没有真懂时间
- vid-llm-survey-2023 —— Vid-LLM Survey — 用大语言模型理解视频的全景地图
- video-chatgpt-2023 —— Video-ChatGPT — 让大语言模型看懂视频并聊起来
- video-llava-2024 —— Video-LLaVA — 投影之前先对齐,图像和视频共用一个 LLM