VideoAgent(Fan)— 双记忆 + 四工具,长视频逼近 Gemini
是什么
VideoAgent(Fan et al., ECCV 2024)是一个记忆增强的多模态 agent:把长视频理解拆给多个基础模型,由 LLM 当控制器,通过统一结构化记忆(时序事件描述 + 对象跟踪状态)跨轮保持上下文,零样本调用「视频片段定位」「对象记忆查询」等四个工具完成任务。
日常类比:查一整天的监控找丢失包裹。你不会靠脑子记每一帧—— 用笔记本记「14:03 红衣人进门」「14:07 包裹在桌上」,需要时再调录像定位到那些时间点。笔记本就是 VideoAgent 的记忆库。
为什么重要
不了解这篇 VideoAgent(Fan 版),下面这些事说不清:
- 为什么 Gemini 长上下文不是唯一解—— 结构化记忆可拆给专模,成本更可控
- 为什么长视频需要两种记忆—— 事件时间线回答「发生了什么」,对象状态回答「东西在哪」
- 为什么零样本工具调用能逼近 Gemini 1.5 Pro—— 专模做专事,LLM 只编排不硬吃像素
- 为什么 EgoSchema 能 +26%—— 自我中心视频对象多、时序长,记忆比单遍 caption 稳
- 为什么与 Wang 版 videoagent-longform-2024 同名—— 2024 年两条 agent 路线并行,slug 用 longform/memory 区分
- 为什么 NExT-QA 提升小于 EgoSchema—— 前者视频更短,记忆优势在分钟级以上更明显
核心要点
-
统一结构化记忆:一条时间轴存自然语言事件摘要;另一条存对象 ID、位置、状态变化。LLM 可 SQL 式查询「红色背包最后一次出现」。类比:案件白板上的时间线 + 物证登记表。
-
四工具零样本编排:视频片段定位、对象记忆查询、视觉描述生成、(可选)跟踪更新—— LLM 读任务决定调哪个,无需微调工具接口。类比:项目经理派活,不亲自画图写代码。
-
多模型协调而非端到端:各视觉基础模型保持预训练权重,LLM 利用其 zero-shot tool-use 能力串联。NExT-QA +6.6%、EgoSchema +26.0%,显著缩小开源与 Gemini 1.5 Pro 差距。
-
零样本的含义:不微调下游 QA 数据集,但工具本身(检测器、跟踪器、VLM)仍是预训练模型。提升来自「记忆怎么组织、何时调哪个工具」,而非新标注上的梯度更新。
实践案例
案例 1:NExT-QA 因果推理
问题: "女人放下杯子后去拿了什么?"
Step 1: 工具「片段定位」→ 找 "woman puts down cup" 附近片段Step 2: 写入记忆 → Event: "14:22 女人放下杯子"Step 3: 工具「对象查询」→ 跟踪「女人」状态变化Step 4: LLM 读记忆 → 答 "手机"逐部分解释:
- 因果链跨时间段,记忆避免重复看全片
- 对象跟踪补全「谁」的连续身份
- 工具输出错误会写入记忆—— 是主要失败模式
案例 2:记忆类型分工
| 记忆类型 | 存什么 | 回答什么类问题 |
|---|---|---|
| 时序事件 | 「14:05 开会开始」 | When / 剧情顺序 |
| 对象状态 | 「Obj#3 杯子在桌上」 | Where / 物品去向 |
缺一种记忆,对应问题类型准确率掉。
案例 3:vs Wang 版迭代检索
Wang 版:每轮 CLIP 搜新帧,state 是 caption 列表。 Fan 版:显式结构化记忆 + 跟踪,适合多对象、长时距问答。 traveler-2024 又引入 Planner/Replan,三条线可组合阅读。
案例 4:逼近 Gemini 1.5 Pro 的意义
Gemini 1.5 以百万 token 原生长上下文著称。Fan 版 VideoAgent 用「记忆+工具」在 EgoSchema 等集上大幅缩小差距,说明编排式记忆可在开源碎片模型上复现闭源长上下文的部分收益。对产品团队:不必等待单一超大 VLM,可用「LLM + 检测 + 跟踪 + 检索」拼装长视频方案。
踩过的坑
-
记忆污染:一次工具误判写入记忆,后续全链错误—— 需置信度过滤或人工审核。
-
跟踪在遮挡下断裂:对象 ID 丢失后「对象记忆查询」答非所问。
-
延迟与成本:多工具多轮调用,比单次 VLM 推理慢一个数量级。
-
与 longform 版混淆:读论文/笔记务必核对作者与 arXiv 号(2403.11481 vs 2403.10517)。
-
工具接口脆弱:底层检测/跟踪 API 版本升级可能导致记忆字段格式变化,编排层需做兼容。
-
记忆条目冲突:同一对象被两个跟踪 ID 记录时,LLM 查询返回矛盾状态。
适用 vs 不适用场景
适用:
- 长监控、体育、自我中心视频的多对象时序 QA
- 需要可查询记忆库(可解释「模型记得什么」)
- 有多个视觉 API、想用 LLM 编排的研究/产品原型
- 对标闭源长上下文模型(Gemini 1.5)的开源替代
- 安防复盘需要对象级时间线导出
不适用:
- 单对象短视频—— 记忆开销不值
- 端到端可微训练需求—— 工具链不可微
- 无跟踪/检测工具的低资源环境
- 实时系统—— 多工具延迟高
- 单跳事实问答(画面一眼可见)—— 记忆与工具链过重
历史小故事(可跳过)
- 2024-03:Wang 与 Fan 两篇 VideoAgent 相隔数日挂 arXiv,标志 agent 式长视频理解爆发。
- 2024-07:Fan 版 ECCV 接收,项目页 videoagent.github.io 开源。
- 2024-24:traveler-2024 等延续记忆/规划路线,形成 agent 谱系。
- 闭源对标:同期 Gemini 1.5 长上下文引发「是否还需要 agent」讨论,本文用数据说明记忆编排仍值得做。
学到什么
- 长视频 = 记忆问题 + 检索问题—— 显式记忆比隐式 context 更可控
- 事件与对象要分槽存储—— 一种记忆答不全所有问题类型
- LLM 编排专模 > 强迫一个 VLM 吃全片
- 同名不同篇要靠 slug 区分—— 读文献时的元技能
- 工具失败要有降级—— 生产环境应缓存记忆写入前的人工抽检或二次 VLM 验证
- ECCV 2024 接收—— 记忆 agent 路线获顶会认可,非纯工程 hack
延伸阅读
- 论文 PDF:arXiv 2403.11481
- ECCV 2024 演讲:记忆增强 agent 与工具学习是会议热点方向
- 项目页:https://videoagent.github.io/
- 工具学习综述:理解 LLM 零样本调用视觉 API 的能力边界
- 并列:videoagent-longform-2024 —— 迭代 CLIP 检索路线
- Benchmark:egoschema-2023、worldsense-2025
- 项目 demo:videoagent.github.io 可看记忆查询交互样例
关联
- videoagent-longform-2024 —— 同名不同篇,迭代检索 vs 结构化记忆
- traveler-2024 —— 模块化 agent,记忆 bank + Replan
- egoschema-2023 —— EgoSchema 评测来源,长自我中心视频
- long-video-retrieval-2023 —— 检索式理解前驱
- worldsense-2025 —— 更长更难的综合视频 QA
- qwen2-vl-2024 —— 可作工具链中的 VLM 后端
- tempcompass-2024 —— 时序推理评测,检验记忆时间线是否准确
- livevlm-2025 —— 实时流式 VLM,与离线记忆 agent 场景不同
- internvideo2-5-2025 —— 端到端视频模型,与 agent 记忆路线对照
- traveler-2024 —— 另一模块化 agent,记忆 bank 设计可对比
- videollm-online-2024 —— 流式长视频,记忆 agent 需在线更新策略
- grounded-videollm-2024 —— grounded 视频语言,对象记忆可与其定位结合
反向链接
- egoschema-2023 —— EgoSchema — 三分钟第一视角长视频理解的诊断探针
- grounded-videollm-2024 —— Grounded-VideoLLM — 双流编码 + 时间 token,把「何时发生」写进 Video LLM
- internvideo2-5-2025 —— InternVideo2.5 — 长富上下文 + HiCo 层次压缩
- livevlm-2025 —— LiveVLM — 免训练流式视觉 token 压缩
- long-video-retrieval-2023 —— R-VLM — 长视频不靠均匀采帧,靠可学习检索选片段
- qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE,工业级视频理解的里程碑
- tempcompass-2024 —— TempCompass — 专门拆穿 Video LLM 有没有真懂时间
- traveler-2024 —— TraveLER — 四段式多 Agent,帧级问答看懂长视频
- videoagent-longform-2024 —— VideoAgent (Wang) — LLM Agent 迭代选帧理解长视频
- videollm-online-2024 —— VideoLLM-online — 流式视频对话的 LIVE 框架
- worldsense-2025 —— WorldSense — 真实世界同步音视频理解 benchmark