VideoAgent（Fan）— 双记忆 + 四工具，长视频逼近 Gemini

是什么

VideoAgent（Fan et al., ECCV 2024）是一个记忆增强的多模态 agent：把长视频理解拆给多个基础模型，由 LLM 当控制器，通过统一结构化记忆（时序事件描述 + 对象跟踪状态）跨轮保持上下文，零样本调用「视频片段定位」「对象记忆查询」等四个工具完成任务。

日常类比：查一整天的监控找丢失包裹。你不会靠脑子记每一帧—— 用笔记本记「14:03 红衣人进门」「14:07 包裹在桌上」，需要时再调录像定位到那些时间点。笔记本就是 VideoAgent 的记忆库。

为什么重要

不了解这篇 VideoAgent（Fan 版），下面这些事说不清：

为什么 Gemini 长上下文不是唯一解—— 结构化记忆可拆给专模，成本更可控
为什么长视频需要两种记忆—— 事件时间线回答「发生了什么」，对象状态回答「东西在哪」
为什么零样本工具调用能逼近 Gemini 1.5 Pro—— 专模做专事，LLM 只编排不硬吃像素
为什么 EgoSchema 能 +26%—— 自我中心视频对象多、时序长，记忆比单遍 caption 稳
为什么与 Wang 版 videoagent-longform-2024 同名—— 2024 年两条 agent 路线并行，slug 用 longform/memory 区分
为什么 NExT-QA 提升小于 EgoSchema—— 前者视频更短，记忆优势在分钟级以上更明显

核心要点

统一结构化记忆：一条时间轴存自然语言事件摘要；另一条存对象 ID、位置、状态变化。LLM 可 SQL 式查询「红色背包最后一次出现」。类比：案件白板上的时间线 + 物证登记表。
四工具零样本编排：视频片段定位、对象记忆查询、视觉描述生成、（可选）跟踪更新—— LLM 读任务决定调哪个，无需微调工具接口。类比：项目经理派活，不亲自画图写代码。
多模型协调而非端到端：各视觉基础模型保持预训练权重，LLM 利用其 zero-shot tool-use 能力串联。NExT-QA +6.6%、EgoSchema +26.0%，显著缩小开源与 Gemini 1.5 Pro 差距。
零样本的含义：不微调下游 QA 数据集，但工具本身（检测器、跟踪器、VLM）仍是预训练模型。提升来自「记忆怎么组织、何时调哪个工具」，而非新标注上的梯度更新。

实践案例

案例 1：NExT-QA 因果推理

问题: "女人放下杯子后去拿了什么？"

Step 1: 工具「片段定位」→ 找 "woman puts down cup" 附近片段
Step 2: 写入记忆 → Event: "14:22 女人放下杯子"
Step 3: 工具「对象查询」→ 跟踪「女人」状态变化
Step 4: LLM 读记忆 → 答 "手机"

逐部分解释：

因果链跨时间段，记忆避免重复看全片
对象跟踪补全「谁」的连续身份
工具输出错误会写入记忆—— 是主要失败模式

案例 2：记忆类型分工

记忆类型	存什么	回答什么类问题
时序事件	「14:05 开会开始」	When / 剧情顺序
对象状态	「Obj#3 杯子在桌上」	Where / 物品去向

缺一种记忆，对应问题类型准确率掉。

案例 3：vs Wang 版迭代检索

Wang 版：每轮 CLIP 搜新帧，state 是 caption 列表。 Fan 版：显式结构化记忆 + 跟踪，适合多对象、长时距问答。 traveler-2024 又引入 Planner/Replan，三条线可组合阅读。

案例 4：逼近 Gemini 1.5 Pro 的意义

Gemini 1.5 以百万 token 原生长上下文著称。Fan 版 VideoAgent 用「记忆+工具」在 EgoSchema 等集上大幅缩小差距，说明编排式记忆可在开源碎片模型上复现闭源长上下文的部分收益。对产品团队：不必等待单一超大 VLM，可用「LLM + 检测 + 跟踪 + 检索」拼装长视频方案。

踩过的坑

记忆污染：一次工具误判写入记忆，后续全链错误—— 需置信度过滤或人工审核。
跟踪在遮挡下断裂：对象 ID 丢失后「对象记忆查询」答非所问。
延迟与成本：多工具多轮调用，比单次 VLM 推理慢一个数量级。
与 longform 版混淆：读论文/笔记务必核对作者与 arXiv 号（2403.11481 vs 2403.10517）。
工具接口脆弱：底层检测/跟踪 API 版本升级可能导致记忆字段格式变化，编排层需做兼容。
记忆条目冲突：同一对象被两个跟踪 ID 记录时，LLM 查询返回矛盾状态。

适用 vs 不适用场景

适用：

长监控、体育、自我中心视频的多对象时序 QA
需要可查询记忆库（可解释「模型记得什么」）
有多个视觉 API、想用 LLM 编排的研究/产品原型
对标闭源长上下文模型（Gemini 1.5）的开源替代
安防复盘需要对象级时间线导出

不适用：

单对象短视频—— 记忆开销不值
端到端可微训练需求—— 工具链不可微
无跟踪/检测工具的低资源环境
实时系统—— 多工具延迟高
单跳事实问答（画面一眼可见）—— 记忆与工具链过重

历史小故事（可跳过）

2024-03：Wang 与 Fan 两篇 VideoAgent 相隔数日挂 arXiv，标志 agent 式长视频理解爆发。
2024-07：Fan 版 ECCV 接收，项目页 videoagent.github.io 开源。
2024-24：traveler-2024 等延续记忆/规划路线，形成 agent 谱系。
闭源对标：同期 Gemini 1.5 长上下文引发「是否还需要 agent」讨论，本文用数据说明记忆编排仍值得做。

学到什么

长视频 = 记忆问题 + 检索问题—— 显式记忆比隐式 context 更可控
事件与对象要分槽存储—— 一种记忆答不全所有问题类型
LLM 编排专模 > 强迫一个 VLM 吃全片
同名不同篇要靠 slug 区分—— 读文献时的元技能
工具失败要有降级—— 生产环境应缓存记忆写入前的人工抽检或二次 VLM 验证
ECCV 2024 接收—— 记忆 agent 路线获顶会认可，非纯工程 hack

关联

videoagent-longform-2024 —— 同名不同篇，迭代检索 vs 结构化记忆
traveler-2024 —— 模块化 agent，记忆 bank + Replan
egoschema-2023 —— EgoSchema 评测来源，长自我中心视频
long-video-retrieval-2023 —— 检索式理解前驱
worldsense-2025 —— 更长更难的综合视频 QA
qwen2-vl-2024 —— 可作工具链中的 VLM 后端
tempcompass-2024 —— 时序推理评测，检验记忆时间线是否准确
livevlm-2025 —— 实时流式 VLM，与离线记忆 agent 场景不同
internvideo2-5-2025 —— 端到端视频模型，与 agent 记忆路线对照
traveler-2024 —— 另一模块化 agent，记忆 bank 设计可对比
videollm-online-2024 —— 流式长视频，记忆 agent 需在线更新策略
grounded-videollm-2024 —— grounded 视频语言，对象记忆可与其定位结合

反向链接

egoschema-2023 —— EgoSchema — 三分钟第一视角长视频理解的诊断探针
grounded-videollm-2024 —— Grounded-VideoLLM — 双流编码 + 时间 token，把「何时发生」写进 Video LLM
internvideo2-5-2025 —— InternVideo2.5 — 长富上下文 + HiCo 层次压缩
livevlm-2025 —— LiveVLM — 免训练流式视觉 token 压缩
long-video-retrieval-2023 —— R-VLM — 长视频不靠均匀采帧，靠可学习检索选片段
qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE，工业级视频理解的里程碑
tempcompass-2024 —— TempCompass — 专门拆穿 Video LLM 有没有真懂时间
traveler-2024 —— TraveLER — 四段式多 Agent，帧级问答看懂长视频
videoagent-longform-2024 —— VideoAgent (Wang) — LLM Agent 迭代选帧理解长视频
videollm-online-2024 —— VideoLLM-online — 流式视频对话的 LIVE 框架
worldsense-2025 —— WorldSense — 真实世界同步音视频理解 benchmark