跳转到内容

VideoAgent(Fan)— 双记忆 + 四工具,长视频逼近 Gemini

是什么

VideoAgent(Fan et al., ECCV 2024)是一个记忆增强的多模态 agent:把长视频理解拆给多个基础模型,由 LLM 当控制器,通过统一结构化记忆(时序事件描述 + 对象跟踪状态)跨轮保持上下文,零样本调用「视频片段定位」「对象记忆查询」等四个工具完成任务。

日常类比:查一整天的监控找丢失包裹。你不会靠脑子记每一帧—— 用笔记本记「14:03 红衣人进门」「14:07 包裹在桌上」,需要时再调录像定位到那些时间点。笔记本就是 VideoAgent 的记忆库。

为什么重要

不了解这篇 VideoAgent(Fan 版),下面这些事说不清:

  • 为什么 Gemini 长上下文不是唯一解—— 结构化记忆可拆给专模,成本更可控
  • 为什么长视频需要两种记忆—— 事件时间线回答「发生了什么」,对象状态回答「东西在哪」
  • 为什么零样本工具调用能逼近 Gemini 1.5 Pro—— 专模做专事,LLM 只编排不硬吃像素
  • 为什么 EgoSchema 能 +26%—— 自我中心视频对象多、时序长,记忆比单遍 caption 稳
  • 为什么与 Wang 版 videoagent-longform-2024 同名—— 2024 年两条 agent 路线并行,slug 用 longform/memory 区分
  • 为什么 NExT-QA 提升小于 EgoSchema—— 前者视频更短,记忆优势在分钟级以上更明显

核心要点

  1. 统一结构化记忆:一条时间轴存自然语言事件摘要;另一条存对象 ID、位置、状态变化。LLM 可 SQL 式查询「红色背包最后一次出现」。类比:案件白板上的时间线 + 物证登记表。

  2. 四工具零样本编排:视频片段定位、对象记忆查询、视觉描述生成、(可选)跟踪更新—— LLM 读任务决定调哪个,无需微调工具接口。类比:项目经理派活,不亲自画图写代码。

  3. 多模型协调而非端到端:各视觉基础模型保持预训练权重,LLM 利用其 zero-shot tool-use 能力串联。NExT-QA +6.6%、EgoSchema +26.0%,显著缩小开源与 Gemini 1.5 Pro 差距。

  4. 零样本的含义:不微调下游 QA 数据集,但工具本身(检测器、跟踪器、VLM)仍是预训练模型。提升来自「记忆怎么组织、何时调哪个工具」,而非新标注上的梯度更新。

实践案例

案例 1:NExT-QA 因果推理

问题: "女人放下杯子后去拿了什么?"
Step 1: 工具「片段定位」→ 找 "woman puts down cup" 附近片段
Step 2: 写入记忆 → Event: "14:22 女人放下杯子"
Step 3: 工具「对象查询」→ 跟踪「女人」状态变化
Step 4: LLM 读记忆 → 答 "手机"

逐部分解释

  • 因果链跨时间段,记忆避免重复看全片
  • 对象跟踪补全「谁」的连续身份
  • 工具输出错误会写入记忆—— 是主要失败模式

案例 2:记忆类型分工

记忆类型存什么回答什么类问题
时序事件「14:05 开会开始」When / 剧情顺序
对象状态「Obj#3 杯子在桌上」Where / 物品去向

缺一种记忆,对应问题类型准确率掉。

案例 3:vs Wang 版迭代检索

Wang 版:每轮 CLIP 搜新帧,state 是 caption 列表。 Fan 版:显式结构化记忆 + 跟踪,适合多对象、长时距问答。 traveler-2024 又引入 Planner/Replan,三条线可组合阅读。

案例 4:逼近 Gemini 1.5 Pro 的意义

Gemini 1.5 以百万 token 原生长上下文著称。Fan 版 VideoAgent 用「记忆+工具」在 EgoSchema 等集上大幅缩小差距,说明编排式记忆可在开源碎片模型上复现闭源长上下文的部分收益。对产品团队:不必等待单一超大 VLM,可用「LLM + 检测 + 跟踪 + 检索」拼装长视频方案。

踩过的坑

  1. 记忆污染:一次工具误判写入记忆,后续全链错误—— 需置信度过滤或人工审核。

  2. 跟踪在遮挡下断裂:对象 ID 丢失后「对象记忆查询」答非所问。

  3. 延迟与成本:多工具多轮调用,比单次 VLM 推理慢一个数量级。

  4. 与 longform 版混淆:读论文/笔记务必核对作者与 arXiv 号(2403.11481 vs 2403.10517)。

  5. 工具接口脆弱:底层检测/跟踪 API 版本升级可能导致记忆字段格式变化,编排层需做兼容。

  6. 记忆条目冲突:同一对象被两个跟踪 ID 记录时,LLM 查询返回矛盾状态。

适用 vs 不适用场景

适用

  • 长监控、体育、自我中心视频的多对象时序 QA
  • 需要可查询记忆库(可解释「模型记得什么」)
  • 有多个视觉 API、想用 LLM 编排的研究/产品原型
  • 对标闭源长上下文模型(Gemini 1.5)的开源替代
  • 安防复盘需要对象级时间线导出

不适用

  • 单对象短视频—— 记忆开销不值
  • 端到端可微训练需求—— 工具链不可微
  • 无跟踪/检测工具的低资源环境
  • 实时系统—— 多工具延迟高
  • 单跳事实问答(画面一眼可见)—— 记忆与工具链过重

历史小故事(可跳过)

  • 2024-03:Wang 与 Fan 两篇 VideoAgent 相隔数日挂 arXiv,标志 agent 式长视频理解爆发。
  • 2024-07:Fan 版 ECCV 接收,项目页 videoagent.github.io 开源。
  • 2024-24traveler-2024 等延续记忆/规划路线,形成 agent 谱系。
  • 闭源对标:同期 Gemini 1.5 长上下文引发「是否还需要 agent」讨论,本文用数据说明记忆编排仍值得做。

学到什么

  1. 长视频 = 记忆问题 + 检索问题—— 显式记忆比隐式 context 更可控
  2. 事件与对象要分槽存储—— 一种记忆答不全所有问题类型
  3. LLM 编排专模 > 强迫一个 VLM 吃全片
  4. 同名不同篇要靠 slug 区分—— 读文献时的元技能
  5. 工具失败要有降级—— 生产环境应缓存记忆写入前的人工抽检或二次 VLM 验证
  6. ECCV 2024 接收—— 记忆 agent 路线获顶会认可,非纯工程 hack

延伸阅读

关联

反向链接

  • egoschema-2023 —— EgoSchema — 三分钟第一视角长视频理解的诊断探针
  • grounded-videollm-2024 —— Grounded-VideoLLM — 双流编码 + 时间 token,把「何时发生」写进 Video LLM
  • internvideo2-5-2025 —— InternVideo2.5 — 长富上下文 + HiCo 层次压缩
  • livevlm-2025 —— LiveVLM — 免训练流式视觉 token 压缩
  • long-video-retrieval-2023 —— R-VLM — 长视频不靠均匀采帧,靠可学习检索选片段
  • qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE,工业级视频理解的里程碑
  • tempcompass-2024 —— TempCompass — 专门拆穿 Video LLM 有没有真懂时间
  • traveler-2024 —— TraveLER — 四段式多 Agent,帧级问答看懂长视频
  • videoagent-longform-2024 —— VideoAgent (Wang) — LLM Agent 迭代选帧理解长视频
  • videollm-online-2024 —— VideoLLM-online — 流式视频对话的 LIVE 框架
  • worldsense-2025 —— WorldSense — 真实世界同步音视频理解 benchmark