VideoLLM-online — 流式视频对话的 LIVE 框架

是什么

VideoLLM-online 是 2024 年 CVPR 论文提出的在线视频大模型：面向摄像头/直播流，用 LIVE（Learning in Video Streams） 框架让模型在视频播放的同时持续更新内部状态，并以 Streaming EOS 机制在合适时刻主动开口回答，目标 10+ FPS 级流式交互。

日常类比：离线 Video-LLM 像看完一整部电影再写影评；VideoLLM-online 像同声传译员——画面一边播，模型一边维护「到目前为止的剧情摘要」，用户随时插问，模型决定何时说完一句。

这是流式 Video-LLM 路线的开山工作之一；后继见 livevlm-2025、flash-vstream-2024。

为什么重要

不理解 VideoLLM-online，「实时看视频对话」的技术栈无从谈起：

把「采帧→批处理→回答」改成增量状态机：latency 从分钟级降到秒级
Streaming EOS 解决「何时说话」：流式场景不能等用户按回车；模型要学打断/收尾时机
LIVE 训练模拟真流：用滑动窗口 + 历史缓存，而不是均匀 8 帧离线采样
评测必须用在线协议：离线 VideoMME 高分不代表流式场景好用

核心要点

LIVE 框架：增量视觉记忆：每来一帧（或一小段），编码器输出并入滚动 buffer；LLM 读的是「当前帧 + 压缩历史」而非每次重编码全片。类比：笔记边听边记，不是听完再默写全文。
Streaming EOS：除答案 token 外，模型预测「是否结束当前发言」的特殊信号；避免流式生成无限拖沓或半句卡住。
Efficient Streaming Demo 管线：论文报告在单卡上可达 10+ FPS 交互（分辨率与模型规模依设置），证明流式不只属于 GPT-4o 闭源 API。

实践案例

案例 1：流式会话伪代码

# 概念流程（具体 API 见官方 repo）
stream = VideoStream("webcam")  # 或 RTSP
memory = StreamingMemory(max_tokens=4096)

for frame in stream.at_fps(2):
    memory.ingest(encode(frame))           # 增量写入，不重头编码
    if user_has_question():
        partial = model.generate(
            memory.snapshot(),
            question=user_question,
            streaming_eos=True,
        )
        yield partial                      # 边生成边播放 TTS

关键：memory.ingest 是 O(1) 摊销更新，而非每问一次重跑全视频。

案例 2：离线 vs 在线 latency 对照

场景：用户在第 5 分钟插问「刚才红色物体出现了吗？」

离线 8 帧均匀采样 Video-LLM
  需重新编码 / 检索 → 常 >30s 首 token

VideoLLM-online LIVE
  历史已在 buffer → 通常 <3s 首 token（论文 demo 量级）

代价：全程维持 memory 占显存；长流需配合压缩（见 [[livevlm-2025]]）

案例 3：训练数据构造要点

LIVE 样本 = 视频流片段 + 多时间点提问 + 应对答案
  t=10s  问：「现在桌上有什么？」
  t=45s  问：「刚才有人进门吗？」  → 需引用 10–40s 记忆
  t=120s 问：「总结至今剧情」      → 需层次摘要

没有多时间点标注就训不出真流式能力，只会有「假在线」重采样

工程落地时可为 memory buffer 加「最大时长」与「强制摘要」策略，避免 24h 监控流无限涨显存；论文 demo 多为分钟级，产品要自行加护栏。

踩过的坑

把离线模型均匀采帧当流式用：latency 和记忆一致性都不过关，GPU 还会周期性尖峰。
Streaming EOS 未校准会「话痨」或「哑巴」：需用验证集调阈值，直播场景还要加 VAD 协同。
10+ FPS 依赖分辨率与模型大小：7B 全精度 1080p 流很难维持，实际要降分辨率或用小 encoder。
评测应用 StreamingBench 类协议：streamingbench-2024 等多时间点探针，MSVD-QA 分数无参考价值。

适用 vs 不适用场景

适用：

监控解说、直播带货实时问答、AR 眼镜场景
研究 memory buffer + EOS 的流式架构
与 livevlm-2025 免训练压缩方案做对照实验

不适用：

事后长视频精读（用 qwen2-vl-2024 / lvbench-2024 路线）
无持续视频输入的单次问答
极低算力边缘设备（需专用小模型 + 强压缩）

历史小故事（可跳过）

2023：videochat-2023 等多轮对话，但仍离线批处理视频。
2024-06：VideoLLM-online arxiv 2406.11816，CVPR 2024 接收。
2024：flash-vstream-2024 STAR 双进程记忆并行探索。
2025：livevlm-2025 免训练 VSB 压缩降低流式 KV 成本。

学到什么

流式 Video-LLM 的核心是状态机，不是更长 context。
何时说话与说什么同样重要；Streaming EOS 是产品化关键。
训练协议必须在线化；离线标注数据训不出真低延迟。
产品指标要看首 token 延迟 + 记忆命中率，不能单报离线 VideoMME。
LIVE 记忆与 livevlm-2025 VSB 可组合：训练式 buffer + 免训练压缩并不互斥。
Streaming EOS 需要产品级调参：直播场景还要和 VAD、打断策略联调，不能只看论文 demo FPS。

关联

livevlm-2025 —— 免训练流式 KV 管理后继
flash-vstream-2024 —— STAR 双进程流式记忆
streamingbench-2024 —— 多时间点流式评测
videochat-2023 —— 对话式 Video-LLM 前驱
qwen2-vl-2024 —— 离线长视频工业标杆
vid-llm-survey-2023 —— 范式分类地图

维护提示：

长视频与流式子题见专题站 /stations/video-understanding/ 分阶段表。
报分请注明采帧数、模态（video / av）与解码后端，便于跨论文对比。
工程对照项目见 decord、lmms-eval、videochat2 等专题笔记。
与专题阅读站 video-understanding / stations 路线图对照，避免候选表与站内 slug 脱节。发版前用 lmms-eval 或官方脚本复现文中数字；pinned 依赖以各仓库 README 为准。

反向链接

chapter-llama-2025 —— Chapter-Llama — 语音引导采帧，一小时视频一次前向切章节
decord —— Decord — Video-LLM 数据管线的高效视频解码库
flash-vstream-2024 —— Flash-VStream — STAR 双进程记忆的低延迟长流理解
livevlm-2025 —— LiveVLM — 免训练流式视觉 token 压缩
llmvs-2025 —— LLMVS — 用 LLM 语义裁判给视频帧打分做摘要
lmms-eval —— LMMs-Eval — 多模态大模型统一评测框架
lvbench-2024 —— LVBench — 平均 68 分钟、六维能力的长视频极限考
omagent-2024 —— OmAgent — 长视频分治 Agent 与回退检索
qwen2-vl-2024 —— Qwen2-VL — 动态分辨率 + M-RoPE，工业级视频理解的里程碑
streamingbench-2024 —— StreamingBench — 流式视频理解的 18 任务在线大考
traveler-2024 —— TraveLER — 四段式多 Agent，帧级问答看懂长视频
vid-llm-survey-2023 —— Vid-LLM Survey — 用大语言模型理解视频的全景地图
videoagent-longform-2024 —— VideoAgent (Wang) — LLM Agent 迭代选帧理解长视频
videoagent-memory-2024 —— VideoAgent（Fan）— 双记忆 + 四工具，长视频逼近 Gemini
videochat-2023 —— VideoChat — 把视频、指令微调、多轮对话第一次放进同一个系统
videochat2 —— VideoChat2 — OpenGVLab 三阶段训练 Video-LLM 官方实现
videollama3-2025 —— VideoLLaMA 3 — 动态分辨率视觉编码 + 视频 token 压缩