VLM Foundation · Plate Nº 141

LLaVA-OneVision: Easy Visual Task Transfer

6 min read · 1987 字 · ⭐⭐⭐ · 短摘要

#language #vision #VLA #VLM #dataset

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

一套配方教会一个模型同时看懂单张图、几张图、和视频，开源圈第一次在视频上接近 GPT-4V。

这是个什么场景

想象你拿出手机相册，问 AI 三件事：

"这张照片里那只猫在干嘛？"（单张图）
"我拍了两张菜，你帮我看看哪盘炒得更熟？"（多张图对比）
"这段 30 秒的监控里小孩什么时候摔倒的？"（视频）

放在 2024 年之前，开源圈得给你三个不同的 App：一个看单图、一个比对照片、一个看视频，三家用的模型、教材、考试都不一样。在单图 App 里训练得再好的模型，换到视频 App 还是相当于从幼儿园重读。

LLaVA-OneVision 干的事就像把这三个 App 合成一个："同一个 AI，三种场景都能用"。而且它还发现：让模型先学会"两张图找不同"，它再去看视频时反而更敏锐了——因为视频本质就是"很多张图按时间排好"，多图训练出的对比能力会自动迁移过去。

Plate Nº ILLaVA-OneVision — 场景示意：这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

LLaVA-1.5 / LLaVA-NeXT 系列主打单图理解，多图和视频是后来零散打补丁加上的
视频 VLM 通常是另起炉灶（VideoChat、Video-LLaVA 等），数据和单图模型不互通
多图对比任务（mantis 等）被当成第三类小赛道，规模小，数据稀缺
闭源模型（GPT-4V、Gemini）天生就在三场景统一训练，但权重和数据都拿不到
开源社区缺的不是模型结构，是"覆盖三场景的高质量数据集 + 训练阶段切分"

这篇论文的关键想法

像教孩子读书一样：先学单字（图）、再学比较（多图）、最后才看动画片（视频）。每个阶段都是下一阶段的台阶，不需要重新教。

核心赌注：视觉任务之间是能"互相借力"的——只要前面的课程喂得对，单图学到的本事能自己"长"到多图和视频上，不必为视频专门造一个新模型。

具体说：

训练分成几个阶段（语言-图像对齐 → 高质量知识灌输 → 视觉指令微调），每阶段端上桌的数据都是精心配比的
视频不是从零开始（cold start），而是建在"已经会看单图和多图"的模型之上，所以视频数据量可以少，但要精
视觉编码器用 SigLIP，语言部分用 Qwen-2，结构本身没什么花活——所有创新都压在"喂什么数据、按什么顺序喂"上

Plate Nº IILLaVA-OneVision — 方法示意：核心 pipeline

它怎么做的（方法）

架构（像三明治一样朴素）：眼睛（视觉编码器 SigLIP）+ 翻译官（projector）+ 大脑（LLM Qwen-2）。和前几代 LLaVA 几乎一模一样，没加什么花哨的跨模态 attention 或 Q-Former。作者故意保持简单，就是想说："瞧，不靠结构，光靠配方就能赢。"

等等，先慢一拍 —— 这里面的 visual token 是什么？

想象 LLM（语言大脑）只认识"词"，给它一张图它一脸懵
那就把图切成一格一格，每格压成一个"假词"喂给它，这个"假词"就叫 visual token
一张图 = 一段假句子，几张图 = 几段假句子拼起来，视频 = 抽几帧拼成的假句子
对 LLM 来说，三种情况都是"一长串词"，没区别——这就是统一的诀窍

Higher AnyRes（动态切图）：就像扫描一张大海报，扫描仪一次只能放 A4 大小，那就把海报切成 A4 一张张扫，再拼起来。一张高清图被切成多个 sub-image 分别编码；多张图就是各扫各的拼一起；视频就是按时间抽几帧再扫。最后都变成同一种"一串 visual token + 文字"的格式。

训练数据配方（像孩子上学）：

幼儿园：海量普通图文对做语言-图像对齐，先认得"猫狗汽车"
小学：喂高质量知识密集数据（OCR 文字识别、图表、文档），灌"硬知识"
中学：才上单图/多图/视频混合的指令微调（具体配比和数据集列表需读原文）
视频数据量相对少，但因为前面两阶段打了底，少量也够用

任务迁移的证据：作者发现，模型在很多它"没专门刷过"的视频测试集上也表现不错。他们把功劳归给多图阶段——因为模型在多图里练出了"跨画面对比"的肌肉，看视频（本质上就是跨帧对比）时自然就会了。

实验在做什么

在大量单图 benchmark（MMBench、MMMU、MathVista、DocVQA 等）上对比 LLaVA-NeXT、InternVL、Qwen-VL 等开源模型
在多图 benchmark（Mantis-Eval、BLINK 等）上验证多图能力不是"白送"
在视频 benchmark（VideoMME、MVBench、EgoSchema 等）上对比视频专用模型，并和 GPT-4V 这类闭源做参考
做 ablation 看数据配比、训练阶段顺序的影响（具体 ablation 设计需读原文）
模型规模做了 0.5B / 7B / 72B 三档，验证 scaling

你应该懂的几个新词 — 4-6 个

VLM（Visual-Language Model）：能同时处理图像和文字的模型，输入图、输出字
AnyRes / Higher AnyRes：动态分辨率方案，把任意尺寸的图切成固定大小的 patch 再喂给视觉编码器，避免暴力 resize 丢信息
SigLIP：Google 提的图文对齐模型，比 CLIP 用 sigmoid loss 替代 softmax，训练更稳；这里当视觉特征提取器
Visual Instruction Tuning：用"看图回答"格式的数据对 VLM 做监督微调，是 LLaVA 系列的招牌动作
Task Transfer（任务迁移）：在 A 任务训练，模型在没专门训练的 B 任务上也表现不错；本文的核心宣称
Visual Token：图像被切片+编码后变成的一串向量，长得像 word embedding，LLM 可以无差别处理

它和其他论文什么关系

直接前作：LLaVA、LLaVA-1.5、LLaVA-NeXT——架构传承几乎一比一，OneVision 是数据维度的扩展
同期开源对手：InternVL-2.5、Qwen-VL、DeepSeek-VL、Pixtral-12B 走的是相似路线（统一架构 + 大量数据），但各家配方不同
视觉编码器：用 SigLIP 作为前端，和 CLIP / EVA-CLIP 系是一支
视频路线对照：和 Video-LLaVA、VideoChat 这种"专攻视频"的方案构成对比，OneVision 主张视频不需要专门架构
embodied 关联：对 OpenVLA、RT-2 这类机器人 VLA 很重要——VLA 的视觉塔就是 VLM，OneVision 这种"全场景统一"的预训练塔可以直接搬过来

我建议这样读 — 3-4 步

先看 abstract + Figure 1（数据配方总览图）+ 主表，搞清楚"统一三场景"具体指什么、收益多大
跳到方法节看训练阶段切分和数据混合比例，这是真正的贡献，结构部分可以快速扫
看 ablation：哪个阶段最关键？多图数据加进来后视频涨了多少？这是判断方法可信度的地方
想做下游应用（embodied / agent）的话，关注 7B 档的指标是否够用，72B 部署成本太高

为什么值得读

它代表 2024 年开源 VLM 的一个重要拐点：结构稳定下来，竞争转向数据工程
对做 embodied AI 的人，这是目前比较省事的"通用视觉塔"候选之一——单图/多图/视频都能接，不用换骨干
它把"任务迁移"从口号变成可量化的实验，告诉你哪些场景迁移有效、哪些靠不住
数据配方虽然没有完全开源所有数据，但训练 recipe 写得相对清楚，是想自己复刻 VLM 训练的人的好教材
读完后再回头看 LLaVA-1.5 / Qwen-VL，会更清楚"VLM 这两年到底进步在哪"——大部分 delta 不在网络结构上

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_llava_onevision_2026,
  title       = {(readable note) LLaVA-OneVision: Easy Visual Task Transfer},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/llava-onevision/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)