VLM Foundation · Plate Nº 128

DeepSeek-VL: Towards Real-World Vision-Language Understanding

8 min read · 2729 字 · ⭐⭐⭐ · 短摘要

#language #vision #VLM #dataset

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

DeepSeek 在 2024 年开源的"会看图"小模型，主打能看清发票、PPT、论文截图里的小字，不只会答考试题。

这是个什么场景

设想你随手拍了一张餐厅小票，发给 AI 助手让它帮你算 AA。它回你：「呃，好像有几个数字？看不清。」——这就是早期"会看图"模型的真实窘境：照片一旦不是教科书插图、不是网红风景照，而是密密麻麻的小字、表格、截图，它就抓瞎。

再想几个生活里很常见的场景：

你截了一张银行流水问「上个月外卖花了多少」——它得能看清密密麻麻的小字。
你拍了一页论文里的折线图问「2023 年这条线在掉还是在涨」——它得能分清子图和图注。
你截了一张 App 设置页问「关掉自动续费的按钮在哪」——它得能在 UI 截图里找到具体那个按钮。

之前的 VLM（Vision-Language Model，视觉-语言模型，能"看图说话"的 AI）大致分两类：一类只看过摄影作品和教科书插图，遇到密集文字就懵；另一类很会答考试题（COCO、VQA 这种学术 benchmark），但碰到真实的发票、PPT、科研图就愣住。

DeepSeek-VL 想做的是第三类：像一个在办公室干过几年杂活的实习生——不一定最聪明，但 PPT、发票、图表、UI 截图都能看明白，能直接干活。

Plate Nº IDeepSeek-VL — 场景示意：这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

CLIP 路线（CLIP, BLIP）：用对比学习把图和文对齐，但视觉塔分辨率通常固定在 224 或 336，文档级细节看不清。
冻结 LLM + 适配器（Flamingo, BLIP-2）：把视觉特征塞进冻结的语言模型，省训练成本，但视觉端表达能力受限。
端到端微调（LLaVA 系列）：把 CLIP 的视觉塔接到 LLM，做指令微调，效果好但仍受限于固定分辨率和单一视觉编码器。
学术 benchmark 导向：大多数 VLM 都在 VQAv2 / MMBench / MME 这类题上刷分，对真实场景里的「密集文字 + 多子图 + 长上下文」覆盖不足。
大模型路线：通过堆参数（30B+）来兜底视觉理解能力，但部署成本高，开源社区难复用。

这篇论文的关键想法

如果上一代 VLM 像个只会做高考题的学生，DeepSeek-VL 想把它变成一个"什么活都见过"的实习生。这个转变拆成三层：

数据层 — 别只刷题，去看真实世界：以前的训练餐单像高三模拟卷（COCO、VQA），这篇把网页截图、论文图、PDF 文档、图表、OCR 数据按"人平时真的会拿什么图问 AI"的比例混进来。
视觉编码器层 — 一个看全局，一个看细节：单个视觉编码器要么看清整体、要么看清细节，二选一。论文用混合视觉编码器（hybrid vision encoder，两个视觉模型并行处理同一张图）——一个看大局，一个看细节，特征拼起来再交给语言模型。
分辨率层 — 大图切块再拼回：用高分辨率切片（high-resolution tiling，把大图切成小块分别编码），让模型能吃下 1024×1024 甚至更高的输入。看清文档小字和图表标签的硬条件就是分辨率。

一句话：真正的瓶颈不是语言模型不够大，而是"眼睛"看不清 + 训练时没见过真实图片。

Plate Nº IIDeepSeek-VL — 方法示意：核心 pipeline

它怎么做的（方法）

视觉编码器：一个广角镜头 + 一个微距镜头

类比：拍照时广角看全景，微距凑近看细节，两张合在一起就什么都不漏。DeepSeek-VL 的"眼睛"也是双路：一路用 SigLIP（一种改进版的 CLIP，常被 2024 年 VLM 拿来做语义理解）处理缩放过的全局图（例如 384×384），抓"这张图大致在讲什么"；另一路用 SAM-B（Meta 出的分割模型，视觉编码器擅长抓细节）处理高分辨率版本（例如 1024×1024），抓"每个角落长什么样"。两路特征拼起来送进语言模型。具体融合方式和 token 数需读原文确认。

高分辨率处理：A4 文档塞不进护照扫描仪，就分块扫

类比：扫描仪只能扫小尺寸，要扫一张 A4 文档，就切成几块分别扫，再加一张拍全貌的缩略图保留版面。论文沿用「local crops + global thumbnail」的思路：原图切成若干小块各自编码（保留细节），同时保留一张缩略图（保留整体布局），所有视觉 token 一起喂给语言模型。LLaVA-NeXT、InternVL 同期工作也用类似套路，具体切块策略需读原文。

等等，先慢一拍 —— 这里的 "token" 是什么？语言模型只懂"词"，所以视觉编码器要把图片压缩成一串"视觉词"（token）交给它。token 越多模型看得越细，但算力代价也越大，这就是为什么要在切块数量上做取舍。

训练流程：三阶段，从对齐到能听懂人话

类比：教一个外国实习生干活，先教他认中文（对齐），再让他在真实工位上跟着干（联合预训练），最后手把手教他「客户问 X 你要回 Y」（指令微调）。

第一阶段：视觉-语言对齐预训练。冻结大部分语言模型参数，先让视觉编码器和适配器对齐到语言空间。
第二阶段：视觉-语言联合预训练。解冻更多参数，用大规模图文 + 文档 + OCR 数据联合训练，关键是数据配比要贴近真实使用。
第三阶段：监督微调（SFT, Supervised Fine-Tuning，用高质量指令数据做最后一轮对齐）。用真实文档问答、图表理解、多轮对话这类高质量数据，让模型听得懂人话。

模型尺寸：小而实用

DeepSeek-VL 主要发了 1.3B 和 7B 两个尺寸，定位是"能在消费级 GPU 跑起来的实用模型"，不是去和 GPT-4V 这种闭源大块头硬拼参数。

实验在做什么

论文应当覆盖以下评测维度（具体数字需读原文）：

通用 VQA benchmark：MMBench、MME、SEED-Bench、MMMU 等，证明在学术任务上不掉队。
真实文档场景：DocVQA、ChartQA、TextVQA、OCRBench，这是 DeepSeek-VL 主打的「真实世界」战场。
科研图表：可能包括 ScienceQA 中的图表子集，或论文新构造的数据。
多轮对话和指令跟随：用类似 LLaVA-Bench (in-the-wild) 的开放式题目，看模型在真实对话里的表现。
消融实验：拆掉混合编码器只用单塔会掉多少分？拆掉高分辨率切片会掉多少分？训练数据比例换成纯学术混合会掉多少分？这些消融是判断本文真正贡献的关键。

读这篇时建议把注意力放在真实场景 benchmark + 消融上，而不是「总分排名」。

你应该懂的几个新词 — 4-6 个

VLM（Vision-Language Model）：能同时吃图和文、输出文本的模型。可以理解为「会看图说话的 LLM」。
混合视觉编码器（hybrid vision encoder）：用两个或多个不同特性的视觉模型并行处理同一张图，再融合特征。类比：一个用广角镜头看全景，一个用微距镜头看细节。
高分辨率切片（high-resolution tiling / dynamic resolution）：把大图切成多个小块分别送入固定分辨率的视觉编码器，再拼回去。类比：A4 文档塞不进护照大小的扫描仪，就分块扫再拼。
SigLIP：Google 提出的一种改进版 CLIP，用 sigmoid loss 替代 softmax 对比学习，训练更稳，常被 2024 年 VLM 用作语义编码器。
SAM（Segment Anything Model）：Meta 出的分割大模型，它的视觉编码器（SAM-B/L/H）擅长抓局部细节，被 DeepSeek-VL 借来做高分辨率分支。
SFT（Supervised Fine-Tuning）：用人工或合成的高质量指令数据，对预训练完的模型做最后一轮监督微调，让它「听得懂人话、能跟随指令」。

它和其他论文什么关系

CLIP / SigLIP：DeepSeek-VL 借用 SigLIP 做语义分支，是直接的上游依赖。
LLaVA / LLaVA-NeXT：同代竞品。LLaVA-NeXT 也做了高分辨率切片，DeepSeek-VL 的差异在「混合编码器 + 真实场景数据配比」。
InternVL：上海 AI Lab 的开源 VLM，思路类似（大视觉塔 + 高分辨率），可以放在一起对比。
Qwen-VL / Qwen2-VL：阿里开源的 VLM，同样强调文档和真实场景，常被拿来对标。
Flamingo / BLIP-2：方法论上的「祖辈」，DeepSeek-VL 抛弃了它们的 cross-attention 适配器路线，走 LLaVA 的 projector 路线。
下游延伸：DeepSeek-VL2（2024 年底）在此基础上引入 MoE 视觉路由，是直接续作，可作为延伸阅读。

我建议这样读 — 3-4 步

先看 Figure 1 + 摘要 + 引言：确认它的「真实场景」承诺到底覆盖哪些任务（文档？图表？UI 截图？），别被宣传词带偏。
看模型架构图：重点是混合视觉编码器怎么接、视觉 token 怎么进 LLM、高分辨率切片切多少块。这是本文最有信息量的一页。
看数据配比表：真实场景数据具体是哪些来源、占比多少。这是「真实世界」承诺的硬证据，也是别人想复现时最关键的部分。
跳着看实验：先看真实文档/图表 benchmark（DocVQA、ChartQA、OCRBench），再看消融，最后才看通用 benchmark 的总分。

为什么值得读

工程实用主义的样本：在「堆参数」和「学术刷分」之外，给出了第三条路——把视觉端的细节问题、数据的真实性问题、模型尺寸的部署友好性放在第一位。这种取舍思路对做 embodied agent 同样有用：机器人面对的是真实物理场景，不是 COCO。
混合视觉编码器的早期实践：2024 年起越来越多 VLM 走双塔/多塔视觉路线（Cambrian-1、InternVL2），DeepSeek-VL 是这一思路在开源界较早、较系统的展示。
小模型可用性：1.3B / 7B 的尺寸让它能在单卡甚至边缘设备跑，对想在机器人上挂一个本地 VLM 做感知前端的人很友好。
生态参考：DeepSeek 系列（LLM / Coder / VL / V2 / V3）的训练流程、数据策略有共通方法论，读懂 DeepSeek-VL 有助于理解整条线的思路。
作为 embodied AI 的视觉前端候选：很多机器人策略（policy）需要一个能看懂复杂场景的 VLM 做高层规划，DeepSeek-VL 这类「真实场景导向 + 小尺寸」的模型正好适合这个位置。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_deepseek_vl_2026,
  title       = {(readable note) DeepSeek-VL: Towards Real-World Vision-Language Understanding},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/deepseek-vl/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)