回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
VLM Foundation · Plate Nº 128

DeepSeek-VL: Towards Real-World Vision-Language Understanding

8 min read · 2729 字 · ⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

DeepSeek 在 2024 年开源的"会看图"小模型,主打能看清发票、PPT、论文截图里的小字,不只会答考试题。

这是个什么场景

设想你随手拍了一张餐厅小票,发给 AI 助手让它帮你算 AA。它回你:「呃,好像有几个数字?看不清。」——这就是早期"会看图"模型的真实窘境:照片一旦不是教科书插图、不是网红风景照,而是密密麻麻的小字、表格、截图,它就抓瞎。

再想几个生活里很常见的场景:

  • 你截了一张银行流水问「上个月外卖花了多少」——它得能看清密密麻麻的小字。
  • 你拍了一页论文里的折线图问「2023 年这条线在掉还是在涨」——它得能分清子图和图注。
  • 你截了一张 App 设置页问「关掉自动续费的按钮在哪」——它得能在 UI 截图里找到具体那个按钮。

之前的 VLM(Vision-Language Model,视觉-语言模型,能"看图说话"的 AI)大致分两类:一类只看过摄影作品和教科书插图,遇到密集文字就懵;另一类很会答考试题(COCO、VQA 这种学术 benchmark),但碰到真实的发票、PPT、科研图就愣住。

DeepSeek-VL 想做的是第三类:像一个在办公室干过几年杂活的实习生——不一定最聪明,但 PPT、发票、图表、UI 截图都能看明白,能直接干活。

DeepSeek-VL — 场景示意:这论文要解决的现实问题
Plate Nº IDeepSeek-VL — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • CLIP 路线(CLIP, BLIP):用对比学习把图和文对齐,但视觉塔分辨率通常固定在 224 或 336,文档级细节看不清。
  • 冻结 LLM + 适配器(Flamingo, BLIP-2):把视觉特征塞进冻结的语言模型,省训练成本,但视觉端表达能力受限。
  • 端到端微调(LLaVA 系列):把 CLIP 的视觉塔接到 LLM,做指令微调,效果好但仍受限于固定分辨率和单一视觉编码器。
  • 学术 benchmark 导向:大多数 VLM 都在 VQAv2 / MMBench / MME 这类题上刷分,对真实场景里的「密集文字 + 多子图 + 长上下文」覆盖不足。
  • 大模型路线:通过堆参数(30B+)来兜底视觉理解能力,但部署成本高,开源社区难复用。

这篇论文的关键想法

如果上一代 VLM 像个只会做高考题的学生,DeepSeek-VL 想把它变成一个"什么活都见过"的实习生。这个转变拆成三层:

  1. 数据层 — 别只刷题,去看真实世界:以前的训练餐单像高三模拟卷(COCO、VQA),这篇把网页截图、论文图、PDF 文档、图表、OCR 数据按"人平时真的会拿什么图问 AI"的比例混进来。
  2. 视觉编码器层 — 一个看全局,一个看细节:单个视觉编码器要么看清整体、要么看清细节,二选一。论文用混合视觉编码器(hybrid vision encoder,两个视觉模型并行处理同一张图)——一个看大局,一个看细节,特征拼起来再交给语言模型。
  3. 分辨率层 — 大图切块再拼回:用高分辨率切片(high-resolution tiling,把大图切成小块分别编码),让模型能吃下 1024×1024 甚至更高的输入。看清文档小字和图表标签的硬条件就是分辨率。

一句话:真正的瓶颈不是语言模型不够大,而是"眼睛"看不清 + 训练时没见过真实图片

DeepSeek-VL — 方法示意:核心 pipeline
Plate Nº IIDeepSeek-VL — 方法示意:核心 pipeline

它怎么做的(方法)

视觉编码器:一个广角镜头 + 一个微距镜头

类比:拍照时广角看全景,微距凑近看细节,两张合在一起就什么都不漏。DeepSeek-VL 的"眼睛"也是双路:一路用 SigLIP(一种改进版的 CLIP,常被 2024 年 VLM 拿来做语义理解)处理缩放过的全局图(例如 384×384),抓"这张图大致在讲什么";另一路用 SAM-B(Meta 出的分割模型,视觉编码器擅长抓细节)处理高分辨率版本(例如 1024×1024),抓"每个角落长什么样"。两路特征拼起来送进语言模型。具体融合方式和 token 数需读原文确认。

高分辨率处理:A4 文档塞不进护照扫描仪,就分块扫

类比:扫描仪只能扫小尺寸,要扫一张 A4 文档,就切成几块分别扫,再加一张拍全貌的缩略图保留版面。论文沿用「local crops + global thumbnail」的思路:原图切成若干小块各自编码(保留细节),同时保留一张缩略图(保留整体布局),所有视觉 token 一起喂给语言模型。LLaVA-NeXT、InternVL 同期工作也用类似套路,具体切块策略需读原文。

等等,先慢一拍 —— 这里的 "token" 是什么?语言模型只懂"词",所以视觉编码器要把图片压缩成一串"视觉词"(token)交给它。token 越多模型看得越细,但算力代价也越大,这就是为什么要在切块数量上做取舍。

训练流程:三阶段,从对齐到能听懂人话

类比:教一个外国实习生干活,先教他认中文(对齐),再让他在真实工位上跟着干(联合预训练),最后手把手教他「客户问 X 你要回 Y」(指令微调)。

  • 第一阶段:视觉-语言对齐预训练。冻结大部分语言模型参数,先让视觉编码器和适配器对齐到语言空间。
  • 第二阶段:视觉-语言联合预训练。解冻更多参数,用大规模图文 + 文档 + OCR 数据联合训练,关键是数据配比要贴近真实使用。
  • 第三阶段:监督微调(SFT, Supervised Fine-Tuning,用高质量指令数据做最后一轮对齐)。用真实文档问答、图表理解、多轮对话这类高质量数据,让模型听得懂人话。

模型尺寸:小而实用

DeepSeek-VL 主要发了 1.3B 和 7B 两个尺寸,定位是"能在消费级 GPU 跑起来的实用模型",不是去和 GPT-4V 这种闭源大块头硬拼参数。

实验在做什么

论文应当覆盖以下评测维度(具体数字需读原文):

  • 通用 VQA benchmark:MMBench、MME、SEED-Bench、MMMU 等,证明在学术任务上不掉队。
  • 真实文档场景:DocVQA、ChartQA、TextVQA、OCRBench,这是 DeepSeek-VL 主打的「真实世界」战场。
  • 科研图表:可能包括 ScienceQA 中的图表子集,或论文新构造的数据。
  • 多轮对话和指令跟随:用类似 LLaVA-Bench (in-the-wild) 的开放式题目,看模型在真实对话里的表现。
  • 消融实验:拆掉混合编码器只用单塔会掉多少分?拆掉高分辨率切片会掉多少分?训练数据比例换成纯学术混合会掉多少分?这些消融是判断本文真正贡献的关键。

读这篇时建议把注意力放在真实场景 benchmark + 消融上,而不是「总分排名」。

你应该懂的几个新词 — 4-6 个

  • VLM(Vision-Language Model):能同时吃图和文、输出文本的模型。可以理解为「会看图说话的 LLM」。
  • 混合视觉编码器(hybrid vision encoder):用两个或多个不同特性的视觉模型并行处理同一张图,再融合特征。类比:一个用广角镜头看全景,一个用微距镜头看细节。
  • 高分辨率切片(high-resolution tiling / dynamic resolution):把大图切成多个小块分别送入固定分辨率的视觉编码器,再拼回去。类比:A4 文档塞不进护照大小的扫描仪,就分块扫再拼。
  • SigLIP:Google 提出的一种改进版 CLIP,用 sigmoid loss 替代 softmax 对比学习,训练更稳,常被 2024 年 VLM 用作语义编码器。
  • SAM(Segment Anything Model):Meta 出的分割大模型,它的视觉编码器(SAM-B/L/H)擅长抓局部细节,被 DeepSeek-VL 借来做高分辨率分支。
  • SFT(Supervised Fine-Tuning):用人工或合成的高质量指令数据,对预训练完的模型做最后一轮监督微调,让它「听得懂人话、能跟随指令」。

它和其他论文什么关系

  • CLIP / SigLIP:DeepSeek-VL 借用 SigLIP 做语义分支,是直接的上游依赖。
  • LLaVA / LLaVA-NeXT:同代竞品。LLaVA-NeXT 也做了高分辨率切片,DeepSeek-VL 的差异在「混合编码器 + 真实场景数据配比」。
  • InternVL:上海 AI Lab 的开源 VLM,思路类似(大视觉塔 + 高分辨率),可以放在一起对比。
  • Qwen-VL / Qwen2-VL:阿里开源的 VLM,同样强调文档和真实场景,常被拿来对标。
  • Flamingo / BLIP-2:方法论上的「祖辈」,DeepSeek-VL 抛弃了它们的 cross-attention 适配器路线,走 LLaVA 的 projector 路线。
  • 下游延伸:DeepSeek-VL2(2024 年底)在此基础上引入 MoE 视觉路由,是直接续作,可作为延伸阅读。

我建议这样读 — 3-4 步

  1. 先看 Figure 1 + 摘要 + 引言:确认它的「真实场景」承诺到底覆盖哪些任务(文档?图表?UI 截图?),别被宣传词带偏。
  2. 看模型架构图:重点是混合视觉编码器怎么接、视觉 token 怎么进 LLM、高分辨率切片切多少块。这是本文最有信息量的一页。
  3. 看数据配比表:真实场景数据具体是哪些来源、占比多少。这是「真实世界」承诺的硬证据,也是别人想复现时最关键的部分。
  4. 跳着看实验:先看真实文档/图表 benchmark(DocVQA、ChartQA、OCRBench),再看消融,最后才看通用 benchmark 的总分。

为什么值得读

  • 工程实用主义的样本:在「堆参数」和「学术刷分」之外,给出了第三条路——把视觉端的细节问题、数据的真实性问题、模型尺寸的部署友好性放在第一位。这种取舍思路对做 embodied agent 同样有用:机器人面对的是真实物理场景,不是 COCO。
  • 混合视觉编码器的早期实践:2024 年起越来越多 VLM 走双塔/多塔视觉路线(Cambrian-1、InternVL2),DeepSeek-VL 是这一思路在开源界较早、较系统的展示。
  • 小模型可用性:1.3B / 7B 的尺寸让它能在单卡甚至边缘设备跑,对想在机器人上挂一个本地 VLM 做感知前端的人很友好。
  • 生态参考:DeepSeek 系列(LLM / Coder / VL / V2 / V3)的训练流程、数据策略有共通方法论,读懂 DeepSeek-VL 有助于理解整条线的思路。
  • 作为 embodied AI 的视觉前端候选:很多机器人策略(policy)需要一个能看懂复杂场景的 VLM 做高层规划,DeepSeek-VL 这类「真实场景导向 + 小尺寸」的模型正好适合这个位置。

引用本笔记 / Cite this note
BibTeX
@online{eai_deepseek_vl_2026,
  title       = {(readable note) DeepSeek-VL: Towards Real-World Vision-Language Understanding},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/deepseek-vl/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim