回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
VLM Foundation · Plate Nº 132

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

6 min read · 2239 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

让"看图的脑子"也长到 6B 参数,和"会说话的脑子"一样大,AI 看图说话才不偏科,而且开源就能用。

这是个什么场景

你拍一张照发给朋友,让他帮你描述里面发生了什么。如果朋友只看了一眼草草说"有只动物在跑",那你大概会很失望——你想要的是"一只金毛在沙滩上追飞盘,背景有个穿红衣服的小孩在笑"这种细节。

现在的"看图说话 AI"就常常出现前一种翻车情况。原因是它由两个人合作完成:

  • 一个会说话的资深员工(大语言模型 LLM,几十亿到上千亿参数),见识广、词汇丰富
  • 一个会看的实习生(视觉编码器 vision encoder,常见才 0.3B 参数),眼力凑合但脑容量太小

让一个见识差几个量级的实习生给资深员工做汇报,他看到的细节根本组织不成对方听得懂的话,中间还得另请一个"翻译"(adapter / Q-Former 之类)勉强对接。

InternVL 想做的事情是:把实习生直接送去读博,把视觉编码器也扩到 6B 参数,让它和 LLM 量级对等。这样两人对话才能从"看到一只动物"升级到"金毛、沙滩、飞盘、红衣小孩"这种级别,而且不用每次都现搭翻译桥。

InternVL — 场景示意:这论文要解决的现实问题
Plate Nº IInternVL — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • CLIP 路线(OpenAI 2021):图文对比学习,把图像和文本压到同一空间。视觉塔通常 300M-1B,OpenAI 后续训了 CLIP-G(2B)但不开源
  • EVA-CLIP / OpenCLIP 路线:开源社区扩大 CLIP,能到 ~1-2B 量级,但和 OpenAI 私有版还有差距。
  • BLIP-2 / Flamingo / LLaVA 路线:视觉骨干不动(用现成的 CLIP-ViT),靠中间一个轻量的"桥"(Q-Former、cross-attention、MLP projector)把视觉特征塞给 LLM。视觉端没扩展
  • 结果:开源圈视觉编码器卡在 1B 左右;多模态大模型的"视觉脑容量"远小于"语言脑容量",细粒度感知任务上限被压住。
  • 痛点:私有 CLIP-G 在 zero-shot 分类、检索等基础视觉任务上始终领先,开源没有同档对手。

这篇论文的关键想法

一句话:"把眼睛练得和嘴巴一样大,再让眼睛学会嘴巴的说话方式"。

  1. 视觉端纵向扩展:像把"实习生送去读博"一样,把视觉编码器从常见的 0.3B 直接训到 6B 参数(InternViT-6B),和小型 LLM 同档。
  2. 对齐语言空间:好比让眼睛跟着嘴巴学说话——不仅做传统的图文对比,还引入一个 LLM 风格的文本模型当"陪练",让视觉特征学到的表达和 LLM 内部用的词汇(token embedding)兼容,下游接 LLM 时不用复杂桥接。
  3. 渐进式训练:像从小学到研究生的培养路径,先做大规模图文对比学习(contrastive,看图配字),再做图文生成(generative,看图写句子),最后指令微调(学会按人话回答)。

收益是:同一个 InternViT-6B,在三类任务上都能打——纯视觉感知(分类/检测/分割)、视觉-语言对比(zero-shot 检索)、视觉-语言生成(多模态对话)。一个骨干通吃,不再为每类任务各训一个。

InternVL — 方法示意:核心 pipeline
Plate Nº IIInternVL — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

视觉骨干 InternViT-6B:好比把厨师从"只会颠勺"练到"米其林主厨"——标准 ViT 架构(vision transformer,把图像切成小方块当词来处理)不变,但深度和宽度大幅扩展到 6B 参数量,刚好和 7B 级 LLM 配对。具体层数、hidden dim、patch size 这些超参要查原文。

等等,先慢一拍 — QLLaMA 是什么? 想象你想让眼睛学会嘴巴的说话方式,但完整的 LLM 太大太贵,于是论文做了一个"陪练版的 LLaMA",可以理解为压缩版的语言模型。它在训练阶段提供 LLM 风格的语言侧表征,让视觉塔学到的特征不是冲着传统 CLIP 文本空间去的,而是冲着 LLM 兼容空间去的。下游真正接到完整 LLM 时,对接就顺滑得多。

三阶段训练:像学生从小学到研究生:

  • 阶段 1(对比预训练):好比抄作业对答案,超大规模图文对,InternViT + QLLaMA 做对比学习(contrastive),类似 CLIP 但语言侧更接近 LLM。
  • 阶段 2(生成预训练):好比看图写作文,把 InternViT 接到真正的 LLM(如 Vicuna),训练 captioning、VQA 等生成任务。
  • 阶段 3(指令微调):好比模拟面试,用多模态指令数据让模型学会按人话回答问题。

多任务通用性:训完之后这一个骨干可以三种姿态共用同一份权重:(a) 单独当视觉编码器接分类/检测头;(b) 配 QLLaMA 做 zero-shot 图文检索;(c) 配 LLM 做多模态对话。

实验在做什么

论文跨多个 benchmark 横扫,主要四类:

  • 视觉感知:ImageNet 分类、各类检测分割任务,对标 EVA、SAM 等纯视觉骨干。
  • 图文对比:zero-shot 分类、图文检索(COCO、Flickr30K),对标 CLIP / OpenCLIP / EVA-CLIP,目标是追平 OpenAI 私有 CLIP-G。
  • 多模态对话:VQA、MME、各类 VLM benchmark,对标 LLaVA、QwenVL、BLIP-2 等。
  • 消融:模型规模、训练阶段、数据规模的影响。

具体数字(top-1 acc、retrieval R@1 等)需读原文表格,这里不编造。结论层面:InternViT-6B 在多个任务上达到或超过同期最强开源模型,并在部分对比任务上接近 OpenAI CLIP-G。

你应该懂的几个新词 — 4-6 个

  • Vision Foundation Model(视觉基础模型):像 LLM 之于文本那样,用一个大规模预训练视觉骨干通吃下游任务,不是为每个任务各训一个。
  • CLIP-G:OpenAI 训练的更大版 CLIP(约 2B 参数视觉端),效果强但未公开权重,是开源社区长期追赶目标。
  • ViT (Vision Transformer):把图像切成 patch 当 token 用 Transformer 处理的视觉架构,CLIP/SAM/DINO 都用它。
  • Contrastive learning(对比学习):让配对的图文 embedding 拉近、不配对的拉远。CLIP 的训练核心。
  • Generative pretraining(生成式预训练):让模型生成 caption / 回答,目标是 next-token prediction,比对比学习多了"会说话"的能力。
  • QLLaMA:本文设计的中间件,可以理解为 "Q-Former 思想 + LLaMA 架构" 的混合,用来在对比阶段提供 LLM 兼容的语言侧表征。

它和其他论文什么关系

  • 延续 CLIP(Radford et al. 2021):图文对比的核心框架没变,但视觉端扩了一个数量级,语言端换成 LLM 风格。
  • 挑战 BLIP-2(Li et al. 2023):BLIP-2 选择"冻结视觉塔 + 训轻量桥",InternVL 反过来"扩视觉塔、简化桥"。代表两种路线之争。
  • 承接 EVA-CLIP(Sun et al. 2023):EVA 把开源 CLIP 推到 1-2B,InternVL 推到 6B,规模上的下一站。
  • 配合 LLaVA(Liu et al. 2023):LLaVA 系列是多模态对话的代表,但视觉端用现成 CLIP-ViT-L/G。InternVL 提供了一个更强的视觉端可以替换进 LLaVA 风格的栈里。
  • 后续影响:InternVL2/2.5/3 是这条线的演进,把模型规模、数据、训练流程继续推。后续多模态模型很多直接用 InternViT 做视觉端。

我建议这样读 — 3-4 步

  1. 先看 Figure 1 + Table 1:理解模型整体架构(三阶段、三个组件)和它在主要 benchmark 上的位置。如果只关心结论,看完这两个图基本够了。
  2. 重点读 Method 第 3 节:QLLaMA 的设计和三阶段训练流程。这是和已有工作最大的区别,搞清楚"为什么不是直接扩 CLIP"。
  3. 对比读 EVA-CLIP 和 BLIP-2:把 InternVL 放到这两条路线之间看,能更清楚它的取舍——比 EVA-CLIP 多了语言对齐,比 BLIP-2 多了视觉规模。
  4. 跳读 Experiments:除非你做特定任务(检索/分类/VQA),否则只看汇总表和消融,别陷在每个 benchmark 的细节里。

为什么值得读

  • 开源 vs 私有的转折点:InternVL 是开源视觉基础模型第一次在多任务上能正面叫板 OpenAI CLIP-G,对整个开源 VLM 生态意义重大。
  • 方法论参考:如果你想训一个比"接现成 CLIP"更深度的多模态模型,InternVL 的三阶段流程和视觉端扩展思路是当前最完整的开源参考。
  • 后续生态入口:InternVL2/2.5/3、InternVL-Chat 一系列工作都从这里出发,想跟进国产开源 VLM 必须看的起点。
  • 对 Embodied AI 的关联:具身智能(embodied AI)需要强视觉感知 + 语言指令理解,InternVL 这种"视觉端不弱化"的路线对机器人/驾驶等需要细粒度感知的下游更友好。

引用本笔记 / Cite this note
BibTeX
@online{eai_internvl_2026,
  title       = {(readable note) InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/internvl/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim