回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
VLM Foundation · Plate Nº 138

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling

8 min read · 2863 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

把模型、数据、推理三件事一起加大,让免费开源的看图模型第一次在大学考试里追上顶级闭源模型。

(展开:InternVL 2.5 是上海 AI Lab 2024 年底放出的开源 VLM 系列,把"模型规模、数据规模、测试时计算"三轴同时推高,在 MMMU 上首次让开源破 70 分,价值在于"全公开怎么做到的"。)

这是个什么场景 — 日常类比

想象你在群里发了一张化学课本里的反应图,问"这步机理是什么?",或者拍一张陌生城市的地铁线路图问"我从 A 怎么到 B"。能看着图回答你的那种 AI,就叫 VLM(Vision-Language Model,视觉-语言模型)。

之前的开源 VLM 像班里中等的同学:菜单照片、宠物图、风景照都答得不错;可一到"看化学反应图说机理"、"看地图分析地缘"这种大学考卷题,就明显被闭源那位天才同学(GPT-4o)甩在后面,群里需要付费 API 才能解决这种问题。

InternVL 2.5 做的事情,其实就是让这位开源中等生再补一年课:课本(模型参数)加厚、习题(训练数据)翻倍、考试时允许多花几分钟打草稿(测试时多步推理),最后让他在大学综合卷上第一次摸到 70 分这个"过线"门槛。

它不是发明新教学法,而是把已有的教学法放大到极致,并且把每一步都公开写进可复现的工程指南。

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling — 场景示意:这论文要解决的现实问题
Plate Nº IExpanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 闭源压制:GPT-4o、Claude 3.5、Gemini 1.5 在多模态综合卷上长期把开源压在 60 分以下,开源最高大概在 65 分附近徘徊。
  • 单维度扩展:很多开源工作只做一件事——要么堆参数(LLaVA-NeXT 加大 LLM)、要么堆数据(ShareGPT4V)、要么堆推理(CoT 提示),很少三个一起做。
  • 数据质量被忽视:早期开源 VLM 的训练数据里有大量重复、噪声、低质 caption,但因为算力瓶颈先被忽略;具体清洗方法多数没公开。
  • 训练 recipe 黑盒:闭源不公开,开源公开但碎片化;从 224 分辨率到 448 到动态高分辨率,每一步该怎么 schedule、什么时候解冻视觉塔,社区缺一份"工业级配方"。
  • 测试时计算未被开源 VLM 重视:OpenAI o1 系列已经把 test-time scaling 在文本侧做火了,但开源 VLM 在多模态上几乎没人系统试过。

这篇论文的关键想法

一句话:三件事一起加大(模型 / 数据 / 测试时),并且把每一件事都拆到别人能照着抄的程度

类比一下健身:单练胸不行,得练 + 吃 + 睡三件一起来。VLM 也一样——

  • 模型轴(练肌肉):从 1B 到 78B 的完整阶梯,视觉塔(InternViT)和语言塔(基于 Qwen2.5、InternLM2.5 等)配比经过系统消融,给出了"小模型该用什么大小的 ViT"的对照表。
  • 数据轴(吃饭):训练语料从 InternVL 2.0 的量级再扩张,同时强调质量过滤——去重、剔除低分样本、加强 OCR / 数学 / 图表等长尾领域;并构建混合 SFT(Supervised Fine-Tuning,监督微调,相当于"做带答案的练习题")数据。
  • 测试时轴(考前打草稿):在推理阶段让模型先写思考过程再答题,再让它答好几遍投票选最常见的答案,在 MMMU、MathVista 等推理重的 benchmark 上能多拿几分。

关键洞察是:三轴互相放大——更大模型更能吃下更多数据,也更能从更长的思考时间里受益。这其实是把 LLM 的 scaling law(规模法则)完整搬到了 VLM 上。

Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling — 方法示意:核心 pipeline
Plate Nº IIExpanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

视觉塔 + 语言塔的渐进对齐。 你可以把 VLM 想成一个翻译团队:一位专门看图的同事(视觉塔)+ 一位专门说话的同事(语言塔)+ 中间那位把图翻译成语言的传话员(projector)。InternVL 一贯的特点是不雇外包——它自训了一个 6B 级视觉编码器 InternViT(而不是直接拿 CLIP/SigLIP 来用),再用一个 MLP projector 把视觉特征翻译成 LLM 能听懂的词向量。2.5 延续这个架构,但加了动态高分辨率切片:一张图按比例切成若干 448×448 的小块(tile),每块单独走 ViT 再拼回来,这样既能看清 4K 文档里的小字,也不会被一张小图标浪费 token。具体切片策略和最大 tile 数需读原文。

三阶段训练流程。 像教孩子识字:先认字、再读文章、最后学按格式答题。(1) 视觉-语言预对齐:冻结语言塔,只训练 projector + 部分 ViT,让两位同事先学会对得上口型;(2) 大规模图文预训练:解冻 ViT,喂海量网络图文对,让模型见多识广;(3) 多任务 SFT:用高质量指令-回答对调教,让它学会按用户期望的格式输出。每一阶段的学习率、解冻策略、数据混合比都给了消融,具体数字需读原文。

等等,先慢一拍——"消融"是什么? 消融实验(ablation study)= 控制变量的对照实验:把某一项去掉或换掉,看分数掉多少,以此证明它确实有用。本文里"分别消融模型规模、数据、测试时"就是分别只调一项、其他不动,看各自贡献了多少分。

数据 pipeline 的工程细节。 类比厨房备料:先挑供应商(哪个数据源整体靠谱),再一颗颗挑菜(单条样本去坏的)。摘要强调他们做了 dataset-level + sample-level 双层过滤——dataset-level 评估每个数据源的整体质量来定权重;sample-level 用模型打分剔除单条噪声。还专门补了文档理解、图表、OCR、数学公式、视频帧等长尾数据。这套 pipeline 是开源 VLM 里少见的工业级配方。

测试时扩展(test-time scaling)。 类比考试:会做的题不用打草稿,难题先在草稿纸上推一遍再写答案;不放心还可以做三遍取最常见答案。论文在推理阶段让模型先生成 reasoning trace(思考链 / CoT)再给最终答案,并支持 best-of-N 采样 + 多数投票。报告显示这套办法在推理重的 benchmark 上能再加几分,但对感知类任务(OCR、grounding 之类直接看图就答的)几乎没增益——这和 LLM 侧的发现一致:思考时间只对真正需要思考的题目有用

实验在做什么

  • 核心结论:MMMU 上 InternVL 2.5-78B 首次让开源模型突破 70 分,是这篇论文最响亮的标题党数字。
  • 覆盖 benchmark:MMMU、MMBench、MathVista、AI2D、ChartQA、DocVQA、OCRBench、RealWorldQA、视频 benchmark(Video-MME 等)、grounding(RefCOCO 系列)。覆盖面接近"开源 VLM 全家桶评测"。
  • 对比对象:闭源(GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro)+ 开源(Qwen2-VL、LLaVA-OneVision、Pixtral 等)。
  • 消融:分别消融模型规模、数据规模、测试时策略对 MMMU 的贡献,验证"三轴各自有效且可叠加"。
  • 效率:1B / 2B / 4B / 8B / 26B / 38B / 78B 完整阶梯,方便下游用户按显存挑型号——这是开源相对闭源的关键卖点。

具体每个 benchmark 的数字、消融表的 delta 需读原文表格。

你应该懂的几个新词 — 4-6 个

  • MMMU(Massive Multi-discipline Multimodal Understanding):覆盖艺术、商科、医学、理工等大学课程的综合多模态题库,被视为 VLM 的"高考",70 分是公认的强模型门槛。
  • Test-Time Scaling:推理阶段花更多算力换准确率,比如 CoT、best-of-N、self-consistency、tree search。OpenAI o1 把它推火,社区开始往多模态迁移。
  • Dynamic High-Resolution(动态高分辨率切片):把一张图按宽高比切成多个固定尺寸 tile,让 ViT 既能看高分辨率细节又不爆 token 数。InternVL、Qwen-VL、Llama 3.2 Vision 都用了类似思路。
  • InternViT:上海 AI Lab 自训的 6B 级视觉编码器,对标 CLIP/SigLIP 但参数量更大,是 InternVL 系列的"自家视觉塔"。
  • Projector:连接视觉特征和 LLM 词嵌入空间的小型 MLP 或 cross-attention 模块,是 VLM 里参数最少但最关键的"翻译层"。
  • SFT(Supervised Fine-Tuning):监督微调阶段,用高质量指令-回答对调教模型,让它学会"按用户期望的格式输出"。

它和其他论文什么关系

  • 直接前作:InternVL 1.0 / 1.5 / 2.0 是同一系列,2.5 主要是规模和数据扩展,架构改动不大。
  • 同代竞品:Qwen2-VL、LLaVA-OneVision、Pixtral、Llama 3.2 Vision 都在同一时间窗发布,互相对标;InternVL 2.5 在多数 benchmark 上是当时开源 SOTA。
  • scaling law 谱系:把 Kaplan / Chinchilla 的 LLM scaling 迁移到 VLM;同期 Idefics3、PaliGemma 2 也在做类似事,但 InternVL 2.5 是规模阶梯最完整、数据 pipeline 最透明的之一。
  • 测试时计算谱系:和 OpenAI o1、DeepSeek-R1(同期)共享"test-time compute"哲学,但应用到多模态。后续 InternVL 3、Qwen2.5-VL 会继续推这条线。
  • embodied / 机器人下游:作为通用 VLM backbone,InternVL 2.5 经常被下游 VLA(Vision-Language-Action)模型用作初始化,比如某些机器人 policy 会拿 26B 版本做视觉理解前端。

我建议这样读 — 3-4 步

  1. 先看 §1 引言 + §6 实验主表:确认"三轴扩展"的总框架和 MMMU 70 分这个标题数字是怎么来的。
  2. 跳到数据章节(通常在 §3 或 §4):重点看 dataset-level / sample-level 过滤的具体规则,这是最有工程参考价值的部分;如果你以后要训自己的 VLM,这章是地图。
  3. 训练 recipe 表:找三阶段训练的学习率 / 解冻策略 / 数据混合比;对照自己手头资源决定能复现到哪个量级。
  4. 测试时扩展章节:看 CoT + best-of-N 的具体 prompt 模板和 vote 策略;这部分对推理优化工程师最有用,可以独立迁移到别的 VLM。

如果你只关心"开源 VLM 现状",看引言 + 主表就够;如果你要用它做下游任务,重点看模型规模阶梯和支持的输入分辨率。

为什么值得读

  • 它是 2024 年开源 VLM 的标志性 milestone:MMMU 70 分对开源社区的意义类似 Llama 3 在文本侧"开源追上 GPT-4"的那一刻。
  • 工程透明度高:数据 pipeline、训练 recipe、消融全部公开,是少有的能当作"工业级 VLM 训练教科书"读的论文。
  • 规模阶梯完整:从 1B 到 78B 七档全发布,下游用户基本都能挑到合适显存的型号;这种"全家桶"策略也成了后续开源 VLM 的标准动作。
  • 三轴框架是后续工作的脚手架:InternVL 3、Qwen2.5-VL、MiniCPM-V 2.6 等都沿用"模型 + 数据 + 测试时"的叙事框架,2.5 是这套叙事的第一份完整论证。
  • 对 embodied AI 的连接:作为通用视觉理解基座,它会出现在很多 VLA、机器人 policy、世界模型的 backbone 选项里,理解它的能力边界 = 理解下游模型的能力边界。

读完之后你应该能回答三个问题:开源 VLM 当前能做到什么?下一步往哪扩?如果我要训一个,从哪一步开始抄作业?

引用本笔记 / Cite this note
BibTeX
@online{eai_internvl_2_5_2026,
  title       = {(readable note) Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/internvl-2-5/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim