Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
本笔记基于摘要 + 公开资料,未读全文。
一句话讲什么(TL;DR)
把模型、数据、推理三件事一起加大,让免费开源的看图模型第一次在大学考试里追上顶级闭源模型。
(展开:InternVL 2.5 是上海 AI Lab 2024 年底放出的开源 VLM 系列,把"模型规模、数据规模、测试时计算"三轴同时推高,在 MMMU 上首次让开源破 70 分,价值在于"全公开怎么做到的"。)
这是个什么场景 — 日常类比
想象你在群里发了一张化学课本里的反应图,问"这步机理是什么?",或者拍一张陌生城市的地铁线路图问"我从 A 怎么到 B"。能看着图回答你的那种 AI,就叫 VLM(Vision-Language Model,视觉-语言模型)。
之前的开源 VLM 像班里中等的同学:菜单照片、宠物图、风景照都答得不错;可一到"看化学反应图说机理"、"看地图分析地缘"这种大学考卷题,就明显被闭源那位天才同学(GPT-4o)甩在后面,群里需要付费 API 才能解决这种问题。
InternVL 2.5 做的事情,其实就是让这位开源中等生再补一年课:课本(模型参数)加厚、习题(训练数据)翻倍、考试时允许多花几分钟打草稿(测试时多步推理),最后让他在大学综合卷上第一次摸到 70 分这个"过线"门槛。
它不是发明新教学法,而是把已有的教学法放大到极致,并且把每一步都公开写进可复现的工程指南。

之前的人怎么做的 — 3-5 bullet
- 闭源压制:GPT-4o、Claude 3.5、Gemini 1.5 在多模态综合卷上长期把开源压在 60 分以下,开源最高大概在 65 分附近徘徊。
- 单维度扩展:很多开源工作只做一件事——要么堆参数(LLaVA-NeXT 加大 LLM)、要么堆数据(ShareGPT4V)、要么堆推理(CoT 提示),很少三个一起做。
- 数据质量被忽视:早期开源 VLM 的训练数据里有大量重复、噪声、低质 caption,但因为算力瓶颈先被忽略;具体清洗方法多数没公开。
- 训练 recipe 黑盒:闭源不公开,开源公开但碎片化;从 224 分辨率到 448 到动态高分辨率,每一步该怎么 schedule、什么时候解冻视觉塔,社区缺一份"工业级配方"。
- 测试时计算未被开源 VLM 重视:OpenAI o1 系列已经把 test-time scaling 在文本侧做火了,但开源 VLM 在多模态上几乎没人系统试过。
这篇论文的关键想法
一句话:三件事一起加大(模型 / 数据 / 测试时),并且把每一件事都拆到别人能照着抄的程度。
类比一下健身:单练胸不行,得练 + 吃 + 睡三件一起来。VLM 也一样——
- 模型轴(练肌肉):从 1B 到 78B 的完整阶梯,视觉塔(InternViT)和语言塔(基于 Qwen2.5、InternLM2.5 等)配比经过系统消融,给出了"小模型该用什么大小的 ViT"的对照表。
- 数据轴(吃饭):训练语料从 InternVL 2.0 的量级再扩张,同时强调质量过滤——去重、剔除低分样本、加强 OCR / 数学 / 图表等长尾领域;并构建混合 SFT(Supervised Fine-Tuning,监督微调,相当于"做带答案的练习题")数据。
- 测试时轴(考前打草稿):在推理阶段让模型先写思考过程再答题,再让它答好几遍投票选最常见的答案,在 MMMU、MathVista 等推理重的 benchmark 上能多拿几分。
关键洞察是:三轴互相放大——更大模型更能吃下更多数据,也更能从更长的思考时间里受益。这其实是把 LLM 的 scaling law(规模法则)完整搬到了 VLM 上。

它怎么做的(方法)— 3-4 段
视觉塔 + 语言塔的渐进对齐。 你可以把 VLM 想成一个翻译团队:一位专门看图的同事(视觉塔)+ 一位专门说话的同事(语言塔)+ 中间那位把图翻译成语言的传话员(projector)。InternVL 一贯的特点是不雇外包——它自训了一个 6B 级视觉编码器 InternViT(而不是直接拿 CLIP/SigLIP 来用),再用一个 MLP projector 把视觉特征翻译成 LLM 能听懂的词向量。2.5 延续这个架构,但加了动态高分辨率切片:一张图按比例切成若干 448×448 的小块(tile),每块单独走 ViT 再拼回来,这样既能看清 4K 文档里的小字,也不会被一张小图标浪费 token。具体切片策略和最大 tile 数需读原文。
三阶段训练流程。 像教孩子识字:先认字、再读文章、最后学按格式答题。(1) 视觉-语言预对齐:冻结语言塔,只训练 projector + 部分 ViT,让两位同事先学会对得上口型;(2) 大规模图文预训练:解冻 ViT,喂海量网络图文对,让模型见多识广;(3) 多任务 SFT:用高质量指令-回答对调教,让它学会按用户期望的格式输出。每一阶段的学习率、解冻策略、数据混合比都给了消融,具体数字需读原文。
等等,先慢一拍——"消融"是什么? 消融实验(ablation study)= 控制变量的对照实验:把某一项去掉或换掉,看分数掉多少,以此证明它确实有用。本文里"分别消融模型规模、数据、测试时"就是分别只调一项、其他不动,看各自贡献了多少分。
数据 pipeline 的工程细节。 类比厨房备料:先挑供应商(哪个数据源整体靠谱),再一颗颗挑菜(单条样本去坏的)。摘要强调他们做了 dataset-level + sample-level 双层过滤——dataset-level 评估每个数据源的整体质量来定权重;sample-level 用模型打分剔除单条噪声。还专门补了文档理解、图表、OCR、数学公式、视频帧等长尾数据。这套 pipeline 是开源 VLM 里少见的工业级配方。
测试时扩展(test-time scaling)。 类比考试:会做的题不用打草稿,难题先在草稿纸上推一遍再写答案;不放心还可以做三遍取最常见答案。论文在推理阶段让模型先生成 reasoning trace(思考链 / CoT)再给最终答案,并支持 best-of-N 采样 + 多数投票。报告显示这套办法在推理重的 benchmark 上能再加几分,但对感知类任务(OCR、grounding 之类直接看图就答的)几乎没增益——这和 LLM 侧的发现一致:思考时间只对真正需要思考的题目有用。
实验在做什么
- 核心结论:MMMU 上 InternVL 2.5-78B 首次让开源模型突破 70 分,是这篇论文最响亮的标题党数字。
- 覆盖 benchmark:MMMU、MMBench、MathVista、AI2D、ChartQA、DocVQA、OCRBench、RealWorldQA、视频 benchmark(Video-MME 等)、grounding(RefCOCO 系列)。覆盖面接近"开源 VLM 全家桶评测"。
- 对比对象:闭源(GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Pro)+ 开源(Qwen2-VL、LLaVA-OneVision、Pixtral 等)。
- 消融:分别消融模型规模、数据规模、测试时策略对 MMMU 的贡献,验证"三轴各自有效且可叠加"。
- 效率:1B / 2B / 4B / 8B / 26B / 38B / 78B 完整阶梯,方便下游用户按显存挑型号——这是开源相对闭源的关键卖点。
具体每个 benchmark 的数字、消融表的 delta 需读原文表格。
你应该懂的几个新词 — 4-6 个
- MMMU(Massive Multi-discipline Multimodal Understanding):覆盖艺术、商科、医学、理工等大学课程的综合多模态题库,被视为 VLM 的"高考",70 分是公认的强模型门槛。
- Test-Time Scaling:推理阶段花更多算力换准确率,比如 CoT、best-of-N、self-consistency、tree search。OpenAI o1 把它推火,社区开始往多模态迁移。
- Dynamic High-Resolution(动态高分辨率切片):把一张图按宽高比切成多个固定尺寸 tile,让 ViT 既能看高分辨率细节又不爆 token 数。InternVL、Qwen-VL、Llama 3.2 Vision 都用了类似思路。
- InternViT:上海 AI Lab 自训的 6B 级视觉编码器,对标 CLIP/SigLIP 但参数量更大,是 InternVL 系列的"自家视觉塔"。
- Projector:连接视觉特征和 LLM 词嵌入空间的小型 MLP 或 cross-attention 模块,是 VLM 里参数最少但最关键的"翻译层"。
- SFT(Supervised Fine-Tuning):监督微调阶段,用高质量指令-回答对调教模型,让它学会"按用户期望的格式输出"。
它和其他论文什么关系
- 直接前作:InternVL 1.0 / 1.5 / 2.0 是同一系列,2.5 主要是规模和数据扩展,架构改动不大。
- 同代竞品:Qwen2-VL、LLaVA-OneVision、Pixtral、Llama 3.2 Vision 都在同一时间窗发布,互相对标;InternVL 2.5 在多数 benchmark 上是当时开源 SOTA。
- scaling law 谱系:把 Kaplan / Chinchilla 的 LLM scaling 迁移到 VLM;同期 Idefics3、PaliGemma 2 也在做类似事,但 InternVL 2.5 是规模阶梯最完整、数据 pipeline 最透明的之一。
- 测试时计算谱系:和 OpenAI o1、DeepSeek-R1(同期)共享"test-time compute"哲学,但应用到多模态。后续 InternVL 3、Qwen2.5-VL 会继续推这条线。
- embodied / 机器人下游:作为通用 VLM backbone,InternVL 2.5 经常被下游 VLA(Vision-Language-Action)模型用作初始化,比如某些机器人 policy 会拿 26B 版本做视觉理解前端。
我建议这样读 — 3-4 步
- 先看 §1 引言 + §6 实验主表:确认"三轴扩展"的总框架和 MMMU 70 分这个标题数字是怎么来的。
- 跳到数据章节(通常在 §3 或 §4):重点看 dataset-level / sample-level 过滤的具体规则,这是最有工程参考价值的部分;如果你以后要训自己的 VLM,这章是地图。
- 训练 recipe 表:找三阶段训练的学习率 / 解冻策略 / 数据混合比;对照自己手头资源决定能复现到哪个量级。
- 测试时扩展章节:看 CoT + best-of-N 的具体 prompt 模板和 vote 策略;这部分对推理优化工程师最有用,可以独立迁移到别的 VLM。
如果你只关心"开源 VLM 现状",看引言 + 主表就够;如果你要用它做下游任务,重点看模型规模阶梯和支持的输入分辨率。
为什么值得读
- 它是 2024 年开源 VLM 的标志性 milestone:MMMU 70 分对开源社区的意义类似 Llama 3 在文本侧"开源追上 GPT-4"的那一刻。
- 工程透明度高:数据 pipeline、训练 recipe、消融全部公开,是少有的能当作"工业级 VLM 训练教科书"读的论文。
- 规模阶梯完整:从 1B 到 78B 七档全发布,下游用户基本都能挑到合适显存的型号;这种"全家桶"策略也成了后续开源 VLM 的标准动作。
- 三轴框架是后续工作的脚手架:InternVL 3、Qwen2.5-VL、MiniCPM-V 2.6 等都沿用"模型 + 数据 + 测试时"的叙事框架,2.5 是这套叙事的第一份完整论证。
- 对 embodied AI 的连接:作为通用视觉理解基座,它会出现在很多 VLA、机器人 policy、世界模型的 backbone 选项里,理解它的能力边界 = 理解下游模型的能力边界。
读完之后你应该能回答三个问题:开源 VLM 当前能做到什么?下一步往哪扩?如果我要训一个,从哪一步开始抄作业?
◼
引用本笔记 / Cite this note
@online{eai_internvl_2_5_2026,
title = {(readable note) Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2024 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/internvl-2-5/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim