回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
VLM Foundation · Plate Nº 126

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

8 min read · 2678 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

BLIP-2 不动两个大模型——一个负责看图、一个负责说话——只在中间训练一个小"翻译",就让 AI 学会了看图说话。

这是个什么场景 — 日常类比

你出去玩拍了一堆照片,想发朋友圈但懒得自己想文案,于是想让手机帮你"看图配字"。问题是——市面上"看得懂图"的模型(比如 ViT、CLIP)只会把图编成一堆向量,不会说人话;而"会说人话"的大模型(比如 GPT、OPT、FlanT5)只读得懂文字,看不见图。两边都已经被人花了几百万美元训得很厉害了,你不可能为了这一个需求把它们重新烧一遍。

换个生活类比:你雇了一个只会看画不会说话的画家和一个只会写文章但眼睛蒙着的作家,两位都是大师级,但互相听不懂对方的话。

之前别人解决这个问题,要么把两位大师关起来重新一起培训(端到端训练,烧钱),要么逼作家自己学看画(微调 LLM,作家越来越大就越不愿意动)。

BLIP-2 干的事很省事:雇一个便宜的小翻译(Q-Former)站在两人中间,画家和作家原地不动、脑子一点不改,只让小翻译反复练习"怎么把画家看到的画,转述成作家爱听的话"。两位大师加起来几十上百亿参数全部冻住,真正在训练的只有一亿多参数的小翻译——成本一下就降下来了。

BLIP-2 — 场景示意:这论文要解决的现实问题
Plate Nº IBLIP-2 — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 端到端联合训练(如 BLIP-1、SimVLM、CoCa):图像编码器 + 文本解码器一起训,效果好但训练成本巨大,每出一代新视觉/语言主干都得从头烧一遍。
  • 冻结视觉、训练 LLM(如 Frozen、ClipCap):让视觉特征通过简单 projector 接进语言模型再 fine-tune LLM。问题是 LLM 越大越不愿意动它,且对齐质量不稳。
  • 冻结 LLM、训练视觉适配(如 Flamingo):插入 cross-attention 的 Perceiver Resampler 进入 LLM 内层,效果强,但需要在 LLM 内部插入大量新参数,工程成本高。
  • CLIP 类对比学习:图文对齐能力强,但天然不会生成自然语言描述/对话,做不了 VQA、captioning 这种生成任务。

核心痛点:要么算力贵,要么要侵入式改 LLM 内部,要么只对齐不会生成。

这篇论文的关键想法

BLIP-2 的关键洞察可以拆成三层:

第一,两端都不动——就像装修房子时不动承重墙,只在中间加一道隔断。视觉编码器和 LLM 全程冻结,参数完全不更新。这样可以无脑替换上游模型——明天 EVA-CLIP 出新版、LLM 换成更强的,不用重训。

第二,只训中间一个 Q-Former 小模块——好比给一群人开会派一个"实习生"专门做笔记。Q-Former 内部有一组可学习的 Query 向量(Query Embeddings,可学习的查询向量),数量很少(论文常用 32 个)。这些 Query 像 32 个带着固定问题清单的提问者,通过 cross-attention 反复向冻结的图像特征"问问题",把一整张图压缩成 32 个语义向量。

等等,先慢一拍——什么叫"可学习的 Query"?想象 32 个一开始什么都不会的小学生,每个人随机被分配一个角度("图里有人吗""啥颜色为主""在室内还是户外"……),训练过程就是反复让他们去看几亿张图,被打分纠正,慢慢每个人都进化出自己擅长问的那类问题。最后这 32 个人合在一起就能把任何图的"重点"梳理出来。

第三,两阶段训练——像学一门外语,先背单词再练写作,不是一上来就让你写论文。第一阶段把 Q-Former 接到视觉编码器上,做表征学习(图文对比 + 图文匹配 + 图像-文本生成三个任务联合);第二阶段把 Q-Former 输出的 32 个 Query 当作"软 prompt"喂给 LLM,让 LLM 在冻结状态下做生成式预训练。两阶段把对齐和生成解耦,避免一锅炖学不动。

这个设计的妙处:32 个 Query 这个信息瓶颈强迫 Q-Former 只把"对语言任务有用的视觉信息"挑出来,过滤掉冗余像素细节,正好是 LLM 想要的输入形式。

BLIP-2 — 方法示意:核心 pipeline
Plate Nº IIBLIP-2 — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

Q-Former 的内部结构。Q-Former 本身是一个轻量 BERT 风格的 Transformer,但有两路输入:一路是可学习的 Query 向量(32 个,每个 768 维左右,具体维度需读原文),另一路是文本 token。Query 之间和 Query↔文本之间走 self-attention,Query↔图像特征走 cross-attention(这是 Query 唯一接触图像的通道)。三种 attention mask 配合三种训练任务切换:ITC(图文对比)、ITM(图文匹配)、ITG(图文生成)。

第一阶段:表征学习。冻结视觉编码器(ViT-L 或 EVA-CLIP-g),只训 Q-Former。三任务联合优化:ITC 让 Query 输出和文本表征对齐(类似 CLIP);ITM 做细粒度的二分类(这对图文是不是匹配);ITG 让 Q-Former 像 caption 模型一样生成文本。这一阶段后,32 个 Query 已经能从图像里抽出语义化的"摘要"。

第二阶段:生成式预训练。把 Q-Former 输出的 32 个 Query 向量过一个 Linear 层投到 LLM 的词嵌入空间,作为前缀(soft prompt)拼到文本 token 前面,喂给冻结的 LLM。LLM 自回归生成图像描述。LLM 这边可以是 decoder-only(OPT 系列)或 encoder-decoder(FlanT5 系列),论文都试过。

训练数据与算力。预训练用了 COCO、Visual Genome、CC3M、CC12M、SBU、LAION-400M 子集等图文对,规模约 1.29 亿图文对(具体数字以原文为准)。最大版本 BLIP-2 ViT-g + FlanT5-XXL 总参数约 12B,但可训练参数只有约 188M(Q-Former + Linear),训练成本远小于同期端到端方案。

实验在做什么

主要看几类任务:

  • Zero-shot VQA(视觉问答,无需任务特定训练):在 VQAv2、OK-VQA、GQA 上零样本表现,BLIP-2 比 Flamingo-80B 用更少参数取得更高或相当分数。
  • Image Captioning:在 NoCaps、COCO Caption 上做 zero-shot 和 fine-tune,刷 SOTA。
  • Image-Text Retrieval:在 COCO、Flickr30K 上检索任务,用第一阶段的 Q-Former 直接做。
  • Visual Dialog / 指令跟随:展示了把 BLIP-2 接到指令微调过的 LLM(FlanT5)上能涌现出类对话能力,给后来 InstructBLIP、MiniGPT-4、LLaVA 系列开了路。
  • 消融:拆掉两阶段的某一阶段、改 Query 数量、换 LLM 大小,验证设计选择。

具体分数和图表需读原文。

你应该懂的几个新词 — 4-6 个

  • Q-Former(Querying Transformer):本文核心模块,靠一组可学习 Query 从冻结图像特征里 cross-attention 抽取语义摘要。
  • 可学习 Query(learnable queries):一组随机初始化、训练中更新的向量,作用是"代表问题"去问图像。可类比 DETR 的 object queries,但这里问的是语义而不是物体框。
  • 冻结(frozen):参数 requires_grad=False,前向计算正常但反向传播不更新它们。和 LoRA 不同,BLIP-2 主体两端是真冻结,没插任何可训练适配器。
  • 软提示 / soft prompt:不是离散的文字 prompt,而是直接拼在 LLM embedding 层的连续向量。Q-Former 输出的 32 个向量过 Linear 后就是 soft prompt。
  • ITC / ITM / ITG:图文对比 / 图文匹配 / 图像到文本生成。三种自监督目标合在一起训 Q-Former。
  • Information bottleneck(信息瓶颈):32 个 Query 远少于 ViT 的 patch 数(256-1024+),强制 Q-Former 抽取压缩表征,是 BLIP-2 工作的关键归纳偏置。

它和其他论文什么关系

  • 上承 BLIP-1(同作者团队 2022):BLIP-1 是端到端联合训练,BLIP-2 把"训整个模型"换成"训中间桥梁",思想跃迁。
  • 对标 Flamingo(DeepMind 2022):都做"冻结 LLM + 视觉接入",但 Flamingo 在 LLM 内部插 cross-attention,BLIP-2 只在 LLM 输入端拼 soft prompt,更解耦、更便携。
  • 启发后续 VLM 范式:LLaVA(线性 projector 替代 Q-Former,更简单)、InstructBLIP(BLIP-2 + 指令微调)、MiniGPT-4、Qwen-VL、InternVL 等都是"冻结/部分冻结视觉 + LLM + 中间桥梁"路线,桥梁有的简化为 MLP,有的更复杂,但 BLIP-2 是这一范式的奠基工作之一。
  • 与 CLIP/SigLIP 区别:CLIP 类只学对齐不会生成,BLIP-2 同时具备对齐(第一阶段)和生成(第二阶段)能力。
  • 与 LLaVA 对比:LLaVA 用一个 MLP 直接把 CLIP visual token 映射到 LLM embedding,没有 Query Bottleneck。工程更简单但理论上信息压缩不如 Q-Former 优雅。社区后来更倾向 LLaVA 路线,因为 MLP 简单、scale 起来更好;但 Q-Former 的思路在多帧视频、多模态融合等场景仍有优势。

我建议这样读 — 3-4 步

  1. 先看图 2 / 图 3 的整体架构,搞清三个组件(视觉编码器、Q-Former、LLM)和数据流:图像 → 视觉特征 → Q-Former Query 抽取 → Linear → LLM 输入。这一步看懂就抓到 80% 主旨。
  2. 再看 Q-Former 内部结构(论文 Section 3.1 / 3.2):三种 attention mask 怎么配合三种训练目标,理解为什么 Query 既能对齐又能生成。
  3. 跳着看实验:先看 Table 1(zero-shot VQA 对比 Flamingo),感受参数效率;再看消融(Query 数量、两阶段必要性)。
  4. 跟读两篇后续工作做对比:LLaVA(极简 MLP 桥梁)和 InstructBLIP(BLIP-2 + 指令微调),看 Q-Former 在不同变体里的演化。

为什么值得读

  • 范式开创:2023-2024 几乎所有开源 VLM 都在 BLIP-2 的"冻结+桥梁"框架下做变种,读它就是读这一代 VLM 的基因。
  • 工程性价比示范:12B 总参 / 188M 可训参,告诉你"不是所有事都得端到端"。具身智能里把视觉 backbone 和决策 LLM 解耦,思路上和 BLIP-2 一脉相承。
  • 信息瓶颈的设计哲学:32 个 Query 这个朴素设计,是"用约束逼模型抽象"的经典案例,对你设计任何"压缩 + 翻译"模块都有借鉴。
  • 承上启下定位:往前接 BLIP-1、Flamingo、CLIP;往后接 LLaVA、InstructBLIP、Qwen-VL、InternVL、VLA(视觉语言动作模型)。读完它再看后续论文会有"原来都是这棵树长出来的"的爽感。
  • 难度适中:核心思路一句话讲完,但细节(三任务联合、attention mask 设计、两阶段必要性)足够深入,⭐⭐⭐⭐ 难度刚好——不像 CLIP 那么入门,也不像 Flamingo 那么劝退。

引用本笔记 / Cite this note
BibTeX
@online{eai_blip_2_2026,
  title       = {(readable note) BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/blip-2/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim