回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
VLM Foundation · Plate Nº 127

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

17 min read · 5849 字 · ⭐⭐⭐ · auto 摘要

TL;DR

一句话:让一个模型同时学会看图和写字,再让它帮自己把网上烂配文重写干净,回头再用干净数据训一遍——多个任务全线变强。

三个关键贡献:

  • MED(Multimodal mixture of Encoder-Decoder):一个模型三种身份切换——纯编码器、看图的文本编码器、看图的文本解码器,三种身份共享大部分参数。
  • CapFilt(Captioning + Filtering):用预训练好的模型派生出一个"配字员"和一个"过滤器",给 1 亿多张网图重新生成 caption 并把脏的扔掉。
  • 跨任务通吃:图文检索、image captioning、VQA、NLVR²、VisDial、零样本视频检索全部 SOTA。

所以这一节是想说:BLIP 同时治理"模型偏科"和"数据脏乱"两个老毛病,用一个模型 + 一套数据清洗流程把视觉语言预训练带进新阶段。


这是个什么场景

想象你在用手机相册搜图:输入"我家猫趴在窗台",相册要找出对应的照片;或者你拍了张菜市场的照片,App 帮你自动配一句"清晨的鱼摊"。这两件事看着相近,其实需要两套本事——前者是"看图找文字配对",后者是"看图自己写文字"。视觉语言预训练(Vision-Language Pre-training, VLP)就是想训出一个"通用大脑",让它两件事都能干,而且训一次就能去搜图、配字、视觉问答各种活儿都用。就像让小孩先翻一万本带插图的绘本,以后不管考"看图说话"还是"看文字找图"都不打怵。

但 2021 年前后业界遇到两个尴尬:

第一个尴尬是模型偏科——像两个学生各只会做半套题:

  • CLIP 这类双塔模型擅长"图和文字到底配不配"的选择题(搜图很快),但让它"看图写一段话"就抓瞎,因为它根本没装"写字"的零件(解码器)。
  • 反过来,纯 encoder-decoder 模型(如 SimVLM)能写文字,但做检索时要把每张图和每段文字两两过一遍,慢得像每次找东西都把整个家翻一遍。

第二个尴尬是数据——食材烂但只能硬吃:

  • 大模型像个永远吃不饱的孩子,需要海量图文对;但人工标注(COCO、Visual Genome)只有几百万对,喂不饱。
  • 于是大家从网上爬"图 + alt-text"。问题是网图的 alt-text 经常胡说八道——比如一张风景照配文"在朋友家门口拍的",跟图里的山水半毛钱关系都没有。
  • 之前的应对是写几条简单规则筛一筛,然后赌"数据多够大噪声会被平均掉"。

BLIP 同时瞄准这两个问题。

所以这一节是想说:图文预训练当时卡在"模型只能干一类活"和"数据脏但没人认真治"两个瓶颈上,BLIP 就是冲着这两件事来的。


BLIP — 场景示意:这论文要解决的现实问题
Plate Nº IBLIP — 场景示意:这论文要解决的现实问题

之前的人怎么做

把同期主流方法按"模型形态 × 数据策略"分成几类:

模型形态维度

  • 双塔 encoder(CLIP / ALIGN / ALBEF):图一个塔,文一个塔,最后用对比学习对齐。检索快、判别强,但不能生成文字。
  • encoder-decoder(SimVLM / VL-T5):图进 encoder,文从 decoder 出来。能配字、能 VQA,但检索时要 N×M 次前向,效率劝退。
  • 统一 encoder-decoder(VLP / Unified VLP):想兼顾两者,但单一架构在两类任务上都不算最强。

数据策略维度

  • 规则过滤:CC3M / CC12M 用启发式规则筛 alt-text。
  • 暴力堆量:ALIGN 干脆爬 1.8B 图文对,靠"量大噪声平均"硬扛。
  • CLIP 过滤:LAION 用预训练的 CLIP 给图文打分,相似度太低的扔掉。

BLIP 之前最接近的工作是同组的 ALBEF:双 encoder + cross-attention 融合 + ITC + ITM 损失 + momentum distillation。BLIP 直接在 ALBEF 基础上加了两件事——给它接一个解码器(变成 MED),再让 MED 自己反过来清洗数据(CapFilt)。

类比一下:之前是"请最严格的语文老师批改学生作文"(CLIP 过滤),BLIP 干的是"让会写作文的老师亲自重写一遍范文,然后让会判分的老师把烂作文丢掉"。

所以这一节是想说:BLIP 的家世清楚——架构沿 ALBEF 走,但加了解码器;数据上跳出"规则过滤+暴力堆量",做了"模型自产自校"的新闭环。


新想法

BLIP 的核心 insight 其实可以浓缩成两条:

Insight 1:理解任务和生成任务不必分两个模型,但需要共享得有讲究。

文本编码器(理解)和文本解码器(生成)的差别本质上只在 self-attention 是双向还是因果——双向的可以"前后文都看",因果的只能"看前面预测后面"。其他层(embedding、cross-attention、FFN)功能其实一样,可以共享。共享后参数从 361M 降到 252M,反而效果更好(实验表 3 验证)。

Insight 2:预训练好的模型本身就是最好的数据清洗工具。

之前用规则、用 CLIP 过滤,但这些工具都是"外人"。BLIP 想的是:既然预训练模型已经懂图文了,为什么不让它自己当老师?派一个分身去"重写 caption",再派另一个分身去"判这条 caption 配不配图"。两个分身从同一个母体出来但分别 fine-tune,避免同源偏见(confirmation bias)——表 4 验证了"两个分身共享参数会变差"。

把这两件事拼在一起:MED 让一个模型同时具备"配字"和"判分"能力 → 抽出来当 captioner 和 filter → 清洗网图数据集 → 拿干净数据再训一个新的 MED → 这就是"bootstrapping"(自举)的来源。

类比:你做菜不好吃,先看菜谱(人工标注 COCO)打底学会基本功,然后买一堆便宜但参差不齐的食材(网图 alt-text)。你边做边记笔记修正菜谱,下一轮用这本修正过的菜谱再炒一次——菜会越做越好。

所以这一节是想说:BLIP 的两大新意是"理解+生成共享同一参数集合"和"模型自产自校数据",自举循环让数据和模型一起进步。


方法分步

Step 1:搭 MED 架构

类比:MED 像一家小餐馆雇了一个全能员工,胸前挂着三块名牌——切到"前台"模式负责认菜(理解),切到"配菜"模式负责把图和说明对得上,切到"后厨"模式负责现场写菜单(生成)。同一个人,换名牌干不同活,省人手。

MED = 一个图像编码器(ViT)+ 一个文本网络,文本网络可以切换三种模式。

图像端:标准 ViT-B/16 或 ViT-L/16,图片切 patch + [CLS] token,输出一串 embedding。

等等,先慢一拍 —— ViT 是什么?把图切成 16×16 的小方块(patch),每块当成一个"词"扔进 Transformer,模型就能像处理文字一样处理图。[CLS] 是开头加的一个汇总位,最后用它代表整张图。

文本端三种模式(共享大部分参数,只有 self-attention 不同):

模式 用什么 self-attention 用 cross-attention 吗 训练时干什么
Unimodal encoder 双向 SA 不用 ITC 对比学习对齐图文
Image-grounded text encoder 双向 SA 用,注入图片信息 ITM 二分类判图文配不配
Image-grounded text decoder 因果 SA LM 看图写句子

每条图文对一次训练时:图像走一次 ViT,文本走三次(每次切一种模式算一种 loss),三种 loss 加起来反向传播。

Step 2:三种损失同时训

类比:像同时请三个老师批改一张作业——一个看大方向(粗筛),一个抠细节(精判),一个让你重写一遍(背诵)。三种反馈加起来才学得透。

ITC (Image-Text Contrastive Loss):像在教室里给同桌靠拢、跟陌生人保持距离。拉近匹配的图文 embedding,推远不匹配的。沿用 ALBEF 的 momentum encoder 和 soft label 设定。

  • 人话:让图的特征向量和它配文的特征向量在空间里挨着,不配的离远点。

ITM (Image-Text Matching Loss):像验钞机——光看个大概不够,得对着光仔细瞧。二分类 head,输入融合后的多模态 embedding,输出"配 / 不配"。配合 hard negative mining——故意挑那些 ITC 算出来"长得很像但其实不配"的对当负样本,逼模型学细粒度对齐。

  • 人话:ITC 是粗筛(特征空间的距离),ITM 是细看(真的看清细节再判断)。

LM (Language Modeling Loss):像默写课文,一个字一个字往下接。自回归预测下一个 token 的交叉熵,加 0.1 的 label smoothing。

  • 人话:给定图,逐字逐字地把 caption 写出来。

为什么不用 BERT 那种 MLM(在句子中间挖空让模型填)?因为 LM 训练出的解码器才能直接做 image captioning 这类"从零开始写一段"的生成任务。

Step 3:CapFilt 数据自举

类比:你想学做菜,但买回来的食材一半是烂的。聪明的做法是——先用基础食材学会基本功,再让自己当"采购员"重写采购清单,再让自己当"质检员"把烂食材扔掉,下一轮就能用更干净的食材。CapFilt 就是这个套路。

预训练完一轮后:

  1. 派出 captioner(采购员):把 image-grounded text decoder 拿出来,在 COCO 上用 LM 损失 fine-tune。给每张网图 $I_w$ 用 nucleus sampling 生成一条新 caption $T_s$。
  2. 派出 filter(质检员):把 image-grounded text encoder 拿出来,在 COCO 上用 ITC + ITM 损失 fine-tune。让它对每条 caption 打分,ITM head 判为"不匹配"的就丢掉。
  3. filter 同时审两边:原始 web 文本 $T_w$ 和合成文本 $T_s$ 都过滤,留下来的合在一起,再加上人工标注的 COCO/VG,组成新数据集 $D'$。
  4. 新模型从头训:拿 $D'$ 重新预训一个新 MED(实验表 13 证明:从老模型继续训反而不如从头训)。

关键细节

  • captioner 和 filter 必须单独 fine-tune,不共享参数(共享会让 captioner 生成的脏 caption 更不容易被 filter 抓出来——好比让同一个人既当采购员又当质检员,自家货怎么舍得退?这就是确认偏见)。
  • 生成 caption 用 nucleus sampling(p=0.9)而非 beam search。beam search 倾向给"最安全"的常见 caption,多样性差;nucleus 采样更"野",虽然脏的也多(噪声率从 19% 升到 25%),但总体提升更大(表 2)——多样性 > 安全性。

类比:写作文时让 AI"老老实实写最稳的句子"信息量低,让它"放飞一点写得有趣"虽然偶尔翻车但学到的更多。

所以这一节是想说:方法分两阶段——先把 MED 三模式联合预训,再用预训模型派生 captioner+filter 清洗数据,干净数据回头训新模型。nucleus sampling、参数解耦、从头训这三个细节是关键。


关键数字

模型规模

  • 图像端:ViT-B/16(86M 参数)或 ViT-L/16(307M 参数)
  • 文本端:BERT-base 初始化,~110M 参数
  • 共享后总参数:BLIP-Base 约 252M,比不共享的 361M 少近 30%

数据规模

  • 14M 设定:COCO + VG + CC3M + CC12M + SBU = 14M 图
  • 129M 设定:上面 + LAION(115M,每 epoch 用 1/5)
  • 人工标注 vs 网图 = 1.2M : 12.8M(14M 设定下)

训练成本

  • 2 个 16-GPU node = 32 卡
  • batch size 2880(ViT-B)/ 2400(ViT-L)
  • 20 epoch,warmup 到 lr=3e-4 后线性衰减 0.85
  • 输入分辨率:预训 224×224,fine-tune 384×384

性能数字(vs ALBEF 14M 同等数据):

  • COCO 检索 TR@1:77.6 → 80.6(+3.0)
  • COCO 检索 IR@1:60.7 → 63.1(+2.4)
  • COCO captioning CIDEr:127.8 → 129.7
  • VQA test-dev:75.84 → 77.54(+1.70)
  • 零样本视频检索 MSRVTT R@1:18.7 → 43.3(甚至超过被微调的方法 +12.4)

CapFilt 的具体增益(14M 设定,ViT-B 表 1):

  • 不用 CapFilt:TR@1 78.4 / IR@1 60.7 / CIDEr 127.8
  • 只 captioner:79.7 / 62.0 / 128.9
  • 只 filter:79.1 / 61.5 / 128.2
  • captioner + filter:80.6 / 63.1 / 129.7

filter 的过滤率:约 25%(nucleus + 解耦设定下,表 2)。

所以这一节是想说:BLIP 用比 SimVLM 少 13 倍的数据、比 LEMON 低很多的输入分辨率,跑出更好的成绩;CapFilt 单独贡献 +1~3 个点,captioner 和 filter 必须配合用才能叠加效益。


应该懂的新词

  • VLP (Vision-Language Pre-training):视觉语言预训练。先在图文对上预训出通用表示,再 fine-tune 到下游任务。
  • encoder-only / encoder-decoder / decoder-only:模型只能编码(像 BERT、CLIP)/ 编码后再解码(像 T5、SimVLM)/ 只解码自回归生成(像 GPT)。BLIP 的 MED 是把前两者合并并加生成支路。
  • ITC / ITM / LM:BLIP 三个 loss。ITC 拉近匹配嵌入;ITM 细粒度二分类;LM 自回归生成。
  • cross-attention vs self-attention:self-attention 是同一序列内 token 之间互看;cross-attention 是 query 来自一边、key/value 来自另一边(BLIP 里 query 是文本 token,key/value 是图像 patch)。
  • causal self-attention:因果掩码的 self-attention,每个位置只能看到自己和前面位置——为生成任务必备。
  • Nucleus sampling (top-p sampling):解码时只从累计概率 ≥ p 的最小 token 集合里采。比 beam search 多样、比 top-k 自适应。
  • Beam search:解码时维护 k 条最优候选路径,每步扩展取分数最高的 k 条。倾向"安全平庸"。
  • CIDEr / SPICE / BLEU@4:image captioning 的评测指标。CIDEr 看 n-gram 共识;SPICE 看场景图语义匹配;BLEU@4 看 4-gram 精确率。
  • R@1 / TR@1 / IR@1:检索 recall@1,Top-1 命中率。TR 是文搜图(Text-to-image Retrieval,但 BLIP 表里是 image→text),IR 反过来。
  • Bootstrapping(自举):用模型当前的能力去改进数据/模型本身,再迭代。和"自蒸馏"、"自训练"是亲戚。
  • Confirmation bias(确认偏见):自己 fine-tune 出的 captioner 生成的脏 caption,自己的 filter 反而更难发现——因为它们看世界的方式相似。
  • Hard negative mining:训练时不随便抽负样本,专挑那些"很容易被搞混"的负样本,逼模型学细节。
  • Momentum encoder:维护一个参数缓慢移动平均的 encoder 副本,用它产生 soft label,缓解 noisy 数据下的对比学习不稳。

所以这一节是想说:读 BLIP 至少要熟 VLP、ITC/ITM/LM、cross/causal-attention、nucleus sampling、bootstrapping 这五组词,否则后面的实验讨论看不进去。


搞不定的

BLIP 没解决也明说了的问题:

  • 没多轮自举:作者自己点出"多轮 bootstrapping 是未来方向"。BLIP 只做了一轮 captioner→filter→重训。
  • 每张图只有一条合成 caption:可以一图多 caption 进一步扩充语料。
  • 没做 captioner/filter 的 ensemble:训多个版本组合可能更鲁棒。

更宏观的局限:

  • 零样本 video 任务靠"丢帧拼序列":直接把 8 或 16 帧 ViT 特征拼起来,完全忽略时序。video QA / video retrieval 表面 SOTA,但任何强时序需求(动作识别、因果推理)就会暴露。
  • CapFilt 依赖人工标注的 COCO 做 fine-tune:本质上还是 COCO 的"先验"在驱动。完全没有人标的领域(医学、卫星图)是否能 bootstrap 出干净 caption 是问号。
  • filter 的判定边界是 ITM 二分类:阈值附近的 caption 可能"半对半错",简单二分会丢信息。
  • NLVR² 加 web 图收益弱:作者承认是 web 数据和下游数据的 domain gap 导致——表明 BLIP 不是万能的。
  • 没用 vision-only self-supervision:ViT 是 ImageNet 监督初始化的,没用 MAE 之类的自监督做更强 visual encoder。

后续工作怎么补:

  • BLIP-2(同组):把 LLM 接进来,CapFilt 思路升级成 Q-Former bridging。
  • InstructBLIP:再加指令微调,做"会聊天的看图模型"。

所以这一节是想说:BLIP 是"统一+清洗"的框架级胜利,但视频时序、领域迁移、多轮自举都还是开放问题;后来的 BLIP-2 / LLaVA 系列就是来填这些坑的。


与别篇关系

直接前作(架构和损失继承)

  • CLIP (Radford 2021):双塔 + ITC 对比学习。BLIP 把它的 ITC 拿来当三个 loss 之一。
  • ALBEF (Li 2021):BLIP 的"亲哥"——同一作者团队,双 encoder + cross-attention + ITC + ITM + momentum distillation。BLIP = ALBEF + LM 解码器 + CapFilt。
  • ViT (Dosovitskiy 2021):图像 backbone。
  • BERT (Devlin 2019):文本 backbone 初始化来源。

同期对比方法

  • SimVLM (Wang 2021):encoder-decoder + 1.8B 数据。BLIP 用 1/13 数据超它。
  • ALIGN (Jia 2021):1.8B 暴力堆量的代表。BLIP 证明"清洗 100M 比硬堆 1.8B 更香"。
  • VinVL / LEMON / OSCAR:依赖 object detector 提取 region feature 的旧路线,BLIP 走 detector-free 路线。

思想关联

  • Knowledge Distillation (Hinton 2015) / Self-distillation:CapFilt 可以看成 VLP 版本的自蒸馏——captioner 用合成 caption 蒸馏知识,filter 用过滤行为蒸馏知识。
  • Noisy Student (Xie 2020):用学生模型给伪标签训新学生的自训练,CapFilt 在视觉语言版本上做了类似事。
  • 数据增强:CapFilt 是面向 VLP 的数据增强,与 NLP 里"用 LM 生成增强文本"思路同源但更大胆。

后续衍生

  • BLIP-2 (2023):保留 ITC/ITM/LM 三 loss,但把文本侧换成冻结的 LLM,用 Q-Former 做轻量 bridge。
  • InstructBLIP:BLIP-2 + 指令微调。
  • LLaVA / MiniGPT-4:受 BLIP 系列启发,但用 GPT-4 / ChatGPT 生成的指令数据。
  • EVA-CLIP / OpenCLIP:继承 CLIP 思路但用更大数据。

在 embodied AI / VLA 谱系里的位置

  • BLIP 不直接做 embodied AI,但它是 RT-2、PaLM-E、π0 等 VLA 的"上游能力来源"——VLA 模型能看图理解任务,根子就在 BLIP/CLIP 这条 vlm-foundation 链上。

所以这一节是想说:BLIP 是 ALBEF 的直接升级,是 CLIP 的"会写字版本",也是 BLIP-2/LLaVA 的祖先;理解它就理解了 2022 年前后视觉语言基础模型的拐点。


阅读顺序

如果你是入门读者,建议这样啃:

  1. 先读 abstract + 图 1(Captioner + Filter 的总览图):30 秒抓住"自举数据"这个核心。
  2. 跳到 Section 3.1(图 2):MED 三种模式 + 三种 loss,这是全文最需要看懂的图。先确认你能区分三个模式的 SA/CA 配置。
  3. 回头看 Section 1 Introduction:作者怎么说"模型偏科"和"数据脏"两个 motivation。
  4. 读 Section 3.3(图 3):CapFilt 流程,结合图 4 的真实例子(哪些 caption 被 filter 杀掉了)。
  5. 跳 Section 4.2 + 表 1:CapFilt 的 ablation——单独 captioner、单独 filter、两者结合的提升量。
  6. 看 Section 4.3 + 表 2:为什么用 nucleus 而不是 beam search(多样性 > 安全性)。
  7. 看 Section 4.4 + 表 3、表 4:参数共享策略——pre-training 共享,但 captioner/filter 必须解耦。
  8. Section 5 各 SOTA 对比:可以快速扫,关心数字就盯 14M 那行(公平对比)。
  9. Section 5.6 zero-shot video:这是最炫的结果但也最有水分(无时序建模)。
  10. Section 6 Additional Ablation:表 12(不是因为训得久)、表 13(不能从老模型继续训)这两个反向验证。
  11. Section 2 Related Work / 参考文献:最后看,串联谱系。

省时优先级:图 2 + 图 3 + 表 1 + 表 2 + 5.6 这五个地方占信息量的 80%。

搭配阅读

  • 先读 ALBEF 论文(理解 BLIP 的起点)
  • 再读 BLIP-2 论文(看演进方向)
  • 想做 embodied 链路的:读完跳到 Flamingo / PaLM-E。

所以这一节是想说:先看图 2 + 图 3 抓骨架,再看表 1 + 表 2 信关键 ablation,剩下的对比实验扫一眼即可。


FAQ

Q1:MED 算"一个模型"还是"三个模型"? 答:参数上是一个模型——三种模式共享 embedding、cross-attention、FFN,只有 self-attention 那部分会切换(双向 SA 给 encoder,因果 SA 给 decoder)。所以是"一组参数三个工作模式",不是三套独立权重。

Q2:CapFilt 是不是就是数据清洗?为什么要叫"自举"? 答:因为清洗工具(captioner / filter)不是外人,是从模型自己派生的。模型先用脏数据训出基础能力,用这个能力清洗数据,清洗后的数据再训新模型——能力和数据互相 boost,所以叫 bootstrapping。

Q3:为什么 captioner 和 filter 要解耦?让一个网络又生成又判断不行吗? 答:实验上不行(表 4:解耦后效果好且过滤率从 8% 升到 25%)。直觉解释:共享参数会让 captioner 生成的脏 caption 在 filter 看来"自家产的没问题",confirmation bias 让坏数据混过去。

Q4:为什么生成 caption 要用 nucleus 而不是 beam search? 答:beam search 倾向给"最高概率"的安全 caption,结果都是"a man is standing"这种空话,对模型学新东西没增益。nucleus 采样多样性强,虽然噪声率高但 filter 会兜底,最终增益更大(表 2)。

Q5:为什么不用过滤好的数据"接着训"老模型? 答:表 13 直接验证了——继续训不如从头训。作者类比知识蒸馏:学生不该从老师那里直接初始化(不然学到的还是老师的偏见),应该重新开始。

Q6:BLIP 在视频上零样本 SOTA 是怎么做到的,不是说没建模时序吗? 答:直接抽 8 / 16 帧 ViT 特征拼成长序列喂给 image-grounded text encoder,像处理"很多张图一起"一样。能 work 是因为 MSRVTT/MSVD 这类任务很多帧都长得差不多,时序不关键;但碰到强时序任务(动作分类)就会原形毕露。

Q7:CapFilt 是不是只能用 COCO 做 fine-tune?换个领域行不行? 答:论文只在 COCO 上 fine-tune captioner/filter。换领域理论上可行(拿那个领域的少量人标对 fine-tune 就行),但 fine-tune 数据集质量决定了"清洗师傅"的水平上限——这是 BLIP 没回答的问题。

Q8:BLIP 和 CLIP 到底什么关系? 答:CLIP 只做 ITC(对比学习)一件事,是 BLIP 的"理解任务子集"。BLIP 在 CLIP 的能力上多加了 ITM(细粒度判别)和 LM(生成),并且补了 CapFilt 数据治理。可以把 BLIP 看成"CLIP + 解码器 + 数据自洁"。

Q9:BLIP 训练成本贵吗? 答:32 张 GPU × 20 epoch,batch size ~2880。在 2022 年是中等规模——比 CLIP 的 256 V100 × 12 days 便宜很多(因为数据少 1 个数量级),比 SimVLM-huge 那种 1.8B 数据更便宜。但比 ALBEF 略贵(多了 LM 损失和 CapFilt 重训)。

Q10:我自己想用 BLIP 做下游任务,从哪开始? 答:直接用 HuggingFace 的 Salesforce/blip-* 系列 checkpoint(image-captioning-base / vqa-base / itm-base)。零样本能用就别 fine-tune;要 fine-tune 看 BLIP 官方仓库 README。如果是新任务,建议先试 BLIP-2,已经默认接 LLM、能力更强。

所以这一节是想说:MED 本质是"参数共享但模式切换",CapFilt 本质是"模型自产自校的数据自举",两者解耦训练 + nucleus 采样 + 从头重训是三个让方法 work 的关键工程细节。


延伸阅读

前作打底(按读顺序):

  1. CLIP (Radford et al., 2021) — 对比学习对齐图文,BLIP 的 ITC 来源。
  2. ViT (Dosovitskiy et al., 2021) — BLIP 图像 backbone。
  3. ALBEF (Li et al., 2021) — BLIP 的直接前身,必读。
  4. ALIGN (Jia et al., 2021) — 1.8B 暴力堆量代表。

同期对比

  • SimVLM (Wang et al., 2021) — encoder-decoder 路线代表。
  • VinVL / OSCAR (Zhang/Li et al.) — 依赖 detector 的旧路线。
  • LEMON (Hu et al., 2021) — captioning 老 SOTA。

直系后续

  • BLIP-2 (Li et al., 2023) — Q-Former + 冻结 LLM。
  • InstructBLIP — 指令微调版本。
  • Flamingo (Alayrac et al., 2022) — DeepMind 的对手作品,few-shot 多模态。
  • LLaVA / MiniGPT-4 — 把 BLIP 思路接到 GPT-4 数据上。

思想关联

  • Knowledge Distillation (Hinton et al., 2015) — 自蒸馏鼻祖。
  • Noisy Student (Xie et al., 2020) — 自训练 ImageNet 突破。
  • CC3M / CC12M / LAION — BLIP 用的预训练数据集,配合 paper 看数据规模。

embodied AI 链路(理解 BLIP 在更大图谱里的位置):

  • Flamingo / PaLM-E / RT-2 — 把视觉语言能力接到机器人控制上。
  • VC-1 / R3M / Voltron — 机器人专用视觉编码器,但思路上都受 CLIP/BLIP 影响。

实操

  • HuggingFace Salesforce/blip-* 官方 checkpoint
  • 官方仓库:github.com/salesforce/BLIP
  • Colab demo:仓库里有 image-captioning / VQA / retrieval 三个 notebook

所以这一节是想说:把 BLIP 放进"CLIP → ALBEF → BLIP → BLIP-2 → LLaVA / RT-2"这条链里读,能看清整个 vlm-foundation 谱系的传承——以及它最终怎么影响了 embodied AI。

引用本笔记 / Cite this note
BibTeX
@online{eai_blip_2026,
  title       = {(readable note) BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2022 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/blip/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim