回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
VLM Foundation · Plate Nº 125

Flamingo: a Visual Language Model for Few-Shot Learning

18 min read · 6302 字 · ⭐⭐⭐⭐ · auto 摘要

这是一份给"完全没接触过 AI"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。

一句话讲什么(TL;DR)

教一个会聊天的 AI 也学会看图,给它看两三个示范,它就能照着做新题。

所以这一节是想说:Flamingo 是一个"看几个示范就会做新看图题"的 AI。


这是个什么场景

想象你第一次去朋友家吃饭,看他怎么用筷子夹一种没见过的小菜:第一筷他夹了块豆腐蘸了酱,第二筷夹了块鱼也蘸了酱。第三道菜端上来,你不用问,自己就会蘸酱了。

人类就是这样——看两三个例子,规则就懂了

GPT-3 在 2020 年第一次让 AI 也学会了这招:你在对话里给它三五个"问 → 答"示范,它就照着规则答下一题,不用重新训练。这种本事有个名字叫少样本学习(few-shot learning)

但到 2022 年初,会看图的 AI 还做不到这件事。比如你想让 AI 学会"看 X 光片写诊断",常规做法是攒几千上万张标注片子,再花几小时甚至几天去训练。换一个任务(比如换成 CT 片),整套流程重来。这就像每学一道新菜都得重新拜师三个月。

Flamingo 想做的就是:给"会看图的 AI"也装上 GPT-3 那种"看几个示范就会"的能力。你在提示词里贴几张(图,答案)示范,再丢一张新图,它就照葫芦画瓢。

所以这一节是想说:Flamingo 把"看几个例子就能学新任务"的能力,第一次带到了图像 + 视频领域。


Flamingo — 场景示意:这论文要解决的现实问题
Plate Nº IFlamingo — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

  • 方案 A:先大规模预训练,再针对每个任务专门微调。问题是每个任务都要几千几万张人工标注,调超参也很折磨。换 16 个任务就要折腾 16 次。
  • 方案 B:CLIP 这类对比学习模型。它能把图和文字对齐,但只能"算相似度"——只能做封闭选择题("这张图是猫还是狗"),不会写描述、答开放问题。
  • 方案 C:早期视觉 + 语言生成模型(如 VisualBERT、SimVLM)。能生成文字,但没在"低数据"模式下表现好;没几张例子它就两眼一抹黑。
  • 方案 D:把现成 LLM 拿来 + 接图。已经有人尝试冻结大语言模型再接视觉编码器,但没人能同时处理"图文穿插"的长序列——也就是像网页那样,文字、图、文字、图交替出现的格式。
  • 核心难题:要让模型能"看几个示范学会新任务",输入必须是任意长度的图文交错序列——这正是当时所有视觉模型不擅长的格式。

所以这一节是想说:现有方法要么得为每个新任务重练,要么不会写文字,要么处理不了图文交错的提示。


这篇论文的新想法

把一个超强的纯文字 LLM 冻死不动,再插几层"专门接眼睛的中转层",让它接受任意长度的图文混合输入;然后只在网页爬下来的图文海里训这些新层。

听起来三件事,本质上一句话:已经训好的部件不要动,只在中间加桥

所以这一节是想说:核心创新是"冻结现成模型 + 学一组桥接层",让 LLM 长出眼睛但不忘记自己原本会的语言能力。


它分几步做的(方法)

把整件事想成"给一位写作大师配一位看图助理",要让两人合作顺畅,得做 4 件事:

  1. 把一张图压成几十个"视觉关键词"(不然信息太多,主笔顾不过来);
  2. 在大师写每段之前,让助理偷偷递个小纸条(视觉信息塞进语言模型);
  3. 规定助理只参考"离这段最近的那张图"(处理图文交错序列);
  4. 拿"互联网这本巨型绘本"当训练教材(网页规模图文数据)。

下面一项一项展开。

1. Vision Encoder + Perceiver Resampler:把一张大图压成 64 个 "视觉词"

类比

你拍了一张 4000 万像素的高清照片要发给朋友讲故事。如果直接丢原始像素,对方手机存储和注意力都受不了。你会怎么办?先压成一张缩略图,再挑几句关键的话说:"蓝天、雪山、有人在滑雪。"

Flamingo 干的事就是这个"压缩"动作,分两步。

它在干什么

  1. 第一步——视觉编码器(Vision Encoder):用一个已经训好的 NFNet-F6 模型把图片处理成一张二维特征网格(比如 14×14 个特征点),每个点是一串数字。视频就按 1 帧/秒抽帧,每帧单独过编码器,再加上"这是第几帧"的时间标记。
  2. 第二步——Perceiver Resampler:图特征数量是变的(一张图 196 个,一段视频可能上千个);但下游 LLM 想要"输入个数固定"。Perceiver Resampler 学了 64 个可学习的查询向量(learned queries),让它们去"问"那一堆视觉特征:"你们里有什么重要的?",然后吐出固定的 64 个视觉 token。

特征(feature):神经网络对图片提炼出的一串数字摘要,类似"这块区域有边缘、有红色、纹理粗糙"。

token:模型看世界的最小单位,文字里是一个词或子词,视觉这边就是一小块图的数字摘要。

Perceiver:DeepMind 自家的一种通用架构,用少量"提问向量"去关注海量输入,能把变长输入压成定长输出。

可学习查询(learned query):这 64 个向量不是从图里来的,是模型一开始随便初始化、然后在训练里慢慢学出来的"问题模板"。可以想成一组面试官,每个面试官有自己擅长追问的方面。

为什么这步有用

  • 视觉特征数量爆炸,直接丢给 LLM 算不动。压成 64 个 token,计算量随后续注意力变成常数级
  • 用 Perceiver 比简单 MLP 或 Transformer 更聪明:消融实验里它比同等参数的 Transformer 高 4 分、比 MLP 高 4.1 分。

所以这一节是想说:先把图(甚至视频)通过一个固定大小的"压缩瓶颈"变成 64 个统一规格的视觉词,方便后面塞进语言模型。


2. GATED XATTN-DENSE:在冻结 LLM 中间插"看图开关"

类比

你公司里有一位资深主笔,文章写得极好,但不能让他重新培训——重练成本太高,还会把原本的写作风格搞乱。怎么让他写带配图的文章?

在他写每一段之前,安排一位"图片研究员"先把图看懂,提炼出几个要点。研究员一开始只是悄悄递纸条——主笔可以选择看不看。等磨合一段时间后,研究员的纸条越来越准,主笔自然越来越依赖。

Flamingo 给冻结的 70B Chinchilla 语言模型,每隔几层插入一个门控交叉注意力层(GATED XATTN-DENSE)——这就是那位"图片研究员"。

它在干什么

  1. 原本的语言模型每一层包含两个动作:自注意力(看自己之前的文字)+ 前馈网络(再加工一下)。
  2. Flamingo 在某些层之前新插入一对小模块
    • 交叉注意力(cross-attention):让文字 token 去"问"那 64 个视觉 token——"我现在写这个词,跟图里哪部分有关?"
    • 紧跟一个前馈网络再加工一下。
  3. 关键的"开关"在于tanh 门控:新插入模块的输出乘以 tanh(α) 才加回主干,α 初始化为 0

自注意力(self-attention):Transformer 的核心动作,每个 token 都看一眼序列里其他所有 token,再决定自己怎么更新。

交叉注意力(cross-attention):和上面类似,但问的对象是另一套 token——这里就是文字 token 去问视觉 token。

前馈网络(FFN/dense):一层简单的"非线性数字加工",把每个 token 的数字进一步变换。

门控(gating):在输出上乘一个 0~1 之间的开关因子,开关 0 时这条支路完全没贡献,开关 1 时全力输出。tanh 初始化为 0 意味着开关一开始全闭。

冻结(freeze):训练时这部分参数完全不更新。Flamingo 把视觉编码器和 LLM 都冻死,只训中间桥。

关键公式翻译成人话

y = LM_layer(x) + tanh(α) · CrossAttn(x, vision_tokens)

人话:新答案 = 原本 LLM 的回答 + 一个开关 × "看图后想再加上的那部分"。开关初始为 0,意味着模型刚开始训练时完全等同于一个看不见图的纯文本 LLM——这保证训练稳定不崩。

为什么这步有用

  • 不动 LLM 原本的参数 = 不会"灾难性遗忘"。消融显示:如果允许 LLM 跟着一起训,整体分数掉 8 分;从头训更糟,掉 12.9 分。
  • 0 初始化 tanh 门控 = 训练初期模型表现等同原 LLM,慢慢让视觉信号渗透进来。去掉这个门控,分数掉 4.2 分而且经常训崩。
  • 这种"插楼层"的做法保留了 LLM 的所有先验,又给了它读图的通道。

所以这一节是想说:与其重训整个 LLM,不如在它中间插几层"会看图的小开关",开关一开始全闭,训练里慢慢拧开,既稳定又不丢原本的语言能力。


3. Per-image attention masking:处理任意长度的图文交错序列

类比

你在读一本图文并茂的小说,每段文字旁边有插图。你读到某一段时,脑子里"主要参考"的是这一段对应的那张图——虽然之前所有插图也都看过、都能记住,但当下注意力主要给最近这张。

Flamingo 模型读图文序列也用同一种规则。

它在干什么

  • 训练样本是从网页上抓来的"文字、图、文字、图、文字……"长序列。
  • 对每个文字 token,只让它通过交叉注意力直接看"它之前最近的那一张图"——不是所有图。
  • 但因为 LLM 内部的自注意力还在工作,文字之间的依赖完全保留——通过文字串联,模型间接知道前面所有图的内容

为什么这步有用

  • 简化训练:每张图只跟"它后面那段文字"配对,模型不用学复杂的多图全连。
  • 关键泛化效果:训练时每条样本只放最多 5 张图,但推理时可以塞 32 张图——做 32-shot few-shot。这个"训少推多"的能力是 Flamingo 的招牌。
  • 消融实验显示:让文字直接看"之前所有图"反而更差。少即是多。

所以这一节是想说:每段文字只直接看最近一张图,但靠文字之间的连接间接获取所有图的信息,这种节制的设计反而让模型能处理远超训练长度的图文序列。


4. M3W + ALIGN + LTIP + VTP:在网页爬来的图文海里训练

类比

教小孩学语言,最有效的不是给他一堆"看图填空"的卡片,而是让他翻一本本绘本——文字和图自然交错,故事连贯。Flamingo 用的训练材料就是"互联网这本巨型绘本"。

它在干什么

Flamingo 在四种数据上同时训练,每种数据有自己的损失权重:

  1. M3W(MultiModal MassiveWeb):从 4300 万网页里提取的图文交错数据,按 HTML DOM 顺序保留图和文字位置,用 <image><EOC> 标记。这是 Flamingo 学会"少样本"的关键。
  2. ALIGN:18 亿张图 + alt-text。
  3. LTIP(Long Text & Image Pairs):自家收集,3.12 亿对图文,描述更长更精细。
  4. VTP(Video & Text Pairs):2700 万段视频 + 描述。

alt-text:HTML 里给图片配的文字说明,本来给视障读者用的。

DOM:浏览器把网页解析成的元素树,能告诉你"这张图在哪段文字之间"。

多目标训练(multi-objective):四种数据各算一个 loss,加权求和,反向传播一次更新参数。Flamingo 用的是"梯度累加"——四种数据各跑一遍再统一更新,比"轮流"更稳。

为什么这步有用

  • 消融数据显示:去掉 M3W 整体分数掉 17%——这是最致命的一刀。换句话说,"图文交错"这种结构是少样本能力的命根。
  • 去掉图文对掉 9.8%,去掉视频对让所有视频任务变差。三种数据互补,缺一不可。
  • 把 LTIP 换成公开 LAION 数据集,分数也掉一些——说明高质量长描述比单纯量大重要。
  • 全部数据都是网页直接爬的,不需要任何人工标注。这点和 LLaVA 走的"GPT 出题"路线截然不同。

所以这一节是想说:Flamingo 的少样本能力不是模型架构变出来的,是训练数据"图文交错"的结构带出来的。架构只是让模型能消化这种结构。


Flamingo — 方法示意:核心 pipeline
Plate Nº IIFlamingo — 方法示意:核心 pipeline

关键数字(What works)

数字本身不重要,重要的是它们告诉你"哪个设计选择真的关键"。

数字 1:16 个任务上 32-shot few-shot 全部 SOTA

  • 怎么算的:在 16 个图像 + 视频理解任务(VQA、captioning、视频问答等)上,给 Flamingo 32 个示范例子。
  • 对比:之前的 zero/few-shot 方法分散在各任务上,没人能用一个模型扫这么多榜。
  • 生活语言:一个模型,不动权重,看 32 个示范就把 16 个不同任务的少样本榜一次刷穿。

数字 2:6/16 个任务上 32-shot Flamingo 超过"满量微调"的 SOTA

  • 怎么算的:用 32 个例子的 in-context learning 对比"用几万到几十万标注数据微调"出来的传统 SOTA。
  • 对比:传统方法用了约 1000 倍更多任务专属数据。
  • 生活语言:你拿 32 道题准备的考生,干赢了别人刷了几万道题题海战术的考生。

数字 3:去掉 M3W → 整体分数掉 17%

  • 怎么算的:消融实验把图文交错数据 M3W 拿掉,其他不变。
  • 对比:70.7 → 53.4。
  • 生活语言:少样本能力不是架构本身的功劳,有图文交错训练数据才是根本

数字 4:训练只放 5 张图,推理可以塞 32 张

  • 怎么算的:M3W 训练样本最多包含 5 张图;评测时给 32-shot prompt(即 32 张图 + 32 段文字)。
  • 对比:典型 Transformer 模型一旦超出训练长度通常表现崩塌。
  • 生活语言:架构允许"训少推多"——这是单图 cross-attention 的设计回报。

数字 5:模型从 3B → 9B → 80B,分数单调上升

  • 怎么算的:Flamingo 三档参数版本,越大越好。Few-shot 数也越大效果越显著。
  • 对比:与 GPT-3 当年的 scaling 现象一致。
  • 生活语言:这个架构跟着 LLM 一起规模化没坏。脑容量越大、能从越多示范里学。

数字 6:冻结 LLM vs 跟着训 → 差 8%;从头训 → 差 12.9%

  • 怎么算的:消融表第 (viii) 行。
  • 对比:冻结基线 70.7,微调 LLM 62.7,从头训 57.8。
  • 生活语言:把已经训好的部件碰都不碰,反而比让它"再学一会儿"更好——再学就把原来会的忘了,叫灾难性遗忘

所以这一节是想说:数据告诉我们决定胜负的两件事——图文交错训练数据、以及对预训练 LLM 的"绝不动"克制。


你应该懂的几个新词

VLM(Vision Language Model,视觉语言模型):既能看图又能写字的 AI。Flamingo 是早期的代表性 VLM 之一。

LLM(Large Language Model,大语言模型):只懂文字的大模型,比如 GPT-3、Chinchilla。Flamingo 用 Chinchilla-70B 当语言主干。

few-shot learning(少样本学习):在提示里给几个"问 → 答"示范,让模型直接在推理时学会新任务,不调权重。Flamingo 把这套思路从文本搬到视觉。

in-context learning(上下文学习):few-shot 的具体形式——例子写在 prompt 里,模型在生成时一边看示范一边照做。

zero-shot / few-shot / fine-tune:分别是"不给例子"、"给几个例子"、"给上千例子并改权重"三档。Flamingo 主打前两档。

Perceiver Resampler:Flamingo 的视觉压缩模块。用 64 个可学习查询去提取定长视觉 token。

GATED XATTN-DENSE:Flamingo 的桥接模块。在冻结 LLM 中间插入的"门控交叉注意力 + 前馈层",初始关闭、慢慢拧开。

cross-attention(交叉注意力):让一组 token 去关注另一组 token 的注意力机制。Flamingo 用它让文字看视觉。

frozen / catastrophic forgetting(冻结 / 灾难性遗忘):训练时不动某些参数叫冻结。如果让已经学好的模型跟着新任务一起训,它会"忘掉"原本会的能力——这就是灾难性遗忘。

interleaved image-text data(图文交错数据):网页那种"文字、图、文字、图"交替的序列。Flamingo 的少样本能力直接来自训练这种数据。

M3W:DeepMind 自己从 4300 万网页爬的图文交错训练集,是 Flamingo 的招牌数据。

autoregressive generation(自回归生成):一字一字往外蹦,每个字依赖前面所有字。Flamingo 输出文字就是这种方式。

所以这一节是想说:上面这十几个词以后看任何 VLM 论文都会反复出现,先把它们和生活类比挂钩。


它有什么搞不定的

Flamingo 不是万能的,论文自己也老实交代了:

  • 继承 LLM 的毛病:会幻觉、会瞎编、对超长序列泛化差。LLM 怎么翻车,Flamingo 就怎么翻车。
  • 在分类任务上不如对比模型(CLIP):CLIP 直接为图文检索优化,分类是它的特长。Flamingo 走开放生成路线,分类反而吃亏。
  • in-context learning 对示范敏感:示范的顺序、措辞、内容都会大幅影响结果;而且 shot 数往大了堆,推理算力直线上升、效果增益却放缓。
  • 闭源:Flamingo 模型权重和 M3W 数据都没开放。开源界后来有 OpenFlamingo 复现,但效果差一截。

所以这一节是想说:Flamingo 在"开放、灵活、少样本"上很强,但在精确分类、对 prompt 鲁棒性、可复现性上有硬伤。


它和别的论文是什么关系

  • 时间轴上的位置:CLIP(2021,对比学习)→ Flamingo(2022,图文交错 + few-shot) → BLIP-2(2023.1,Q-Former)→ LLaVA(2023.4,开源指令微调)→ 后续 Qwen-VL / InternVL 等。
  • 和 CLIP 的关系(见 mmclip.md):CLIP 是 Flamingo 的"眼睛预训练方式"——Flamingo 自己的 NFNet-F6 也用对比损失训练。但 CLIP 只能做分类/检索,Flamingo 接 LLM 后能开放生成。
  • 和 LLaVA 的关系(见 llava.md):两者哲学相反。
    • LLaVA:用 GPT-4 造指令数据,模型架构极简(一层线性投影),靠"练习题"取胜,开源便宜。
    • Flamingo:架构精巧(Perceiver Resampler + GATED XATTN-DENSE),训练数据是网页原矿(M3W),靠"训练数据结构"取胜,闭源昂贵。
    • LLaVA 论文里 OpenFlamingo 在它的评测集上只有 19.1 分,LLaVA 是 67.3——但那是"指令跟随"赛道,Flamingo 主打的是"few-shot 适应新任务",赛道不同。
  • 和 SayCan、OpenVLA、Cosmos 的关系(见 saycan.md / openvla.md / cosmos-policy.md):Flamingo 把 "在 LLM 中插入冻结模块 + 跨模态条件化" 这套范式立住了;后来的具身 VLA 模型几乎都借鉴这个思路——把视觉接进 LLM 用来生成动作 token。
  • 集合关系:Flamingo 属于"冻结 LLM + 桥接模块"路线的奠基者;LLaVA、BLIP-2 都是这条路线后续的不同变体。

所以这一节是想说:Flamingo 是"冻结 LLM 接眼睛"路线的奠基论文,后来开源世界的 LLaVA 等是它的精简版后裔。


我建议这样读这篇

零基础读者不要从头读到尾。建议这样走:

  1. 看 Figure 1 + Figure 2(5 分钟):感受"几张例子就能完成新任务"的视觉冲击;记住"32-shot 就赢满量微调"这个核心成绩。
  2. 看 Figure 3 架构图(5 分钟):眼睛 → Perceiver Resampler → 64 视觉 token → 冻结 LLM 中插 GATED XATTN-DENSE → 输出文字。
  3. 读 Section 2.1 和 2.2(15 分钟):搞清楚 Perceiver Resampler 怎么压缩 + GATED XATTN-DENSE 怎么门控。
  4. 读 Section 2.4(数据集 M3W)(10 分钟):理解"图文交错"为什么是少样本能力的根。
  5. 快速扫消融表(Table 3)(10 分钟):看哪些设计决定贡献最大。重点看 (i) 数据混合和 (viii) 冻结 LLM。
  6. 跳过附录 + 公式细节(除非你想自己实现):知道"训练时图文交错网页流入,每段文字只看最近那张图"就够了。

读完这 6 步约 45 分钟,已经能在和别人讨论 VLM 时报出 Flamingo 的核心思路。

所以这一节是想说:Flamingo 的精华在"数据结构 + 门控桥接",公式和工程细节可以略读。


一些好奇心问答(FAQ)

Q1:Flamingo 多大?我自己电脑能跑吗?

最大版本 Flamingo-80B(800 亿参数),需要数十张高端 GPU。完全跑不动。社区有 OpenFlamingo(基于 LLaMA),最小 3B 版本可以在单卡 24GB 上跑推理。

Q2:模型权重和 M3W 数据能下载吗?

不能。Flamingo 是闭源的——DeepMind 出于安全和数据合规考虑没开放。要复现,看 OpenFlamingo(LAION 团队基于公开 LAION 和 Multimodal C4 复现的版本)。

Q3:为什么要专门做 Perceiver Resampler,不能直接把 196 个视觉特征丢给 LLM?

可以,但代价大。LLM 的交叉注意力计算量正比于视觉 token 数 × 文字 token 数。32-shot 提示里每张图 196 个特征,乘以 32 张图 + 千字文本,算力爆炸。压成 64 个,计算变常数级。消融也证明 Perceiver 比同等参数的 Transformer/MLP 都好。

Q4:tanh 门控为什么初始化为 0?

为了"训练初期模型 = 原始 LLM"。这样训练第一步绝不会因为"还没学会怎么看图"就把 LLM 的能力搅乱。慢慢拧开开关,模型自己决定吸收多少视觉信号。这是个数值稳定性 + 初始化即合法解的双重设计。

Q5:训练时只放 5 张图,推理时怎么能塞 32 张?

关键在 per-image cross-attention masking——每段文字只直接看最近一张图,所以"图的总数"不会拉爆 attention 矩阵。文字之间的依赖通过 LLM 自注意力保留下来,间接看到所有图。这种节制让序列长度可以远超训练时见过的范围。

Q6:Flamingo 和 GPT-4V / Gemini 的关系?

Flamingo 的"冻结 LLM + 视觉桥接"是当代 VLM 的范式起点。GPT-4V 和 Gemini 的具体架构没公开,但学界普遍认为思路一脉相承——可能用更复杂的桥接、更大的数据、原生多模态预训练。Flamingo 算 VLM 时代的"祖师爷"之一。

Q7:能用 Flamingo 做机器人控制吗?

论文本身没做。但 Flamingo 之后,PaLM-E、RT-2、OpenVLA 等具身模型直接借鉴了这套范式——把"视觉 + 文字 → 文字"换成"视觉 + 指令 → 动作 token"。可以说 Flamingo 是 VLA(Vision-Language-Action)模型的精神祖父。

Q8:32-shot 推理慢吗?

慢,而且贵。in-context learning 的代价是每次推理都要带着所有示范一起算 attention,shot 数翻倍,时间和显存都涨。论文也承认这是局限——所以"应用部署里 4-8 shot 通常更经济"。

所以这一节是想说:Flamingo 是 VLM 范式的起点;它的设计选择(压缩、门控、冻结)影响了后续所有 VLM 和 VLA 模型。


如果你想再深入

按"前传 → 同期对手 → 续作 → 衍生方向"四类排序:

  1. 前传:CLIP(2021) — 对比学习训练的视觉编码器是 Flamingo "眼睛"的训练方式,也是后来所有 VLM 的视觉底座。见 mmclip.md
  2. 前传:Chinchilla(2022) — Flamingo 的语言主干就是冻结的 Chinchilla-70B。理解它的训练规律有助于理解 Flamingo 怎么 scale。
  3. 同期对手:BLIP-2(2023.1) — 用 Q-Former 做视觉 → 文本桥接,比 Flamingo 的 GATED XATTN-DENSE 更轻量。两者放一起读最能看清"桥接模块"的设计空间。
  4. 续作:OpenFlamingo(2023) — 社区基于 LLaMA + LAION 数据的开源复现版,效果比原版差但能拿来玩。
  5. 续作 / 衍生:LLaVA(2023.4) — 开源 VLM 的另一条路(指令微调路线),是 Flamingo 哲学的反面。两者对比见 llava.md
  6. 衍生:RT-2 / OpenVLA / PaLM-E — Flamingo 范式被搬到具身领域:视觉 + 指令 → 动作 token。见 openvla.md / vlas.md

所以这一节是想说:把 Flamingo + CLIP + LLaVA + BLIP-2 这四篇连起来读,就能看清 2021-2023 年 VLM 的全部主路线。


最后一个画面

Flamingo 论文里有一段对话演示:用户先丢一张图 + 说"这是一只猫,它看起来很困";再丢一张图 + 说"这是一只狗,它看起来很兴奋";最后丢一张图问"它感觉怎么样?"——Flamingo 在没有训练过"识别情绪"任务的前提下,看着前面两个示范回答了"它看起来很好奇"。

那一刻,"看几个例子就能学会新任务"第一次在视觉世界变成现实。这是 VLM 的 GPT-3 时刻。

所以最后一节是想说:Flamingo 把"in-context learning"的奇迹从文字搬到了图像,从此每个 VLM 都得回答一个问题——你能像 Flamingo 那样举一反三吗?

引用本笔记 / Cite this note
BibTeX
@online{eai_flamingo_2026,
  title       = {(readable note) Flamingo: a Visual Language Model for Few-Shot Learning},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2022 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/flamingo/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim