VLM Foundation · Plate Nº 125

Flamingo: a Visual Language Model for Few-Shot Learning

18 min read · 6302 字 · ⭐⭐⭐⭐ · auto 摘要

#transformer #language #vision

这是一份给"完全没接触过 AI"的读者看的精读笔记。语言尽量像聊天，公式全部翻译成人话。

一句话讲什么（TL;DR）

教一个会聊天的 AI 也学会看图，给它看两三个示范，它就能照着做新题。

所以这一节是想说：Flamingo 是一个"看几个示范就会做新看图题"的 AI。

这是个什么场景

想象你第一次去朋友家吃饭，看他怎么用筷子夹一种没见过的小菜：第一筷他夹了块豆腐蘸了酱，第二筷夹了块鱼也蘸了酱。第三道菜端上来，你不用问，自己就会蘸酱了。

人类就是这样——看两三个例子，规则就懂了。

GPT-3 在 2020 年第一次让 AI 也学会了这招：你在对话里给它三五个"问 → 答"示范，它就照着规则答下一题，不用重新训练。这种本事有个名字叫少样本学习（few-shot learning）。

但到 2022 年初，会看图的 AI 还做不到这件事。比如你想让 AI 学会"看 X 光片写诊断"，常规做法是攒几千上万张标注片子，再花几小时甚至几天去训练。换一个任务（比如换成 CT 片），整套流程重来。这就像每学一道新菜都得重新拜师三个月。

Flamingo 想做的就是：给"会看图的 AI"也装上 GPT-3 那种"看几个示范就会"的能力。你在提示词里贴几张（图，答案）示范，再丢一张新图，它就照葫芦画瓢。

所以这一节是想说：Flamingo 把"看几个例子就能学新任务"的能力，第一次带到了图像 + 视频领域。

之前的人怎么做的，为什么不够好

方案 A：先大规模预训练，再针对每个任务专门微调。问题是每个任务都要几千几万张人工标注，调超参也很折磨。换 16 个任务就要折腾 16 次。
方案 B：CLIP 这类对比学习模型。它能把图和文字对齐，但只能"算相似度"——只能做封闭选择题（"这张图是猫还是狗"），不会写描述、答开放问题。
方案 C：早期视觉 + 语言生成模型（如 VisualBERT、SimVLM）。能生成文字，但没在"低数据"模式下表现好；没几张例子它就两眼一抹黑。
方案 D：把现成 LLM 拿来 + 接图。已经有人尝试冻结大语言模型再接视觉编码器，但没人能同时处理"图文穿插"的长序列——也就是像网页那样，文字、图、文字、图交替出现的格式。
核心难题：要让模型能"看几个示范学会新任务"，输入必须是任意长度的图文交错序列——这正是当时所有视觉模型不擅长的格式。

所以这一节是想说：现有方法要么得为每个新任务重练，要么不会写文字，要么处理不了图文交错的提示。

这篇论文的新想法

把一个超强的纯文字 LLM 冻死不动，再插几层"专门接眼睛的中转层"，让它接受任意长度的图文混合输入；然后只在网页爬下来的图文海里训这些新层。

听起来三件事，本质上一句话：已经训好的部件不要动，只在中间加桥。

所以这一节是想说：核心创新是"冻结现成模型 + 学一组桥接层"，让 LLM 长出眼睛但不忘记自己原本会的语言能力。

它分几步做的（方法）

把整件事想成"给一位写作大师配一位看图助理"，要让两人合作顺畅，得做 4 件事：

把一张图压成几十个"视觉关键词"（不然信息太多，主笔顾不过来）；
在大师写每段之前，让助理偷偷递个小纸条（视觉信息塞进语言模型）；
规定助理只参考"离这段最近的那张图"（处理图文交错序列）；
拿"互联网这本巨型绘本"当训练教材（网页规模图文数据）。

下面一项一项展开。

1. Vision Encoder + Perceiver Resampler：把一张大图压成 64 个 "视觉词"

类比

你拍了一张 4000 万像素的高清照片要发给朋友讲故事。如果直接丢原始像素，对方手机存储和注意力都受不了。你会怎么办？先压成一张缩略图，再挑几句关键的话说："蓝天、雪山、有人在滑雪。"

Flamingo 干的事就是这个"压缩"动作，分两步。

它在干什么

第一步——视觉编码器（Vision Encoder）：用一个已经训好的 NFNet-F6 模型把图片处理成一张二维特征网格（比如 14×14 个特征点），每个点是一串数字。视频就按 1 帧/秒抽帧，每帧单独过编码器，再加上"这是第几帧"的时间标记。
第二步——Perceiver Resampler：图特征数量是变的（一张图 196 个，一段视频可能上千个）；但下游 LLM 想要"输入个数固定"。Perceiver Resampler 学了 64 个可学习的查询向量（learned queries），让它们去"问"那一堆视觉特征："你们里有什么重要的？"，然后吐出固定的 64 个视觉 token。

特征（feature）：神经网络对图片提炼出的一串数字摘要，类似"这块区域有边缘、有红色、纹理粗糙"。

token：模型看世界的最小单位，文字里是一个词或子词，视觉这边就是一小块图的数字摘要。

Perceiver：DeepMind 自家的一种通用架构，用少量"提问向量"去关注海量输入，能把变长输入压成定长输出。

可学习查询（learned query）：这 64 个向量不是从图里来的，是模型一开始随便初始化、然后在训练里慢慢学出来的"问题模板"。可以想成一组面试官，每个面试官有自己擅长追问的方面。

为什么这步有用

视觉特征数量爆炸，直接丢给 LLM 算不动。压成 64 个 token，计算量随后续注意力变成常数级。
用 Perceiver 比简单 MLP 或 Transformer 更聪明：消融实验里它比同等参数的 Transformer 高 4 分、比 MLP 高 4.1 分。

所以这一节是想说：先把图（甚至视频）通过一个固定大小的"压缩瓶颈"变成 64 个统一规格的视觉词，方便后面塞进语言模型。

2. GATED XATTN-DENSE：在冻结 LLM 中间插"看图开关"

类比

你公司里有一位资深主笔，文章写得极好，但不能让他重新培训——重练成本太高，还会把原本的写作风格搞乱。怎么让他写带配图的文章？

在他写每一段之前，安排一位"图片研究员"先把图看懂，提炼出几个要点。研究员一开始只是悄悄递纸条——主笔可以选择看不看。等磨合一段时间后，研究员的纸条越来越准，主笔自然越来越依赖。

Flamingo 给冻结的 70B Chinchilla 语言模型，每隔几层插入一个门控交叉注意力层（GATED XATTN-DENSE）——这就是那位"图片研究员"。

它在干什么

原本的语言模型每一层包含两个动作：自注意力（看自己之前的文字）+ 前馈网络（再加工一下）。
Flamingo 在某些层之前新插入一对小模块：
- 交叉注意力（cross-attention）：让文字 token 去"问"那 64 个视觉 token——"我现在写这个词，跟图里哪部分有关？"
- 紧跟一个前馈网络再加工一下。
关键的"开关"在于tanh 门控：新插入模块的输出乘以 tanh(α) 才加回主干，α 初始化为 0。

自注意力（self-attention）：Transformer 的核心动作，每个 token 都看一眼序列里其他所有 token，再决定自己怎么更新。

交叉注意力（cross-attention）：和上面类似，但问的对象是另一套 token——这里就是文字 token 去问视觉 token。

前馈网络（FFN/dense）：一层简单的"非线性数字加工"，把每个 token 的数字进一步变换。

门控（gating）：在输出上乘一个 0~1 之间的开关因子，开关 0 时这条支路完全没贡献，开关 1 时全力输出。tanh 初始化为 0 意味着开关一开始全闭。

冻结（freeze）：训练时这部分参数完全不更新。Flamingo 把视觉编码器和 LLM 都冻死，只训中间桥。

关键公式翻译成人话

y = LM_layer(x) + tanh(α) · CrossAttn(x, vision_tokens)

人话：新答案 = 原本 LLM 的回答 + 一个开关 × "看图后想再加上的那部分"。开关初始为 0，意味着模型刚开始训练时完全等同于一个看不见图的纯文本 LLM——这保证训练稳定不崩。

为什么这步有用

不动 LLM 原本的参数 = 不会"灾难性遗忘"。消融显示：如果允许 LLM 跟着一起训，整体分数掉 8 分；从头训更糟，掉 12.9 分。
0 初始化 tanh 门控 = 训练初期模型表现等同原 LLM，慢慢让视觉信号渗透进来。去掉这个门控，分数掉 4.2 分而且经常训崩。
这种"插楼层"的做法保留了 LLM 的所有先验，又给了它读图的通道。

所以这一节是想说：与其重训整个 LLM，不如在它中间插几层"会看图的小开关"，开关一开始全闭，训练里慢慢拧开，既稳定又不丢原本的语言能力。

3. Per-image attention masking：处理任意长度的图文交错序列

类比

你在读一本图文并茂的小说，每段文字旁边有插图。你读到某一段时，脑子里"主要参考"的是这一段对应的那张图——虽然之前所有插图也都看过、都能记住，但当下注意力主要给最近这张。

Flamingo 模型读图文序列也用同一种规则。

它在干什么

训练样本是从网页上抓来的"文字、图、文字、图、文字……"长序列。
对每个文字 token，只让它通过交叉注意力直接看"它之前最近的那一张图"——不是所有图。
但因为 LLM 内部的自注意力还在工作，文字之间的依赖完全保留——通过文字串联，模型间接知道前面所有图的内容。

为什么这步有用

简化训练：每张图只跟"它后面那段文字"配对，模型不用学复杂的多图全连。
关键泛化效果：训练时每条样本只放最多 5 张图，但推理时可以塞 32 张图——做 32-shot few-shot。这个"训少推多"的能力是 Flamingo 的招牌。
消融实验显示：让文字直接看"之前所有图"反而更差。少即是多。

所以这一节是想说：每段文字只直接看最近一张图，但靠文字之间的连接间接获取所有图的信息，这种节制的设计反而让模型能处理远超训练长度的图文序列。

4. M3W + ALIGN + LTIP + VTP：在网页爬来的图文海里训练

类比

教小孩学语言，最有效的不是给他一堆"看图填空"的卡片，而是让他翻一本本绘本——文字和图自然交错，故事连贯。Flamingo 用的训练材料就是"互联网这本巨型绘本"。

它在干什么

Flamingo 在四种数据上同时训练，每种数据有自己的损失权重：

M3W（MultiModal MassiveWeb）：从 4300 万网页里提取的图文交错数据，按 HTML DOM 顺序保留图和文字位置，用 <image> 和 <EOC> 标记。这是 Flamingo 学会"少样本"的关键。
ALIGN：18 亿张图 + alt-text。
LTIP（Long Text & Image Pairs）：自家收集，3.12 亿对图文，描述更长更精细。
VTP（Video & Text Pairs）：2700 万段视频 + 描述。

alt-text：HTML 里给图片配的文字说明，本来给视障读者用的。

DOM：浏览器把网页解析成的元素树，能告诉你"这张图在哪段文字之间"。

多目标训练（multi-objective）：四种数据各算一个 loss，加权求和，反向传播一次更新参数。Flamingo 用的是"梯度累加"——四种数据各跑一遍再统一更新，比"轮流"更稳。

为什么这步有用

消融数据显示：去掉 M3W 整体分数掉 17%——这是最致命的一刀。换句话说，"图文交错"这种结构是少样本能力的命根。
去掉图文对掉 9.8%，去掉视频对让所有视频任务变差。三种数据互补，缺一不可。
把 LTIP 换成公开 LAION 数据集，分数也掉一些——说明高质量长描述比单纯量大重要。
全部数据都是网页直接爬的，不需要任何人工标注。这点和 LLaVA 走的"GPT 出题"路线截然不同。

所以这一节是想说：Flamingo 的少样本能力不是模型架构变出来的，是训练数据"图文交错"的结构带出来的。架构只是让模型能消化这种结构。

关键数字（What works）

数字本身不重要，重要的是它们告诉你"哪个设计选择真的关键"。

数字 1：16 个任务上 32-shot few-shot 全部 SOTA

怎么算的：在 16 个图像 + 视频理解任务（VQA、captioning、视频问答等）上，给 Flamingo 32 个示范例子。
对比：之前的 zero/few-shot 方法分散在各任务上，没人能用一个模型扫这么多榜。
生活语言：一个模型，不动权重，看 32 个示范就把 16 个不同任务的少样本榜一次刷穿。

数字 2：6/16 个任务上 32-shot Flamingo 超过"满量微调"的 SOTA

怎么算的：用 32 个例子的 in-context learning 对比"用几万到几十万标注数据微调"出来的传统 SOTA。
对比：传统方法用了约 1000 倍更多任务专属数据。
生活语言：你拿 32 道题准备的考生，干赢了别人刷了几万道题题海战术的考生。

数字 3：去掉 M3W → 整体分数掉 17%

怎么算的：消融实验把图文交错数据 M3W 拿掉，其他不变。
对比：70.7 → 53.4。
生活语言：少样本能力不是架构本身的功劳，有图文交错训练数据才是根本。

数字 4：训练只放 5 张图，推理可以塞 32 张

怎么算的：M3W 训练样本最多包含 5 张图；评测时给 32-shot prompt（即 32 张图 + 32 段文字）。
对比：典型 Transformer 模型一旦超出训练长度通常表现崩塌。
生活语言：架构允许"训少推多"——这是单图 cross-attention 的设计回报。

数字 5：模型从 3B → 9B → 80B，分数单调上升

怎么算的：Flamingo 三档参数版本，越大越好。Few-shot 数也越大效果越显著。
对比：与 GPT-3 当年的 scaling 现象一致。
生活语言：这个架构跟着 LLM 一起规模化没坏。脑容量越大、能从越多示范里学。

数字 6：冻结 LLM vs 跟着训 → 差 8%；从头训 → 差 12.9%

怎么算的：消融表第 (viii) 行。
对比：冻结基线 70.7，微调 LLM 62.7，从头训 57.8。
生活语言：把已经训好的部件碰都不碰，反而比让它"再学一会儿"更好——再学就把原来会的忘了，叫灾难性遗忘。

所以这一节是想说：数据告诉我们决定胜负的两件事——图文交错训练数据、以及对预训练 LLM 的"绝不动"克制。

你应该懂的几个新词

VLM（Vision Language Model，视觉语言模型）：既能看图又能写字的 AI。Flamingo 是早期的代表性 VLM 之一。

LLM（Large Language Model，大语言模型）：只懂文字的大模型，比如 GPT-3、Chinchilla。Flamingo 用 Chinchilla-70B 当语言主干。

few-shot learning（少样本学习）：在提示里给几个"问 → 答"示范，让模型直接在推理时学会新任务，不调权重。Flamingo 把这套思路从文本搬到视觉。

in-context learning（上下文学习）：few-shot 的具体形式——例子写在 prompt 里，模型在生成时一边看示范一边照做。

zero-shot / few-shot / fine-tune：分别是"不给例子"、"给几个例子"、"给上千例子并改权重"三档。Flamingo 主打前两档。

Perceiver Resampler：Flamingo 的视觉压缩模块。用 64 个可学习查询去提取定长视觉 token。

GATED XATTN-DENSE：Flamingo 的桥接模块。在冻结 LLM 中间插入的"门控交叉注意力 + 前馈层"，初始关闭、慢慢拧开。

cross-attention（交叉注意力）：让一组 token 去关注另一组 token 的注意力机制。Flamingo 用它让文字看视觉。

frozen / catastrophic forgetting（冻结 / 灾难性遗忘）：训练时不动某些参数叫冻结。如果让已经学好的模型跟着新任务一起训，它会"忘掉"原本会的能力——这就是灾难性遗忘。

interleaved image-text data（图文交错数据）：网页那种"文字、图、文字、图"交替的序列。Flamingo 的少样本能力直接来自训练这种数据。

M3W：DeepMind 自己从 4300 万网页爬的图文交错训练集，是 Flamingo 的招牌数据。

autoregressive generation（自回归生成）：一字一字往外蹦，每个字依赖前面所有字。Flamingo 输出文字就是这种方式。

所以这一节是想说：上面这十几个词以后看任何 VLM 论文都会反复出现，先把它们和生活类比挂钩。

它有什么搞不定的

Flamingo 不是万能的，论文自己也老实交代了：

继承 LLM 的毛病：会幻觉、会瞎编、对超长序列泛化差。LLM 怎么翻车，Flamingo 就怎么翻车。
在分类任务上不如对比模型（CLIP）：CLIP 直接为图文检索优化，分类是它的特长。Flamingo 走开放生成路线，分类反而吃亏。
in-context learning 对示范敏感：示范的顺序、措辞、内容都会大幅影响结果；而且 shot 数往大了堆，推理算力直线上升、效果增益却放缓。
闭源：Flamingo 模型权重和 M3W 数据都没开放。开源界后来有 OpenFlamingo 复现，但效果差一截。

所以这一节是想说：Flamingo 在"开放、灵活、少样本"上很强，但在精确分类、对 prompt 鲁棒性、可复现性上有硬伤。

它和别的论文是什么关系

时间轴上的位置：CLIP（2021，对比学习）→ Flamingo（2022，图文交错 + few-shot） → BLIP-2（2023.1，Q-Former）→ LLaVA（2023.4，开源指令微调）→ 后续 Qwen-VL / InternVL 等。
和 CLIP 的关系（见 mmclip.md）：CLIP 是 Flamingo 的"眼睛预训练方式"——Flamingo 自己的 NFNet-F6 也用对比损失训练。但 CLIP 只能做分类/检索，Flamingo 接 LLM 后能开放生成。
和 LLaVA 的关系（见 llava.md）：两者哲学相反。
- LLaVA：用 GPT-4 造指令数据，模型架构极简（一层线性投影），靠"练习题"取胜，开源便宜。
- Flamingo：架构精巧（Perceiver Resampler + GATED XATTN-DENSE），训练数据是网页原矿（M3W），靠"训练数据结构"取胜，闭源昂贵。
- LLaVA 论文里 OpenFlamingo 在它的评测集上只有 19.1 分，LLaVA 是 67.3——但那是"指令跟随"赛道，Flamingo 主打的是"few-shot 适应新任务"，赛道不同。
和 SayCan、OpenVLA、Cosmos 的关系（见 saycan.md / openvla.md / cosmos-policy.md）：Flamingo 把 "在 LLM 中插入冻结模块 + 跨模态条件化" 这套范式立住了；后来的具身 VLA 模型几乎都借鉴这个思路——把视觉接进 LLM 用来生成动作 token。
集合关系：Flamingo 属于"冻结 LLM + 桥接模块"路线的奠基者；LLaVA、BLIP-2 都是这条路线后续的不同变体。

所以这一节是想说：Flamingo 是"冻结 LLM 接眼睛"路线的奠基论文，后来开源世界的 LLaVA 等是它的精简版后裔。

我建议这样读这篇

零基础读者不要从头读到尾。建议这样走：

看 Figure 1 + Figure 2（5 分钟）：感受"几张例子就能完成新任务"的视觉冲击；记住"32-shot 就赢满量微调"这个核心成绩。
看 Figure 3 架构图（5 分钟）：眼睛 → Perceiver Resampler → 64 视觉 token → 冻结 LLM 中插 GATED XATTN-DENSE → 输出文字。
读 Section 2.1 和 2.2（15 分钟）：搞清楚 Perceiver Resampler 怎么压缩 + GATED XATTN-DENSE 怎么门控。
读 Section 2.4（数据集 M3W）（10 分钟）：理解"图文交错"为什么是少样本能力的根。
快速扫消融表（Table 3）（10 分钟）：看哪些设计决定贡献最大。重点看 (i) 数据混合和 (viii) 冻结 LLM。
跳过附录 + 公式细节（除非你想自己实现）：知道"训练时图文交错网页流入，每段文字只看最近那张图"就够了。

读完这 6 步约 45 分钟，已经能在和别人讨论 VLM 时报出 Flamingo 的核心思路。

所以这一节是想说：Flamingo 的精华在"数据结构 + 门控桥接"，公式和工程细节可以略读。

一些好奇心问答（FAQ）

Q1：Flamingo 多大？我自己电脑能跑吗？

最大版本 Flamingo-80B（800 亿参数），需要数十张高端 GPU。完全跑不动。社区有 OpenFlamingo（基于 LLaMA），最小 3B 版本可以在单卡 24GB 上跑推理。

Q2：模型权重和 M3W 数据能下载吗？

不能。Flamingo 是闭源的——DeepMind 出于安全和数据合规考虑没开放。要复现，看 OpenFlamingo（LAION 团队基于公开 LAION 和 Multimodal C4 复现的版本）。

Q3：为什么要专门做 Perceiver Resampler，不能直接把 196 个视觉特征丢给 LLM？

可以，但代价大。LLM 的交叉注意力计算量正比于视觉 token 数 × 文字 token 数。32-shot 提示里每张图 196 个特征，乘以 32 张图 + 千字文本，算力爆炸。压成 64 个，计算变常数级。消融也证明 Perceiver 比同等参数的 Transformer/MLP 都好。

Q4：tanh 门控为什么初始化为 0？

为了"训练初期模型 = 原始 LLM"。这样训练第一步绝不会因为"还没学会怎么看图"就把 LLM 的能力搅乱。慢慢拧开开关，模型自己决定吸收多少视觉信号。这是个数值稳定性 + 初始化即合法解的双重设计。

Q5：训练时只放 5 张图，推理时怎么能塞 32 张？

关键在 per-image cross-attention masking——每段文字只直接看最近一张图，所以"图的总数"不会拉爆 attention 矩阵。文字之间的依赖通过 LLM 自注意力保留下来，间接看到所有图。这种节制让序列长度可以远超训练时见过的范围。

Q6：Flamingo 和 GPT-4V / Gemini 的关系？

Flamingo 的"冻结 LLM + 视觉桥接"是当代 VLM 的范式起点。GPT-4V 和 Gemini 的具体架构没公开，但学界普遍认为思路一脉相承——可能用更复杂的桥接、更大的数据、原生多模态预训练。Flamingo 算 VLM 时代的"祖师爷"之一。

Q7：能用 Flamingo 做机器人控制吗？

论文本身没做。但 Flamingo 之后，PaLM-E、RT-2、OpenVLA 等具身模型直接借鉴了这套范式——把"视觉 + 文字 → 文字"换成"视觉 + 指令 → 动作 token"。可以说 Flamingo 是 VLA（Vision-Language-Action）模型的精神祖父。

Q8：32-shot 推理慢吗？

慢，而且贵。in-context learning 的代价是每次推理都要带着所有示范一起算 attention，shot 数翻倍，时间和显存都涨。论文也承认这是局限——所以"应用部署里 4-8 shot 通常更经济"。

所以这一节是想说：Flamingo 是 VLM 范式的起点；它的设计选择（压缩、门控、冻结）影响了后续所有 VLM 和 VLA 模型。

如果你想再深入

按"前传 → 同期对手 → 续作 → 衍生方向"四类排序：

前传：CLIP（2021） — 对比学习训练的视觉编码器是 Flamingo "眼睛"的训练方式，也是后来所有 VLM 的视觉底座。见 mmclip.md。
前传：Chinchilla（2022） — Flamingo 的语言主干就是冻结的 Chinchilla-70B。理解它的训练规律有助于理解 Flamingo 怎么 scale。
同期对手：BLIP-2（2023.1） — 用 Q-Former 做视觉 → 文本桥接，比 Flamingo 的 GATED XATTN-DENSE 更轻量。两者放一起读最能看清"桥接模块"的设计空间。
续作：OpenFlamingo（2023） — 社区基于 LLaMA + LAION 数据的开源复现版，效果比原版差但能拿来玩。
续作 / 衍生：LLaVA（2023.4） — 开源 VLM 的另一条路（指令微调路线），是 Flamingo 哲学的反面。两者对比见 llava.md。
衍生：RT-2 / OpenVLA / PaLM-E — Flamingo 范式被搬到具身领域：视觉 + 指令 → 动作 token。见 openvla.md / vlas.md。

所以这一节是想说：把 Flamingo + CLIP + LLaVA + BLIP-2 这四篇连起来读，就能看清 2021-2023 年 VLM 的全部主路线。

最后一个画面

Flamingo 论文里有一段对话演示：用户先丢一张图 + 说"这是一只猫，它看起来很困"；再丢一张图 + 说"这是一只狗，它看起来很兴奋"；最后丢一张图问"它感觉怎么样？"——Flamingo 在没有训练过"识别情绪"任务的前提下，看着前面两个示范回答了"它看起来很好奇"。

那一刻，"看几个例子就能学会新任务"第一次在视觉世界变成现实。这是 VLM 的 GPT-3 时刻。

所以最后一节是想说：Flamingo 把"in-context learning"的奇迹从文字搬到了图像，从此每个 VLM 都得回答一个问题——你能像 Flamingo 那样举一反三吗？

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_flamingo_2026,
  title       = {(readable note) Flamingo: a Visual Language Model for Few-Shot Learning},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2022 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/flamingo/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)