Multimodal Ecology · Plate Nº 68

FROMAGe: Grounding LLMs to Images

6 min read · 2225 字 · ⭐⭐⭐ · 短摘要

#language #vision

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

把一个会说话的大模型整个冻住不动，只在它前后各加一层薄薄的"翻译片"，就让它能看图、找图、还能图文混着聊天。

这是个什么场景 — 日常类比

你手机相册里堆了一万张照片。朋友随口一句"去年那次海边烧烤的图发我"，你要翻五分钟。

要是有个聊天 AI 能听懂这种自然描述，直接帮你把对应的图捞出来——边聊边出图——岂不是很方便？

普通做法很贵：相当于把一个只会用中文交流的、知识渊博的同事送去脱产培训三个月，让他重新学一套带图的语言（即从零训练多模态大模型，烧一堆 GPU）。

FROMAGe 的做法更省：不培训同事，而是在他面前放一副翻译耳机和一个翻译麦克风。耳机把图片实时翻成"他听得懂的中文向量"，麦克风把他想表达的"找图意图"翻成"图像检索能用的向量"。同事本人一节课都不用上，只需训这两个小翻译设备。

代价小、迁移快。但天花板也被同事原本的语言能力锁死了。

之前的人怎么做的 — 3-5 bullet

从零训练多模态大模型：例如早期的 VL-BERT、ViLBERT，把视觉和语言一起从头训，成本高、数据贵
微调（fine-tune）整个 LLM：拿 GPT 或 LLaMA 把所有参数都解冻一起训，效果好但显存压力大、容易把语言能力训坏（catastrophic forgetting，灾难性遗忘）
Frozen / Flamingo 路线：开始流行"冻 LLM 主干"的思路，但 Flamingo 仍然在 LLM 内部插了大量 cross-attention 层（交叉注意力，让文本能"看"到图像 token），训练成本依然高
CLIP 系列：只做"图文对齐"，图像和文本各自有 encoder（编码器），但不会生成自由文本，更不能做交错对话
BLIP / BLIP-2：BLIP-2 也走"冻主干 + 加桥接模块（Q-Former）"的路线，但 Q-Former 本身参数不算少，且仍以"看图回答"为主，弱在图像检索

FROMAGe 把"冻得更彻底、加得更少"推到极致：只加两个线性层。

这篇论文的关键想法

三个连环动作：

图 → 文向量空间：用一个视觉编码器（visual encoder，论文用的是已有的 CLIP-style 模型）抽出图像特征，再加一个线性层把它投射到 LLM 的输入嵌入（input embedding）空间。等于让 LLM "误以为"自己在读一段文本 token，但其实那是图。
文 → 图向量空间：在 LLM 的输出端加一个特殊 token（论文里叫 [RET]），这个 token 出现时，把它对应的隐藏状态（hidden state）通过另一个线性层投射回图像检索空间，用来去图库里捞匹配的图。
主干完全不动：LLM 的所有参数、视觉编码器的所有参数都冻结，只训这两个线性层 + [RET] 这个 token 的嵌入。训练任务就是图文配对的 caption 数据 + 图像检索 loss。

最妙的副作用：因为 LLM 主干没动，它原本的语言能力、上下文学习（in-context learning）能力都完整保留。所以你可以扔给它一段交错的"文字-图-文字-图-文字"，它能自然地继续生成下一段，甚至下一张应该检索什么图。

它怎么做的（方法）— 3-4 段

输入侧 — 像把照片写成几张便签塞给同事：一张图先过视觉编码器（visual encoder，把图变成一串数字的拍照机）抽出特征，再用一个可训练的线性层把它"翻译"成 k 个假 token（论文里 k 是个小数字，具体需读原文），插到 LLM 的输入序列里。对 LLM 来说，图和字长得一模一样——都是 token。

等等，先慢一拍——token 是什么？可以理解成 LLM 嘴里的一个个小积木块。它本来只认文字积木，FROMAGe 偷偷把图片切成几块"长得像文字"的积木混进去。

输出侧 / 文本生成 — 像同事正常说话：LLM 像往常一样一个 token 一个 token 往外吐。但它的词表里被偷偷塞了一个新词 [RET]，意思是"这儿该插一张图"。这个新词的 embedding 也是可训练的。

输出侧 / 图像检索 — 像图书馆查书：当 [RET] 蹦出来时，取该位置的隐藏状态（hidden state，模型脑子里那一刻的想法向量），过一个可训练的输出线性层，得到一个"查询牌"；图库里每张图也用同一套流程算出"候选牌"；两边做点积（dot product，比相似度的简单方法），最像的那张图就是答案。

训练目标 — 两份作业一起做：一边 captioning loss（让模型看图能写出描述）+ 一边 retrieval loss（让 [RET] 的查询向量贴近正确的图、远离错的图，类似 CLIP 的 InfoNCE 对比损失）。因为只有两层薄翻译片在更新，单机就能跑，也不需要海量数据。

实验在做什么

论文典型评估场景（具体数字需读原文）：

零样本图像检索（zero-shot image retrieval）：给定一段长描述或多轮对话，让模型从图库里捞图，对比 CLIP 等基线
图像字幕生成（image captioning）：给图，让模型说出描述
多模态对话 / 交错图文生成：给一段"文-图-文-图"的上下文，看模型能否合理续写下一段文本，或在恰当位置插入合适的检索图
Few-shot / in-context learning：因为 LLM 没动，论文重点展示它"学了几个示例就会做新任务"的能力依然在线

亮点不在指标多漂亮，而在用极少训练参数达到了能用的水平，并且语言能力没退化。

你应该懂的几个新词 — 4-6 个

frozen backbone（冻结主干）：训练时把模型某些参数固定不更新，只训新增的部分。省显存、保护原能力
linear projection / linear layer（线性投射 / 线性层）：最简单的全连接层，y = Wx + b，本论文做"空间翻译"全靠它
interleaved image-text（图文交错）：输入或输出是"文字-图-文字-图"穿插的序列，不是单纯"一图一描述"
retrieval token [RET]：词表里新加的特殊 token，专门用来标记"这里要去捞一张图"
in-context learning（上下文学习）：LLM 不更新参数、只看 prompt 里的几个示例就能学会新任务的能力
InfoNCE / contrastive loss（对比损失）：让正样本对（匹配的图文）相似度高、负样本对相似度低的训练目标，CLIP 同款

它和其他论文什么关系

承接 CLIP：视觉编码器和图像检索逻辑沿用 CLIP 的对比学习范式
承接 Frozen / Flamingo：同样是"冻 LLM"思路，但 FROMAGe 比 Flamingo 加得更少（没在 LLM 内部插层），代价是看图理解的深度不如 Flamingo
对比 BLIP-2：BLIP-2 加 Q-Former（参数量更大的桥接模块），FROMAGe 只加线性层；BLIP-2 偏 VQA / 看图问答，FROMAGe 偏检索 + 交错生成
后续影响：Mini-GPT4、LLaVA 等开源多模态项目都吸收了"冻主干 + 训轻量投射层"的思路；LLaVA 早期版本就是一个 MLP 投射 + 冻 LLM
和 PaLM-E / Embodied 路线的差异：PaLM-E 想让 LLM 控制机器人，FROMAGe 只关心图文，没碰动作空间

我建议这样读 — 3-4 步

先看图 1（架构图）：FROMAGe 的所有秘密都在那张图里——两条线性层、一个 [RET] token、冻结的主干。看懂图就懂 70%
再看 method 那一节：重点抓"训练目标是哪两个 loss"，以及"[RET] token 是怎么参与训练的"
跳过实验细节，先看定性示例（qualitative examples）：论文里展示的图文交错对话最能说明"为什么冻主干很值"
最后回头看消融（ablation）：如果只用 captioning loss 不用 retrieval loss 会怎样？投射层加宽会怎样？这部分回答"线性层够不够"

为什么值得读

方法极简：少有的论文能把"两个线性层"作为主要创新点还讲明白
思路有迁移性：后来一大批"冻 LLM + 轻桥接"的多模态工作（LLaVA 系列尤其）能在这里找到精神先祖
示范了一个工程哲学：与其训练新能力，不如借用已有大模型的能力，只训"翻译接口"。这套思路在大模型时代通用——后来出现的各种 adapter、LoRA、Q-Former 本质都是这个家族
对学习者友好：架构干净、参数少、概念集中，适合作为"理解多模态对齐"的入门样本。读完它再去读 BLIP-2、LLaVA 会非常顺

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_fromage_2026,
  title       = {(readable note) FROMAGe: Grounding LLMs to Images},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/fromage/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)