VLM Foundation · Plate Nº 131

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

6 min read · 2232 字 · ⭐⭐⭐ · 短摘要

#transformer #language #vision #VLM #dataset

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

一个看图模型，你跟它说"圈猫""描述这张图""找红车"它都能用同一个脑子做，回答全是一段文字。

这是个什么场景

你周末整理手机相册，可能会做这几件事：把所有有猫的照片挑出来、给某张旅游照配一段朋友圈文案、在一堆合影里圈出"穿红衣服那个人"。今天的你要分别打开三个 app：宠物识别 app、AI 配文 app、人脸框选工具。

旧的视觉模型就像这种专科 app 各做各的：一个只会检测物体，一个只会写图说，一个只会画分割轮廓，每个都要单独训练、单独调用，接口还都不一样。

Florence-2 想做的事，就是把这些专科 app 合成一个万能助理：你给它一张照片，再加一句话指令——"圈出所有的猫"它画框；"描述这张图"它写文案；"图里红车在哪"它指给你看。不同指令，同一个脑子。

更妙的是这个助理"个头不算大"（参数比很多大模型小得多），但靠见过的活儿够多够杂，单项都能打过专科选手。

之前的人怎么做的 — 3-5 bullet

专用模型路线：DETR、Mask R-CNN、BLIP 各做各的。检测就是检测、caption 就是 caption，接口不统一，工程上要拼很多模块。
CLIP / ALIGN 系列：图文对比学习拿到强 zero-shot 分类和 retrieval，但只擅长"图文对齐"，不能直接做检测、分割这种密集预测。
Pix2Seq、UniTAB 等统一范式：把检测/grounding 之类任务也写成"输出 token 序列"，证明可行，但任务覆盖面较窄、数据集没那么大。
Flamingo / BLIP-2 / Kosmos 路线：把视觉接到 LLM 上做 VQA、caption，强在生成，但密集任务（检测框、像素 mask）不是它们的主场。
大一统但靠大力出奇迹：堆几十亿参数 + 海量标注。Florence-2 想反其道而行之：模型不大，但数据广。

这篇论文的关键想法

把所有视觉任务都看成"图像 + 任务提示 → 文字序列"。

任务提示是自然语言风格的 prompt，比如 <CAPTION> <OD>（object detection）<REFERRING_EXPRESSION_SEGMENTATION>，模型看到 prompt 就知道该输出什么。
输出永远是 token 序列：caption 就是普通文字；检测就是 <loc_x1><loc_y1><loc_x2><loc_y2> 类名 这种把坐标也编码进词表的序列；分割是把多边形顶点也编码成 location token。
训练数据是作者构造的 FLD-5B：约 5.4 亿张图、126M 图像 + 5B 标注（具体数字需读原文核对），覆盖 caption、detection、grounding、OCR、region 等多种任务粒度，用一套数据引擎自动 + 人工生成。
整个模型是标准的 vision encoder（DaViT 系）+ 多模态 transformer encoder-decoder，没有任务特定的 head，全部走同一个序列输出口。

核心赌注：当任务接口足够统一、数据足够全的时候，一个相对小（base ~230M、large ~770M 量级，具体数字需读原文）的模型就能在很多任务上接近或超过专用大模型。

Plate Nº IIFlorence-2 — 方法示意：核心 pipeline

它怎么做的（方法）— 3-4 段

统一的输入输出格式。像把所有问题都翻译成同一种语言：不管你问的是"在哪""是什么""长什么样"，回答统统用"一段文字"交差。输入永远是图 + prompt（提示词）两件套，prompt 是一个很短的特殊标签（比如 <CAPTION> 表示要 caption），告诉模型"做哪类任务"。输出永远是 token（词元）序列。

等等，先慢一拍 —— 框和轮廓也能写成"文字"？是的。坐标被切成 1000 格，每格一个特殊 token <loc_i>，加进词表。这样目标框就是"4 个 loc token + 类名"；指代分割就是"先复述短语再给框"；分割轮廓就是一串顶点 token。把视觉问题翻译成语言问题，是整个工作的灵魂。

模型骨架。像三明治：底下视觉编码器把图嚼烂成 token，上面一个 encoder-decoder 把图 token 和 prompt token 一起读进去，再一个字一个字吐答案。视觉端是 DaViT（Dual Attention Vision Transformer，一种同时看空间和通道的视觉骨干），多模态部分类似 T5 / BART。结构上没花活，关键不在结构，在于训练目标和数据。

FLD-5B 数据引擎。像组建一支专家流水线给同一张图反复"抄作业"：先用现成的检测器画框、分割器画轮廓、caption 模型写图说、grounding 模型对应短语和位置，最后用 LLM 重写、合并、查一致性，给每张图都攒出三档标注——整图（caption 级）、区域（框 + 短语）、像素（轮廓）。这套数据是 Florence-2 区别于其他 generalist（通用）模型的核心资产。

训练。所有任务共享一个目标：next-token prediction（猜下一个词）。不管是 caption 还是检测框，对模型来说都是"接着写下去"。数据按任务混合采样，prompt 决定该吐什么。下游可以零样本直接 prompt，也可以针对单任务再微调一下刷分。

实验在做什么

Zero-shot 对比：在 COCO detection、Flickr30k grounding、ADE20k 等公开 benchmark 上，不微调直接 prompt，看 Florence-2 base/large 与专用模型差多远。
Fine-tune 对比：在每个任务上做 task-specific fine-tune，跟该任务上的 SOTA 比。论文宣称在 RefCOCO、COCO caption 等多个任务上接近或超过专用大模型，具体数字需读原文表。
小模型 vs 大模型：用 Florence-2 large（约 770M 量级）对比一些 3B-10B 量级的 generalist VLM（如 Kosmos-2、Flamingo），论证"数据广 > 模型大"。
消融：拆 FLD-5B 不同来源数据、不同任务类型，看缺了哪部分性能掉多少。
可视化：展示 region 级 caption、密集 grounding、segmentation polygon 等多任务输出样例。

你应该懂的几个新词 — 4-6 个

prompt-to-sequence：模型用自然语言 prompt 触发任务，所有输出都统一成 token 序列。
location token / <loc_i>：把连续坐标（0~1）离散成 1000 个 bin，每个 bin 一个特殊 token，加入词表，让坐标也能"被生成"。
DaViT：Dual Attention Vision Transformer，同时做 spatial 和 channel attention 的视觉骨干。
Generalist Vision Model：通用视觉模型，一套权重做多种任务，对应专用模型（specialist）。
Region-level / Pixel-level annotation：标注的三种粒度——整图（caption）、区域（box + 短语）、像素（mask）。Florence-2 三档全要。
Referring Expression Segmentation：给一句话"穿红衣服坐左边的人"，模型要分割出对应的区域，是 grounding + segmentation 的合体任务。

它和其他论文什么关系

接 CLIP / Florence (v1)：Florence v1（2021）是图文对比预训练偏 retrieval；Florence-2 把方向转向 generative + 多任务统一。
同期 generalist 视觉模型：Kosmos-2、Unified-IO、OFA 都是把视觉任务序列化的尝试，Florence-2 的差异点是更全的任务覆盖 + 更大的多粒度标注数据集 FLD-5B。
VLM for grounding：与 GLIP、Grounding-DINO 等专门做 open-vocab detection 的工作互相参照，Florence-2 把 detection 当成多任务里的一项处理。
后续影响：很多 embodied / robotics 工作把 Florence-2 当现成的"视觉万能秘书"，需要框就 prompt 框，需要 caption 就 prompt caption；它和 SAM / DINOv2 一起成为下游搭积木的常用底座。
对比 BLIP-2 / Flamingo：那些更偏"视觉接 LLM 做对话/VQA"，Florence-2 偏"视觉任务统一接口"，目标分工不同。

我建议这样读 — 3-4 步

先看 Figure 1 + 任务列表，把"prompt → 输出"的几种格式（caption、detection、grounding、segmentation、OCR）摸一遍，这是本文的接口设计核心。
跳到 method 节看 location token 怎么编码，以及 DaViT + encoder-decoder 的整体连接图，结构本身不复杂，重点是输入输出怎么打包。
重点读 FLD-5B 一节：数据引擎怎么搭、三档标注怎么生成，这是这篇论文的真护城河。
实验表选两类看：zero-shot 跨任务对比（看接口是否真通用）+ fine-tune 后单任务对比（看小模型能否打过专用大模型）。论文表格密集，挑 2-3 个有代表性的 benchmark 看就够。

为什么值得读

这是 "视觉任务接口统一" 路线里最完整、最有影响力的一篇之一，工程上验证了"小模型 + 广数据 + 统一接口"的可行性。
对 embodied / robotics 学习者特别有用：很多任务（看到什么物体、它在哪、给个短语找出对应区域）你都不想再训一个专用模型，直接 prompt Florence-2 就能拿到结构化输出。
数据引擎部分是当代 VLM 训练数据构造的范式之一，理解了 FLD-5B 的搭法，再看其他 generalist 模型的数据章会很轻松。
局限也明确：偏 2D image-level 任务，时序、3D、动作生成不在其范围；理解它能做什么、不能做什么，对后续选型很关键。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_florence_2_2026,
  title       = {(readable note) Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/florence-2/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)