回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
VLM Foundation · Plate Nº 131

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks

6 min read · 2232 字 · ⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

一个看图模型,你跟它说"圈猫""描述这张图""找红车"它都能用同一个脑子做,回答全是一段文字。

这是个什么场景

你周末整理手机相册,可能会做这几件事:把所有有猫的照片挑出来、给某张旅游照配一段朋友圈文案、在一堆合影里圈出"穿红衣服那个人"。今天的你要分别打开三个 app:宠物识别 app、AI 配文 app、人脸框选工具。

旧的视觉模型就像这种专科 app 各做各的:一个只会检测物体,一个只会写图说,一个只会画分割轮廓,每个都要单独训练、单独调用,接口还都不一样

Florence-2 想做的事,就是把这些专科 app 合成一个万能助理:你给它一张照片,再加一句话指令——"圈出所有的猫"它画框;"描述这张图"它写文案;"图里红车在哪"它指给你看。不同指令,同一个脑子

更妙的是这个助理"个头不算大"(参数比很多大模型小得多),但靠见过的活儿够多够杂,单项都能打过专科选手。

Florence-2 — 场景示意:这论文要解决的现实问题
Plate Nº IFlorence-2 — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 专用模型路线:DETR、Mask R-CNN、BLIP 各做各的。检测就是检测、caption 就是 caption,接口不统一,工程上要拼很多模块
  • CLIP / ALIGN 系列:图文对比学习拿到强 zero-shot 分类和 retrieval,但只擅长"图文对齐",不能直接做检测、分割这种密集预测
  • Pix2Seq、UniTAB 等统一范式:把检测/grounding 之类任务也写成"输出 token 序列",证明可行,但任务覆盖面较窄、数据集没那么大。
  • Flamingo / BLIP-2 / Kosmos 路线:把视觉接到 LLM 上做 VQA、caption,强在生成,但密集任务(检测框、像素 mask)不是它们的主场
  • 大一统但靠大力出奇迹:堆几十亿参数 + 海量标注。Florence-2 想反其道而行之:模型不大,但数据广

这篇论文的关键想法

把所有视觉任务都看成"图像 + 任务提示 → 文字序列"。

  • 任务提示是自然语言风格的 prompt,比如 <CAPTION> <OD>(object detection)<REFERRING_EXPRESSION_SEGMENTATION>,模型看到 prompt 就知道该输出什么。
  • 输出永远是 token 序列:caption 就是普通文字;检测就是 <loc_x1><loc_y1><loc_x2><loc_y2> 类名 这种把坐标也编码进词表的序列;分割是把多边形顶点也编码成 location token。
  • 训练数据是作者构造的 FLD-5B:约 5.4 亿张图、126M 图像 + 5B 标注(具体数字需读原文核对),覆盖 caption、detection、grounding、OCR、region 等多种任务粒度,用一套数据引擎自动 + 人工生成。
  • 整个模型是标准的 vision encoder(DaViT 系)+ 多模态 transformer encoder-decoder,没有任务特定的 head,全部走同一个序列输出口。

核心赌注:当任务接口足够统一、数据足够全的时候,一个相对小(base ~230M、large ~770M 量级,具体数字需读原文)的模型就能在很多任务上接近或超过专用大模型

Florence-2 — 方法示意:核心 pipeline
Plate Nº IIFlorence-2 — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

统一的输入输出格式。像把所有问题都翻译成同一种语言:不管你问的是"在哪""是什么""长什么样",回答统统用"一段文字"交差。输入永远是图 + prompt(提示词)两件套,prompt 是一个很短的特殊标签(比如 <CAPTION> 表示要 caption),告诉模型"做哪类任务"。输出永远是 token(词元)序列。

等等,先慢一拍 —— 框和轮廓也能写成"文字"? 是的。坐标被切成 1000 格,每格一个特殊 token <loc_i>,加进词表。这样目标框就是"4 个 loc token + 类名";指代分割就是"先复述短语再给框";分割轮廓就是一串顶点 token。把视觉问题翻译成语言问题,是整个工作的灵魂。

模型骨架。像三明治:底下视觉编码器把图嚼烂成 token,上面一个 encoder-decoder 把图 token 和 prompt token 一起读进去,再一个字一个字吐答案。视觉端是 DaViT(Dual Attention Vision Transformer,一种同时看空间和通道的视觉骨干),多模态部分类似 T5 / BART。结构上没花活,关键不在结构,在于训练目标和数据

FLD-5B 数据引擎。像组建一支专家流水线给同一张图反复"抄作业":先用现成的检测器画框、分割器画轮廓、caption 模型写图说、grounding 模型对应短语和位置,最后用 LLM 重写、合并、查一致性,给每张图都攒出三档标注——整图(caption 级)、区域(框 + 短语)、像素(轮廓)。这套数据是 Florence-2 区别于其他 generalist(通用)模型的核心资产。

训练。所有任务共享一个目标:next-token prediction(猜下一个词)。不管是 caption 还是检测框,对模型来说都是"接着写下去"。数据按任务混合采样,prompt 决定该吐什么。下游可以零样本直接 prompt,也可以针对单任务再微调一下刷分。

实验在做什么

  • Zero-shot 对比:在 COCO detection、Flickr30k grounding、ADE20k 等公开 benchmark 上,不微调直接 prompt,看 Florence-2 base/large 与专用模型差多远。
  • Fine-tune 对比:在每个任务上做 task-specific fine-tune,跟该任务上的 SOTA 比。论文宣称在 RefCOCO、COCO caption 等多个任务上接近或超过专用大模型,具体数字需读原文表
  • 小模型 vs 大模型:用 Florence-2 large(约 770M 量级)对比一些 3B-10B 量级的 generalist VLM(如 Kosmos-2、Flamingo),论证"数据广 > 模型大"。
  • 消融:拆 FLD-5B 不同来源数据、不同任务类型,看缺了哪部分性能掉多少。
  • 可视化:展示 region 级 caption、密集 grounding、segmentation polygon 等多任务输出样例。

你应该懂的几个新词 — 4-6 个

  • prompt-to-sequence:模型用自然语言 prompt 触发任务,所有输出都统一成 token 序列。
  • location token / <loc_i>:把连续坐标(0~1)离散成 1000 个 bin,每个 bin 一个特殊 token,加入词表,让坐标也能"被生成"。
  • DaViT:Dual Attention Vision Transformer,同时做 spatial 和 channel attention 的视觉骨干。
  • Generalist Vision Model:通用视觉模型,一套权重做多种任务,对应专用模型(specialist)。
  • Region-level / Pixel-level annotation:标注的三种粒度——整图(caption)、区域(box + 短语)、像素(mask)。Florence-2 三档全要。
  • Referring Expression Segmentation:给一句话"穿红衣服坐左边的人",模型要分割出对应的区域,是 grounding + segmentation 的合体任务。

它和其他论文什么关系

  • 接 CLIP / Florence (v1):Florence v1(2021)是图文对比预训练偏 retrieval;Florence-2 把方向转向 generative + 多任务统一。
  • 同期 generalist 视觉模型:Kosmos-2、Unified-IO、OFA 都是把视觉任务序列化的尝试,Florence-2 的差异点是更全的任务覆盖 + 更大的多粒度标注数据集 FLD-5B
  • VLM for grounding:与 GLIP、Grounding-DINO 等专门做 open-vocab detection 的工作互相参照,Florence-2 把 detection 当成多任务里的一项处理。
  • 后续影响:很多 embodied / robotics 工作把 Florence-2 当现成的"视觉万能秘书",需要框就 prompt 框,需要 caption 就 prompt caption;它和 SAM / DINOv2 一起成为下游搭积木的常用底座。
  • 对比 BLIP-2 / Flamingo:那些更偏"视觉接 LLM 做对话/VQA",Florence-2 偏"视觉任务统一接口",目标分工不同。

我建议这样读 — 3-4 步

  1. 先看 Figure 1 + 任务列表,把"prompt → 输出"的几种格式(caption、detection、grounding、segmentation、OCR)摸一遍,这是本文的接口设计核心。
  2. 跳到 method 节看 location token 怎么编码,以及 DaViT + encoder-decoder 的整体连接图,结构本身不复杂,重点是输入输出怎么打包
  3. 重点读 FLD-5B 一节:数据引擎怎么搭、三档标注怎么生成,这是这篇论文的真护城河。
  4. 实验表选两类看:zero-shot 跨任务对比(看接口是否真通用)+ fine-tune 后单任务对比(看小模型能否打过专用大模型)。论文表格密集,挑 2-3 个有代表性的 benchmark 看就够。

为什么值得读

  • 这是 "视觉任务接口统一" 路线里最完整、最有影响力的一篇之一,工程上验证了"小模型 + 广数据 + 统一接口"的可行性。
  • 对 embodied / robotics 学习者特别有用:很多任务(看到什么物体、它在哪、给个短语找出对应区域)你都不想再训一个专用模型,直接 prompt Florence-2 就能拿到结构化输出。
  • 数据引擎部分是当代 VLM 训练数据构造的范式之一,理解了 FLD-5B 的搭法,再看其他 generalist 模型的数据章会很轻松。
  • 局限也明确:偏 2D image-level 任务,时序、3D、动作生成不在其范围;理解它能做什么、不能做什么,对后续选型很关键。

引用本笔记 / Cite this note
BibTeX
@online{eai_florence_2_2026,
  title       = {(readable note) Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/florence-2/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim