回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
High-Level Planning · Plate Nº 82

RoboFlamingo

6 min read · 2089 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

拿一个已经会看图说话的现成大模型当大脑,后面接一只"小手",就教会机械臂干活——不用从头训。

这是个什么场景 — 日常类比

你家厨房里来了一个学霸朋友。他书读得多、眼神好——你指着桌上一堆东西说"把那个红色的小盒子递给我",他立刻能找到。问题是:他从小不下厨,手生,不知道怎么伸手抓杯子才不打翻、夹爪用多大力气合适。

RoboFlamingo 干的事就是:不再重新培养一个学霸(那太贵了),而是给他戴上一副"机械手手套"(policy head,策略头)。手套里装了个小翻译器,专门把他脑子里的判断("目标在桌子左前方 30 公分")翻译成手指关节的具体动作。学霸原本的"看图+听人话"的本事一点不动,只新学一件事:怎么把判断变成动作。这就是这篇论文想证明的——你不需要从零训练 VLA(Vision-Language-Action,能看会听还能动手的大模型),少量机器人数据 + 一个小尾巴就够了。

RoboFlamingo — 场景示意:这论文要解决的现实问题
Plate Nº IRoboFlamingo — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • RT-1 / RT-2(Google):从机器人数据从头训练,或者把动作离散化成 token 让 VLM 直接吐出来。优点是端到端,缺点是数据量巨大,复现门槛高。
  • PaLM-E:把多模态输入塞进 LLM,但主要做高层 planning 而不是低层连续控制。
  • Code as Policies / SayCan:用 LLM 写代码或选 skill,绕开了"直接输出动作",但依赖预定义技能库。
  • 从零训练的 BC 策略(如 BC-Z):视觉编码器 + 简单 MLP,泛化能力受限于数据规模。
  • 共同痛点:要么吃数据狠,要么走"语言→技能"间接路线,没充分利用开源 VLM 已经具备的视觉语言能力。

这篇论文的关键想法

把"VLM 当 backbone + 小 policy head"做成一种便宜、可复用的范式。具体两个关键判断:

  1. OpenFlamingo 的视觉语言表征已经够好,机器人任务真正缺的是"动作映射"那一段。
  2. 大部分 VLM 参数应该冻住或低成本微调,把可训练参数集中在 policy head 上,这样在 CALVIN 这类 benchmark 上用相对小的算力就能拿到有竞争力的结果。

它的目标不是 SOTA 绝对数值,而是给社区一个"低成本接入 VLA 研究"的开源起点。

RoboFlamingo — 方法示意:核心 pipeline
Plate Nº IIRoboFlamingo — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

Backbone 选型(挑一个现成的学霸):与其自己培养一个,不如直接请来一个公认的优等生——OpenFlamingo(开源复刻版 Flamingo)。它的脑子已经组装好了:一只眼睛(视觉编码器,CLIP-ViT 系,专门把图像变成数字特征)、一张嘴(语言模型,LLaMA 系)、还有一座桥把眼睛看到的东西塞给嘴(cross-attention,让语言去"查询"图像信息的注意力机制;perceiver resampler 是把图像信息压缩成少量 token 的小工具)。这一整套就是那个"会看图说话的学霸",全套打包带走。

Policy head 设计(给学霸装一只手):等等,先慢一拍——hidden state 是什么?简单说,就是大模型读完输入后脑子里的"中间想法",一长串数字向量,里面已经包含了"图里有什么、用户让我干嘛"。policy head 就是接在这堆"想法"后面的一小段网络,专门把"想法"翻译成机械臂能执行的具体动作(一般是 7 维末端执行器位姿 + 夹爪开合,也可能是离散化的动作 token)。具体 head 内部是 MLP / LSTM / Transformer decoder 哪种,以及动作空间怎么切,需读原文确认。

训练策略(抄作业式学习):训练靠的是 behavior cloning(行为克隆,简称 BC)——给模型一堆"专家这一刻看到了什么 + 那一刻做了什么动作"的配对数据,让它照着抄。具体场地选在 CALVIN 这个带语言指令的桌面操作 benchmark 上:输入是几帧视频 + 一句自然语言指令(比如"打开抽屉"),输出是接下来的动作序列。学霸的脑子大部分冻住不动,只训那座"图像-语言桥"(cross-attention 层)+ 新装上的 policy head(具体冻结策略需读原文)。

推理流程(实战时怎么跑):每一拍把"当前画面 + 任务描述"喂给模型,policy head 直接吐出下一步该怎么动,机器人执行完,再喂下一拍画面,循环往复(这叫闭环控制)。这里和 RT-2 的路线不一样:RT-2 让 VLM 直接生成"动作 token"(把动作当成单词预测),而 RoboFlamingo 倾向于让 head 直接出连续数值的动作(具体细节需读原文)。

实验在做什么

  • 主战场:CALVIN benchmark,长程语言指令的桌面操作(开抽屉、推方块、按按钮等组合任务)。
  • 核心指标:完成长链任务的成功率(连续完成 1/2/3/4/5 个子任务的概率),泛化到新场景 / 新指令的能力。
  • 对比对象:从零训练的 baseline(如 HULC、MCIL),以及不冻 backbone 的全量训练版本。
  • 消融:是否冻结 LM、不同 backbone 规模(3B / 9B 等 OpenFlamingo 变体)、policy head 设计选择对效果的影响。
  • 结论方向:证明"VLM + policy head"在 CALVIN 上能打过或追平专门设计的 baseline,且训练成本明显低。具体数字需读原文。

你应该懂的几个新词 — 4-6 个

  • Policy head:策略头。模型主干(VLM)输出表征后,专门把表征映射到动作的最后一段网络。
  • OpenFlamingo:开源复刻版的 Flamingo(DeepMind 闭源),结构是"视觉编码器 + LLM + cross-attention 桥",能做图文交错输入。
  • Behavior cloning(BC):行为克隆。给定 (观测, 专家动作) 数据对,让模型直接学专家映射,是最朴素的模仿学习。
  • CALVIN:一个带语言指令的桌面机械臂操作 benchmark,强调长程任务和语言泛化。
  • Cross-attention:让一个序列(语言)去"查询"另一个序列(视觉 token)相关信息的注意力机制,Flamingo 系靠它把图像信息注入 LM。
  • VLA(Vision-Language-Action):把 VLM 扩展成能输出动作的统称,RT-2、OpenVLA、RoboFlamingo 都属于这一类。

它和其他论文什么关系

  • 承接Flamingo / OpenFlamingo 提供 backbone;CALVIN 提供评测环境。
  • 同期对手RT-2 走的是"动作 token 化让 VLM 直接生成"路线,参数和数据都更重;RoboFlamingo 选了更轻量的 head 路线。
  • 被启发的后续OpenVLA 系列把这个思路标准化、规模化;TinyVLA / SmolVLA 进一步压缩;π0 换成 flow-matching 的连续动作输出,是 head 设计的另一支演化。
  • 对照思路Diffusion Policy 不依赖大 VLM,纯视觉 + diffusion head,可以对比"大 backbone 必要性"。
  • 在你的阅读路径里,这是一篇"理解 VLA 范式起点"的关键 classic,先于 OpenVLA 读最合适。

我建议这样读 — 3-4 步

  1. 先看摘要 + 图 1 架构图:搞清楚"VLM 在哪、policy head 在哪、什么被冻住",这是全文骨架。
  2. 跳到方法第 3 章,盯 policy head 的具体结构和动作空间定义;这块是论文的实质贡献。
  3. 看 CALVIN 实验表:重点对比"冻 backbone vs 全量训练"和"不同 backbone 规模"两组消融,理解 cost-performance trade-off。
  4. 最后回头看 related work,把它放进 RT-2 / OpenVLA 这条线里,建立时间序坐标。

为什么值得读

  • 范式价值:它是把"开源 VLM + 小 policy head"做成 VLA 标配的早期代表,OpenVLA 等后续工作都建在这个直觉上。读它能理解整条 VLA 路线的"经济版"思路。
  • 复现友好:开源、训练成本相对低,是零基础进入具身操作研究最现实的起点之一。
  • 对比锚点:之后看 RT-2、OpenVLA、π0 时,RoboFlamingo 是天然的"基线参照",能让你判断后续工作到底改了哪一块、改得值不值。
  • 给你的启示:很多看似要从零训的能力,本质上只是"换个 head"。这种"backbone 复用 + 小尾巴"的思维在很多领域都成立,值得当成方法论记下来。

引用本笔记 / Cite this note
BibTeX
@online{eai_roboflamingo_2026,
  title       = {(readable note) RoboFlamingo},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/roboflamingo/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim