回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Diffusion Policy · Plate Nº 47

pi_0: Vision-Language-Action Flow Model

7 min read · 2618 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

让机器人看懂场景、听懂指令、还能丝滑动起来——拿现成的图文大模型当"大脑",再加一个会画连续动作的"流匹配"小头。

这是个什么场景 — 日常类比

想象你家来了个家政机器人,你随口一句"做个西红柿炒鸡蛋"——它得同时干三件事:

  • 清楚台面:锅、鸡蛋、番茄分别在哪,灶头开了没
  • 懂这句话不是"洗番茄"也不是"打蛋花汤"
  • 连贯地动:拿蛋、敲边、倒锅、翻铲,不能炒到一半卡住

之前机器人圈大致分两派思路:

  • 离散派(RT-1 / RT-2 那一支):把动作切成一格一格的 token,模型像念 PPT 一样念出"上、下、左、右"。问题是真炒菜时手是连续的,念 token 会卡顿。
  • 扩散派(Diffusion Policy):动作建成连续轨迹,一点点去噪出来。手很顺,但只在一个菜上练过,换个厨房就懵。

π₀ 的思路是把两边好处合起来:保留视觉-语言模型(Vision-Language Model, VLM)"已经看过半个互联网"的常识,再用流匹配让动作输出丝滑连续,同时拿一堆不同型号的机器人数据一起练,让它换灶台也能上手。

pi_0 — 场景示意:这论文要解决的现实问题
Plate Nº Ipi_0 — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • RT-1 / RT-2(Google):把动作离散化成 token,丢给 transformer 自回归生成。RT-2 进一步把 VLM(PaLI-X / PaLM-E)当骨架,让"互联网知识"迁移到操作上。问题:动作离散粒度粗,高频精细任务(比如系鞋带、叠衣服)不够顺滑。
  • OpenVLA:开源版的 VLA,骨架是 Llama + SigLIP,仍然走离散 token 路线,胜在开源可复现。
  • Diffusion Policy(Chi et al.):用 diffusion 直接建模连续动作 chunk,单任务上效果惊艳,但缺少 VLM 的语言/视觉常识,迁移性弱。
  • Octo / RT-X:尝试在多机型多任务大数据集上做"通才策略",但模型规模和动作头设计都还没到 VLA 的水准。
  • Mobile ALOHA / ALOHA:硬件 + 数据采集层面的突破,提供了高质量双手操作数据,但"模型怎么吃下这些数据"是另一个问题。

这篇论文的关键想法

π₀ 的关键设计可以拆成三层:

第一层:站在 VLM 肩膀上。 不从零训机器人模型,而是把已有的 VLM(论文里基于 PaliGemma 类的 VLM)当成"已经懂世界的大脑",只在它顶上加专门处理动作的模块。这样图像理解和语言理解的能力直接复用。

第二层:动作头用流匹配,不用扩散。 Flow matching 是 diffusion 的"近亲表兄"——目标都是把噪声变成有结构的输出,但 flow matching 训练目标更简单(直接学速度场 velocity field),推理步数更少,对实时控制(机器人需要 50Hz 级别频率)更友好。π₀ 输出的是一个动作 chunk(一段未来 N 步的连续动作),不是单步动作,这样既能规划又稳定。

第三层:异构机器人数据混训。 单臂、双臂、移动机器人、不同 DoF(自由度),统一进一个模型。论文用一种动作空间归一化 + 形态条件的方式,让模型知道"现在我在操作哪个机器人"。这点是通用基模能成立的关键。

pi_0 — 方法示意:核心 pipeline
Plate Nº IIpi_0 — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

架构总览(像一个"大脑 + 小手"的搭配)。 想象一个看图识物的高材生(VLM 主干)配一个专门管手脚的助手(动作头)。输入端把多视角摄像头画面、你说的那句话、机器人自己关节当前的角度(本体感受 proprioception——简单说就是机器人"闭眼也知道自己手举在哪儿")一起编成 token,喂给 VLM。VLM 读完吐出"我大概懂了"的隐藏状态,再交给动作头。动作头是另一个小 transformer,从一团随机噪声出发,配合流匹配训练,逐步画出一段连续动作。

等等,先慢一拍——流匹配(flow matching)到底是啥? 把它想成"画动画的两种思路"。Diffusion 像橡皮擦法:先在白纸上糊一团乱涂,然后一笔一笔擦回干净的图,要擦几十步。Flow matching 像描点连线法:直接学一个"从噪声指向目标的箭头场",照着箭头一路走过去,几步甚至一步就到。

为什么用 flow matching 而不是直接 diffusion。 机器人控制要 30-50Hz(每秒决策三十到五十次),diffusion 那种几十步去噪扛不住。Flow matching 的训练目标是 conditional flow(学一个把简单分布映射到目标分布的连续变换),数学上和 diffusion 等价但路径更"直",推理步数可以压到很少甚至单步,训练也更稳。论文靠这个把控制延迟压进了真机能跑的范围。

训练数据策略(像考研:先通识刷题,再针对名校真题)。 分两阶段:

  • 预训练:拿大规模异构数据(OXE / Open X-Embodiment 这类公开多机器人合集 + 自家采的数据)练"通才"。
  • 后训练(post-training):针对叠衣服、收餐桌、装箱这种具体任务,用少量高质量演示精调,让长程任务稳得住。

长程任务怎么扛。 真实家务一干就是好几分钟(叠 5 件衣服 / 整理桌面),远超模型一次能画的那段动作长度。π₀ 的解法是chunk 级自回归 + 语言指令分解:上层把任务拆成"先拿衣服→再对折→再叠起"这样的子目标,下层每次只画一小段(一个 action chunk),画完接着画下一段。具体长度和比例要查原文。

实验在做什么

论文展示的实验主要回答几个问题(具体数字需读原文):

  • 通用性:在多种平台(单臂、双臂、移动操作)上是否都能跑得动,覆盖任务包含家居整理、装箱、叠衣物等。
  • 数据规模消融:去掉互联网预训练 / 去掉异构机器人数据,性能掉多少。验证"VLM 知识 + 多机型数据"两件事的必要性。
  • 流匹配 vs 离散动作:对比 RT-2 风格的离散 token 方案和自家 flow matching 头,看哪个在精细操作上更优。
  • 长程任务:叠衣服、收拾桌子这类需要几十步的任务上,端到端成功率如何,以及失败时主要卡在哪里。
  • 真机演示:大量真机视频展示,强调"这是能在真实家庭场景跑起来"的策略,而不是纯仿真。

你应该懂的几个新词 — 4-6 个

  • Flow Matching:训练神经网络去学习一个连续向量场(velocity field),让简单分布(噪声)流向目标分布(动作)。和 diffusion 是同一类生成式建模,但训练目标更直接(回归速度),推理更快。可以理解成"diffusion 的简化高速版"。
  • VLA(Vision-Language-Action):把视觉、语言、动作三种模态统一在一个模型里输出动作的范式。RT-2 是奠基作,π₀ 是 flow matching 路线代表。
  • 动作 chunk(action chunking):一次预测未来 N 步动作,而不是只预测下一步。好处是减少高频决策的抖动,缺点是反应不够即时。π₀、Diffusion Policy、ACT 都用这个。
  • 本体感受(proprioception):机器人对自己身体状态的感知,比如关节角、末端位姿、夹爪开合度。是除了视觉/语言之外第三类核心输入。
  • 跨形态(cross-embodiment):同一个模型能驱动不同结构的机器人(单臂 vs 双臂 vs 移动平台)。OXE 数据集就是为此设计的。
  • 后训练(post-training):基础模型训完后,针对特定下游任务用小规模高质量数据精调。和 LLM 圈的 SFT / RLHF 是一个思路。

它和其他论文什么关系

  • 直接前辈:RT-2 / OpenVLA(VLA 范式起点);Diffusion Policy(连续动作建模)。π₀ 是这两条线的合流。
  • 数据基础:Open X-Embodiment(OXE)、BridgeData、DROID 等大规模异构机器人数据集,是 π₀ 跨形态训练的燃料。
  • 同期对手:RDT-1B、Octo、CogACT 等都在尝试"VLM + 连续动作头"的组合,技术路线略有差异(有的用 diffusion,有的用 flow matching)。
  • 下游影响:π₀ 之后出现了 π₀.₅、π-fast 等续作;社区也开始把 flow matching 当作 VLA 动作头的默认选项。SmolVLA 等开源工作直接借鉴了这套架构。
  • 互补线:硬件层的 ALOHA / Mobile ALOHA 提供数据采集平台;π₀ 是吃这些数据的"通用大脑"。两条线一上一下。

我建议这样读 — 3-4 步

  1. 先看 demo 视频(项目页有大量真机演示):建立"这模型到底能干啥"的直观印象,再去读方法。
  2. 对照 RT-2 / Diffusion Policy 读方法章节:重点看"为什么不继续用离散动作 token"和"flow matching 头是怎么接到 VLM 上的"。这两个对比是 π₀ 的核心 delta。
  3. 跳读实验:先看通用性 + 长程任务两部分(是论文主卖点),消融实验留作第二轮。
  4. 若做工程方向:重点看数据混训配方和训练 infra(多机器人形态归一化、动作空间统一),这是工业落地最难复现的部分;研究方向则关注 flow matching 头的设计细节。

为什么值得读

π₀ 是 2024 年通用机器人基础模型的标志性工作之一。它把三件事第一次工业级地缝在一起:

  1. 互联网级 VLM 知识 —— 来自 PaliGemma 这类预训练。
  2. 连续高频动作生成 —— 通过 flow matching,比 diffusion policy 推理更快,比离散 token 更顺滑。
  3. 跨形态通用性 —— 一个模型驱动多种机器人,不再为每个平台单训。

读它的价值不只是学一个具体方法,更是看清当前 VLA 的"标配架构"长什么样:VLM 主干 + 连续动作头 + 异构数据混训 + 大规模后训练。后续几乎所有"通用机器人模型"的论文都在这个模板上做增量。如果你研究方向是机器人学习 / VLA / 模仿学习,这是必读的"参考系"论文,类似 NLP 圈的 GPT-3、视觉圈的 ViT,定义了一个时代的默认起点。

引用本笔记 / Cite this note
BibTeX
@online{eai_pi0_2026,
  title       = {(readable note) pi_0: Vision-Language-Action Flow Model},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/pi0/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim