Diffusion Policy · Plate Nº 47

pi_0: Vision-Language-Action Flow Model

7 min read · 2618 字 · ⭐⭐⭐⭐ · 短摘要

#diffusion #flow-matching #transformer #language #vision #VLA

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

让机器人看懂场景、听懂指令、还能丝滑动起来——拿现成的图文大模型当"大脑"，再加一个会画连续动作的"流匹配"小头。

这是个什么场景 — 日常类比

想象你家来了个家政机器人，你随口一句"做个西红柿炒鸡蛋"——它得同时干三件事：

看清楚台面：锅、鸡蛋、番茄分别在哪，灶头开了没
听懂这句话不是"洗番茄"也不是"打蛋花汤"
手连贯地动：拿蛋、敲边、倒锅、翻铲，不能炒到一半卡住

之前机器人圈大致分两派思路：

离散派（RT-1 / RT-2 那一支）：把动作切成一格一格的 token，模型像念 PPT 一样念出"上、下、左、右"。问题是真炒菜时手是连续的，念 token 会卡顿。
扩散派（Diffusion Policy）：动作建成连续轨迹，一点点去噪出来。手很顺，但只在一个菜上练过，换个厨房就懵。

π₀ 的思路是把两边好处合起来：保留视觉-语言模型（Vision-Language Model, VLM）"已经看过半个互联网"的常识，再用流匹配让动作输出丝滑连续，同时拿一堆不同型号的机器人数据一起练，让它换灶台也能上手。

之前的人怎么做的 — 3-5 bullet

RT-1 / RT-2（Google）：把动作离散化成 token，丢给 transformer 自回归生成。RT-2 进一步把 VLM（PaLI-X / PaLM-E）当骨架，让"互联网知识"迁移到操作上。问题：动作离散粒度粗，高频精细任务（比如系鞋带、叠衣服）不够顺滑。
OpenVLA：开源版的 VLA，骨架是 Llama + SigLIP，仍然走离散 token 路线，胜在开源可复现。
Diffusion Policy（Chi et al.）：用 diffusion 直接建模连续动作 chunk，单任务上效果惊艳，但缺少 VLM 的语言/视觉常识，迁移性弱。
Octo / RT-X：尝试在多机型多任务大数据集上做"通才策略"，但模型规模和动作头设计都还没到 VLA 的水准。
Mobile ALOHA / ALOHA：硬件 + 数据采集层面的突破，提供了高质量双手操作数据，但"模型怎么吃下这些数据"是另一个问题。

这篇论文的关键想法

π₀ 的关键设计可以拆成三层：

第一层：站在 VLM 肩膀上。 不从零训机器人模型，而是把已有的 VLM（论文里基于 PaliGemma 类的 VLM）当成"已经懂世界的大脑"，只在它顶上加专门处理动作的模块。这样图像理解和语言理解的能力直接复用。

第二层：动作头用流匹配，不用扩散。 Flow matching 是 diffusion 的"近亲表兄"——目标都是把噪声变成有结构的输出，但 flow matching 训练目标更简单（直接学速度场 velocity field），推理步数更少，对实时控制（机器人需要 50Hz 级别频率）更友好。π₀ 输出的是一个动作 chunk（一段未来 N 步的连续动作），不是单步动作，这样既能规划又稳定。

第三层：异构机器人数据混训。 单臂、双臂、移动机器人、不同 DoF（自由度），统一进一个模型。论文用一种动作空间归一化 + 形态条件的方式，让模型知道"现在我在操作哪个机器人"。这点是通用基模能成立的关键。

它怎么做的（方法）— 3-4 段

架构总览（像一个"大脑 + 小手"的搭配）。 想象一个看图识物的高材生（VLM 主干）配一个专门管手脚的助手（动作头）。输入端把多视角摄像头画面、你说的那句话、机器人自己关节当前的角度（本体感受 proprioception——简单说就是机器人"闭眼也知道自己手举在哪儿"）一起编成 token，喂给 VLM。VLM 读完吐出"我大概懂了"的隐藏状态，再交给动作头。动作头是另一个小 transformer，从一团随机噪声出发，配合流匹配训练，逐步画出一段连续动作。

等等，先慢一拍——流匹配（flow matching）到底是啥？ 把它想成"画动画的两种思路"。Diffusion 像橡皮擦法：先在白纸上糊一团乱涂，然后一笔一笔擦回干净的图，要擦几十步。Flow matching 像描点连线法：直接学一个"从噪声指向目标的箭头场"，照着箭头一路走过去，几步甚至一步就到。

为什么用 flow matching 而不是直接 diffusion。 机器人控制要 30-50Hz（每秒决策三十到五十次），diffusion 那种几十步去噪扛不住。Flow matching 的训练目标是 conditional flow（学一个把简单分布映射到目标分布的连续变换），数学上和 diffusion 等价但路径更"直"，推理步数可以压到很少甚至单步，训练也更稳。论文靠这个把控制延迟压进了真机能跑的范围。

训练数据策略（像考研：先通识刷题，再针对名校真题）。 分两阶段：

预训练：拿大规模异构数据（OXE / Open X-Embodiment 这类公开多机器人合集 + 自家采的数据）练"通才"。
后训练（post-training）：针对叠衣服、收餐桌、装箱这种具体任务，用少量高质量演示精调，让长程任务稳得住。

长程任务怎么扛。 真实家务一干就是好几分钟（叠 5 件衣服 / 整理桌面），远超模型一次能画的那段动作长度。π₀ 的解法是chunk 级自回归 + 语言指令分解：上层把任务拆成"先拿衣服→再对折→再叠起"这样的子目标，下层每次只画一小段（一个 action chunk），画完接着画下一段。具体长度和比例要查原文。

实验在做什么

论文展示的实验主要回答几个问题（具体数字需读原文）：

通用性：在多种平台（单臂、双臂、移动操作）上是否都能跑得动，覆盖任务包含家居整理、装箱、叠衣物等。
数据规模消融：去掉互联网预训练 / 去掉异构机器人数据，性能掉多少。验证"VLM 知识 + 多机型数据"两件事的必要性。
流匹配 vs 离散动作：对比 RT-2 风格的离散 token 方案和自家 flow matching 头，看哪个在精细操作上更优。
长程任务：叠衣服、收拾桌子这类需要几十步的任务上，端到端成功率如何，以及失败时主要卡在哪里。
真机演示：大量真机视频展示，强调"这是能在真实家庭场景跑起来"的策略，而不是纯仿真。

你应该懂的几个新词 — 4-6 个

Flow Matching：训练神经网络去学习一个连续向量场（velocity field），让简单分布（噪声）流向目标分布（动作）。和 diffusion 是同一类生成式建模，但训练目标更直接（回归速度），推理更快。可以理解成"diffusion 的简化高速版"。
VLA（Vision-Language-Action）：把视觉、语言、动作三种模态统一在一个模型里输出动作的范式。RT-2 是奠基作，π₀ 是 flow matching 路线代表。
动作 chunk（action chunking）：一次预测未来 N 步动作，而不是只预测下一步。好处是减少高频决策的抖动，缺点是反应不够即时。π₀、Diffusion Policy、ACT 都用这个。
本体感受（proprioception）：机器人对自己身体状态的感知，比如关节角、末端位姿、夹爪开合度。是除了视觉/语言之外第三类核心输入。
跨形态（cross-embodiment）：同一个模型能驱动不同结构的机器人（单臂 vs 双臂 vs 移动平台）。OXE 数据集就是为此设计的。
后训练（post-training）：基础模型训完后，针对特定下游任务用小规模高质量数据精调。和 LLM 圈的 SFT / RLHF 是一个思路。

它和其他论文什么关系

直接前辈：RT-2 / OpenVLA（VLA 范式起点）；Diffusion Policy（连续动作建模）。π₀ 是这两条线的合流。
数据基础：Open X-Embodiment（OXE）、BridgeData、DROID 等大规模异构机器人数据集，是 π₀ 跨形态训练的燃料。
同期对手：RDT-1B、Octo、CogACT 等都在尝试"VLM + 连续动作头"的组合，技术路线略有差异（有的用 diffusion，有的用 flow matching）。
下游影响：π₀ 之后出现了 π₀.₅、π-fast 等续作；社区也开始把 flow matching 当作 VLA 动作头的默认选项。SmolVLA 等开源工作直接借鉴了这套架构。
互补线：硬件层的 ALOHA / Mobile ALOHA 提供数据采集平台；π₀ 是吃这些数据的"通用大脑"。两条线一上一下。

我建议这样读 — 3-4 步

先看 demo 视频（项目页有大量真机演示）：建立"这模型到底能干啥"的直观印象，再去读方法。
对照 RT-2 / Diffusion Policy 读方法章节：重点看"为什么不继续用离散动作 token"和"flow matching 头是怎么接到 VLM 上的"。这两个对比是 π₀ 的核心 delta。
跳读实验：先看通用性 + 长程任务两部分（是论文主卖点），消融实验留作第二轮。
若做工程方向：重点看数据混训配方和训练 infra（多机器人形态归一化、动作空间统一），这是工业落地最难复现的部分；研究方向则关注 flow matching 头的设计细节。

为什么值得读

π₀ 是 2024 年通用机器人基础模型的标志性工作之一。它把三件事第一次工业级地缝在一起：

互联网级 VLM 知识 —— 来自 PaliGemma 这类预训练。
连续高频动作生成 —— 通过 flow matching，比 diffusion policy 推理更快，比离散 token 更顺滑。
跨形态通用性 —— 一个模型驱动多种机器人，不再为每个平台单训。

读它的价值不只是学一个具体方法，更是看清当前 VLA 的"标配架构"长什么样：VLM 主干 + 连续动作头 + 异构数据混训 + 大规模后训练。后续几乎所有"通用机器人模型"的论文都在这个模板上做增量。如果你研究方向是机器人学习 / VLA / 模仿学习，这是必读的"参考系"论文，类似 NLP 圈的 GPT-3、视觉圈的 ViT，定义了一个时代的默认起点。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_pi0_2026,
  title       = {(readable note) pi_0: Vision-Language-Action Flow Model},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/pi0/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)