Diffusion Policy
把'选动作'重新定义成'去噪'。从一团随机数开始,一步步擦回到平滑可执行的动作序列——结果是模仿学习里少见的稳定多模态策略。
先读这三篇。
Diffusion Policy 把扩散搬进控制 → 3D-DP 给它装 3D 眼睛 → π0 把流匹配做到产业级基础模型。
-
1
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
让机器人像调电视雪花一样产生动作:从满屏乱码开始,擦几下,下一步该怎么动就擦出来了。
-
2
3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
让机器人改看 3D 立体形状(点云)而不是 2D 照片来学动作,10 条示范就够,72 个任务平均比原版强 24.2%。
-
3
pi_0: Vision-Language-Action Flow Model
让机器人看懂场景、听懂指令、还能丝滑动起来——拿现成的图文大模型当"大脑",再加一个会画连续动作的"流匹配"小头。
2023 到 2025,11 篇怎么排开。
祖师爷
经典
前沿
Diffusion Policy 全部 11 篇。
| era | year | title | venue |
|---|---|---|---|
| 祖师爷 | 2023 | Diffusion Policy: Visuomotor Policy Learning via Action Diffusion | RSS |
| 经典 | 2024 | 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations | RSS |
| 经典 | 2024 | Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation | RSS |
| 经典 | 2024 | EquiBot: SIM(3)-Equivariant Diffusion Policy | CoRL |
| 前沿 | 2024 | Affordance-based Robot Manipulation with Flow Matching | IROS |
| 前沿 | 2024 | pi_0: Vision-Language-Action Flow Model | arXiv |
| 前沿 | 2025 | DiT-Policy | ICRA |
| 前沿 | 2025 | Diffusion Policy Policy Optimization (DPPO) | ICLR |
| 前沿 | 2025 | FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching | AAAI |
| 前沿 | 2025 | FAST: Efficient Action Tokenization for VLA | RSS |
| 前沿 | 2025 | pi_0.5: VLA with Open-World Generalization | arXiv |