回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Diffusion Policy · Plate Nº 38

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

19 min read · 6554 字 · ⭐⭐⭐ · auto 摘要

这是一份给"完全没接触过 AI"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。

一句话讲什么(TL;DR)

让机器人像调电视雪花一样产生动作:从满屏乱码开始,擦几下,下一步该怎么动就擦出来了。

所以这一节是想说:这篇论文换了一种姿势让机器人"产生动作"——不是直接说出来,而是从噪声里磨出来。


这是个什么场景

想象你在桌上把一本书推到桌角的某个位置。你不会想太多:可以从左边推、也可以从右边推;推一下歪了就微调;快到位时手会自己慢下来。

现在让机器人手臂干这件事——把一个 T 字形木块推到红色目标位。它没你这种"手感",它能做的只有一件事:看一眼摄像头画面,输出一个动作(手往哪边动几厘米)。这种"看一眼、动一下"的循环,每秒要跑十几次,跟你打游戏一帧一帧操作差不多。

那怎么教它?常见做法叫 模仿学习(imitation learning)

录几百段"专家演示"——研究员握着机器人手臂亲手做一遍。然后让神经网络学一个映射:看到画面 X 就输出动作 Y。

听起来像背单词题:见到 X 写下 Y。但这门考试有三个坑:

  1. 同一个画面对应多个合理答案:木块挡在中间,从左绕、从右绕都对。两种都见过的网络容易"取平均",学出一个走中间撞上去的动作——就像问你"周末去公园还是看电影",你回答"去公园看电影"。
  2. 动作要连贯:人推东西是有节奏的连续动作,不是一帧一帧蹦。一帧一帧独立决策的网络容易抖。
  3. 训练不稳定:当时最有希望的方法(IBC)训练时损失曲线看着在降,可成功率却像过山车上下乱跳,只能"训几百次挑最好的一次"。

Diffusion Policy 想一次性把这三件事都解掉。

所以这一节是想说:机器人模仿学习卡在"多种合理动作 + 动作连贯 + 训练稳"三件事上,这篇论文是来解这道老题的。


之前的人怎么做的,为什么不够好

  • 方案 A:直接回归(Explicit Policy) 类比:网络看到画面,直接说出"手臂往右移 0.3cm"。问题:如果数据里"往右"和"往左"都对,网络会输出"往中间"——把两种好答案平均成一个差答案。

  • 方案 B:把动作切成格子分类(Discretized Action) 类比:把可能的动作分成 100 个格子,让网络选其中一个。问题:动作有 6 个维度,每维 100 格 → 总共一万亿个格子。维度一多就爆炸。

  • 方案 C:混合高斯(GMM) 类比:网络说"我有 60% 想往左走,40% 想往右走",输出几个钟形分布。问题:要提前指定"几个模式",模式选少了表达不出来,多了训练不稳。

  • 方案 D:Implicit Policy / IBC 类比:网络不直接说动作,而是给每个候选动作打分(叫"能量"),动作越好分越低。预测时找分最低的。问题:训练时需要"造假动作做对照组",假动作造得不好,整个训练就崩。论文里 IBC 在多个任务上得分是 0.00。

  • 核心难题:上面这些方法都在和"如何同时表达多种合理动作 + 训练稳 + 高维空间"做权衡,没人能三者全占。

所以这一节是想说:之前的方法各有取舍,IBC 最接近理想但训练崩;缺一个能把这三件事一锅端的新方案。


这篇论文的新想法

类比:你看过雕塑家做石膏像吗?他不是上来就有一张完美的脸——他先看着一团粗糙的石膏胚,然后一刀一刀刮掉多余的部分,刮到最后那张脸就出来了。

Diffusion Policy 让机器人产生动作的方式跟这个一模一样:

把"机器人接下来该怎么动"当成一张要刻出来的画。起点是一团完全随机的雪花,让网络一步一步刮掉噪声,刮 K 次后剩下的那张图就是要执行的动作序列。

等等,先慢一拍——为什么"刮雪花"比"直接说动作"更好?

关键在两件事:第一,每次从不同的雪花起点开始刮,会刮出不同的合理动作(左推一次、右推一次都行),不会被迫取平均;第二,"刮一点点"这个动作比"一次说对答案"容易学得多,所以训练特别稳。这正好对应前面三个老难题里的两个。

这套"加噪 + 去噪"的框架就是图像生成里大火的 扩散模型(diffusion model)——Stable Diffusion、DALL·E 2 都是这个思路。Diffusion Policy 把它从"画图"搬到"画动作",开了机器人模仿学习的新分支。

所以这一节是想说:把"决定下一步动作"重写成"从噪声里反复擦出动作",借扩散模型的能力一次搞定老难题。


它分几步做的(方法)

整篇论文做了 4 件关键事:把扩散模型搬到动作上、设计网络结构、用"边走边规划"接好闭环、加视觉条件。

1. 用"擦噪声"代替"直接说动作"

类比

老式宝丽来相纸刚拍出来时是一片模糊的灰色,过一会儿才慢慢显出图像。Diffusion Policy 让网络做的事就像这种"显影"——但反过来:

给网络一张"全是雪花的乱码",让它擦一点雪花、再擦一点、再擦一点……擦 K 次后,剩下的就是清晰的"该执行什么动作"。

它在干什么

  1. 训练时:找一段专家演示,把里面真正的动作(比如"手往前 2cm")人为加上一些随机噪声变模糊。
  2. 让网络看着模糊版动作 + 当前画面,去预测加进去的噪声是什么样的
  3. 推理(用的时候):从纯噪声开始,让网络反复"猜噪声 → 减掉噪声"K 次,最后剩下的就是动作。

扩散模型(Diffusion Model):图像生成里红极一时的方法(Stable Diffusion、DALL·E 2 都基于它)。核心思路是"先把好图加噪变烂图,训练时教网络如何反过来去噪"。

DDPM(Denoising Diffusion Probabilistic Model):这套去噪过程的具体数学版本,是 2020 年由 Ho 等人提出的。

得分函数(score function):数学上是"概率分布的梯度方向"。直觉理解:在动作空间这片大地图上,每个点都有一个箭头,告诉你"往哪边走,更像专家会做的动作"。网络学的就是这个箭头方向。

关键公式翻译成人话

原文:x^(k-1) = α(x^k − γ·ε_θ(x^k, k) + N(0, σ²I))

人话:"新一轮的动作 = 旧一轮的动作 − 网络猜出来的噪声 + 一点点随机扰动"。 就是"挪一小步往更清晰的方向去,再加一点随机抖动避免卡死"。

为什么这步有用

  • 天然能表达多种合理动作:每次从不同的雪花起点开始擦,会擦出不同的合理动作(一会儿向左推、一会儿向右推)——再也不会平均成"中间撞上去"了。
  • 训练超级稳:不像 IBC 要造"对照假动作",扩散模型只需要预测"我加了什么噪声",损失曲线一路下降。论文实测:IBC 训练 1000 个 epoch 成功率上下抖动,Diffusion Policy 一路平稳上升。
  • 能直接吐一串动作:擦出来的不是一个数字,可以是一整串"接下来 16 步该怎么动"。

所以这一节是想说:把"输出动作"重写成"逐步去噪",三个老难题(多模态/稳/高维)一次性解决。


2. 一次预测一串动作 + 滚动重规划(Receding Horizon Control)

类比

老司机开车不会"看一眼路想一下,再看一眼想一下"。他会先在脑子里规划接下来 5 秒的动作(轻踩油门、过弯减速、变道),然后真的执行其中前 1-2 秒,剩下的边开边重新规划。这就是机器人控制里说的"滚动时域控制"。

它在干什么

设三个时间窗:

  • 观察窗 To:往回看 2 帧画面(比如最近 0.2 秒)。
  • 预测窗 Tp:往后规划 16 步动作(比如未来 1.6 秒)。
  • 执行窗 Ta:真的执行其中前 8 步,到第 8 步停下来重新规划。

Receding Horizon Control(滚动时域控制):控制论里几十年的老办法。每次预测一长段未来动作,但只执行其中前几步,然后向前滚一段,再次预测一长段。汽车自动驾驶、电厂调度都用它。

Action Horizon(动作视野):执行窗 Ta 的步数。Ta=1 是"一步一停",Ta 太长则反应迟钝。论文里实测 Ta=8 是甜点。

为什么这步有用

  • 抗抖动:如果每一步独立预测,相邻两步可能恰好分别选了"左路"和"右路"两种合理但互相打架的方向,输出就会左右横跳变成抖动。一次预测一串就强制每串内部协调。
  • 抗"演示者发呆":人在演示时偶尔会停几秒(比如等液体倒满),单步策略学完后会"卡在停那一步出不来",因为输入没变它就一直输出"不动"。多步预测能记住"这是个临时停顿,过几步就该继续"。
  • 抗延迟:摄像头采图、网络推理、电机响应加起来有 100-300ms 延迟。一次规划一长串就能吸收这种延迟。论文实测:4 步延迟内成功率不下降。

所以这一节是想说:和老司机一样"一次想一段、滚动地想",比"一步一停"稳得多。


3. 视觉条件:把摄像头画面当"提示词"塞进去

类比

你让画家画"一只在沙发上的橘猫"。"橘猫"+"沙发"是提示词,画家根据提示词在白纸上画。你不会让画家先画沙发再画猫——猫和沙发应该一起画。

Diffusion Policy 的视觉处理也是这个思路:图像不是要预测的东西,而是"提示"。

它在干什么

  1. 当前画面经过 ResNet-18 编码成一串数字(视觉特征)。
  2. 这串数字塞给去噪网络当条件——每一步去噪时网络都看着它。
  3. 关键:图像编码只跑一次,K 次去噪迭代里都共用这一份编码。

Conditional Diffusion(条件扩散):让扩散过程参考一个外部条件(这里是图像)。和 Stable Diffusion 用文字 prompt 控制画图一个道理。

FiLM(Feature-wise Linear Modulation):把条件变成一组缩放和平移系数,作用在网络中间层上。可以理解成"用图像在网络里调旋钮"。

ResNet-18:一个经典的图像识别网络。这里被改了几处:把全局平均池化换成空间 softmax(保留位置信息)、把 BatchNorm 换成 GroupNorm(配 EMA 训练更稳)。

为什么这步有用

  • 省算力:原本 Janner 等人的做法是把"画面 + 动作"一起当成要去噪的内容,每次去噪都得重画图,超慢。
  • 能实时:在 RTX 3080 上 0.1 秒推完一次 → 可以达到 10Hz 控制。
  • 图像编码可以端到端训练:因为是条件不是目标,图像编码器的权重也跟着扩散过程一起调,比"用冻结的预训练编码器"效果更好(实测从 22% 涨到 98%)。

所以这一节是想说:图像不参与去噪,只在旁边提示——又快又准。


4. 网络结构:CNN 还是 Transformer 都能用

类比

要写一篇文章,可以用 Word(什么都能干,复杂、慢)也可以用记事本(简单、快)。Diffusion Policy 提供了两套去噪网络让你选。

两个版本

  • CNN 版(默认推荐):用 1D 时间卷积处理动作序列。优点:开箱即用,不太需要调超参;缺点:天生偏好"低频信号"——动作变化太快太尖锐时会被卷积"抹平"。
  • Transformer 版:用 minGPT 风格的因果注意力。优点:能处理"动作每帧都剧烈变化"的任务(比如速度控制);缺点:超参敏感,不好调。

Causal Attention(因果注意力):每个时刻只能看到自己和过去的时刻,看不到未来。语言模型 GPT 也用这个机制,保证生成顺序合理。

DDIM(Denoising Diffusion Implicit Model):扩散模型的快速采样技巧——训练时用 100 步去噪,推理时只用 10 步。能 10 倍加速且几乎不掉精度。Diffusion Policy 用它达到实时控制。

作者的推荐顺序

  1. 先试 CNN 版(FiLM 条件 + 1D 时序卷积)。
  2. 如果任务里动作变化特别快、精度要求特别高,再换 Transformer 版。

所以这一节是想说:去噪用什么网络都行——卷积简单稳,Transformer 强但难调。


Diffusion Policy — 方法示意:核心 pipeline
Plate Nº IDiffusion Policy — 方法示意:核心 pipeline

关键数字(What works)

数字本身不重要,重要的是它们告诉你哪种"设计选择"是关键。

数字 1:15 个任务平均提升 46.9%

  • 怎么算的:4 个公开 benchmark(Robomimic、Push-T、BlockPush、Kitchen)共 15 个任务,每个任务跑 3 个 seed × 50 个初始条件 = 1500 次实验。
  • 对比:和 LSTM-GMM、IBC、BET 三个之前最强的基线比。
  • 生活语言:不是"在某个任务上比之前强"——而是"在我们能找到的所有 benchmark 上一律稳赢平均近一半"。这是"奠基性"的标志。

数字 2:Kitchen p4 提升 213%

  • 怎么算的:Kitchen 里有 7 个家具要操作,p4 是"能完成 4 个或以上家具操作"的成功率。Diffusion Policy 0.99 vs BET 0.44。
  • 生活语言:长程多模态(不同家务可以任意顺序做)是这一切方法里最难的,Diffusion Policy 几乎做满了。

数字 3:IBC 在 7/10 个任务上是 0.00

  • 怎么算的:IBC 在 Robomimic 的 Can/Square/Transport/ToolHang 等任务上多次成功率 0%。
  • 对比:同样数据,Diffusion Policy 这些任务都到 0.95+。
  • 生活语言:能量模型理论上很好但工程上崩,是 Diffusion Policy 出来后被取代的核心原因。

数字 4:现实世界 Push-T 95% vs 0% (IBC) vs 20% (LSTM-GMM)

  • 怎么算的:UR5 机械臂真实推 T 字块,看最终位置 IoU。
  • 生活语言:这是真机数据——不是模拟器作弊。Diffusion Policy 第一个把 push-T 这种"高精度 + 多模态"任务真机做到接近人(人 100%,DP 95%)。

数字 5:DDIM 加速到 0.1 秒推理

  • 怎么算的:训练时 100 步去噪,推理时 DDIM 10 步,单卡 RTX 3080。
  • 生活语言:能跑到 10Hz,意味着真的能做闭环机器人控制——不是"研究 demo 跑一帧 5 秒那种"。

数字 6:动作视野 Ta=8 是甜点,太长反而掉

  • 怎么算的:Ta 从 1 扫到 128,绘制成功率曲线。
  • 生活语言:太短抖、太长反应慢。这条曲线让后续所有用 Diffusion Policy 的人省掉一轮调参。

所以这一节是想说:数据告诉我们三件事——这方法稳、强、能上真机。


你应该懂的几个新词

Behavior Cloning(行为克隆):模仿学习里最简单的一种。给定专家演示数据(画面 + 动作),训一个网络把画面映射到动作。本论文就属于这一支。

Visuomotor Policy(视觉运动策略):输入是图像、输出是机器人动作的策略函数。"visuo-"是视觉,"motor"是运动。

Diffusion Model(扩散模型):先给数据加噪、再训网络去噪的生成模型。Stable Diffusion、DALL·E 2 是它在图像上的应用,本论文是它在动作上的应用。

DDPM(Denoising Diffusion Probabilistic Model):扩散模型的标准数学版本。Ho 等人 2020 年提出。

DDIM(Denoising Diffusion Implicit Model):扩散模型的"快进按钮"。训练时 100 步,推理时只跑 10 步。

Score Function(得分函数):动作空间这张地图上每个点的"箭头方向"——指向"更像专家"的方向。网络真正学的就是这个箭头。

Multi-modal Action Distribution(多模态动作分布):同一个画面对应多个合理动作(比如左推、右推都行)。是模仿学习老大难。

Receding Horizon Control(滚动时域控制):每次预测一长串动作只执行前几步。控制论老办法,自动驾驶/电厂调度都用。

FiLM(Feature-wise Linear Modulation):把条件信息变成"调旋钮"的方式注入网络。这里用来把图像信息塞进去噪网络。

Energy-Based Model(能量模型):给每个候选动作打"能量分",分越低越好。IBC 就是这一支,训练不稳。

Stochastic Langevin Dynamics(随机朗之万动力学):物理里描述粒子在势能场里乱走的方程。扩散模型的采样过程数学上等价于这个——所以"沿得分函数走 + 随机扰动"。

End-to-end Training(端到端训练):图像编码器 + 去噪网络 + 一切组件一起训练,不冻结任何部分。本论文实测端到端比"冻结预训练 ResNet"效果好得多。

所以这一节是想说:上面这十几个词以后看任何机器人论文都会反复出现,先把它们和生活类比挂钩。


它有什么搞不定的

Diffusion Policy 不是万能的,论文自己也老实交代了几个翻车点:

  • 推理慢一点点:扩散需要 K 步迭代,比直接前向慢。即使用 DDIM 加速到 10 步,也不如 LSTM-GMM 一帧一帧跑那么快。100Hz 以上的高频控制不太适合。
  • 演示数据决定一切:扩散模型表达能力强,但学的还是演示里有的动作。演示者从没做过的招式,它编不出来(虽然推 T 块的实验里它显示出一些"组合动作"的迹象)。
  • CNN 版怕"快变信号":动作要每帧大变(比如速度控制场景),CNN 卷积偏好低频会抹平。要换 Transformer 版还得调超参。
  • 真机数据贵:210 个 demo 训蛋打机、162 个训卷地垫、284 个训叠衬衫——demo 还得带触觉手柄做。这是"演示驱动"路线的通病。

所以这一节是想说:Diffusion Policy 解了多模态/稳/高维老题,但没解"演示数据贵"和"高频控制慢"的根问题。


它和别的论文是什么关系

  • 时间线:DDPM(2020 图像生成)→ Diffusion Policy(2023 RSS)→ 一票"Diffusion + 机器人"工作(3D Diffuser Actor、Octo、π0 等)→ Cosmos Policy(2025 用世界模型微调)。
  • 集合关系:你可以把"机器人模仿学习"想成一个大集合 M。Diffusion Policy 是这集合里第一个用扩散模型做策略的成员,定义了一个新分支。
  • 因果关系
    • DDPM 出现 导致 了 Diffusion Policy 能成立。
    • Diffusion Policy 出现 导致 了后续大量"VLA + 扩散动作头"的工作(比如 OpenVLA、Cosmos Policy 都用扩散思想生成动作)。
    • Receding Horizon Control 是 60 年代控制论老想法,被复用进 Diffusion Policy 用来做闭环。
  • 对比关系
    • 和本仓库已有的 OpenVLA:OpenVLA 用大语言模型当策略骨架(输入图像 + 语言指令、输出动作 token),动作表达方式偏离散;Diffusion Policy 用扩散过程连续生成动作,但没接语言。两者结合就是后续工作的方向(先理解语言再用扩散落动作)。
    • 和本仓库已有的 Cosmos Policy:Cosmos Policy 把"会脑补未来视频"的世界模型微调成策略,扩散思想还在但策略骨架变成了视频模型。可以看作 Diffusion Policy 思想 × 大世界模型的下一代。
    • LLaVA:LLaVA 是 VLM,想方设法让 AI"看图说话";Diffusion Policy 是"看图做事"。两者都是 2023 年定义新范式的开山作,方向不同但思路类似——都把别的领域成熟工具(GPT-4 出题 / 图像扩散)借到自己领域。

所以这一节是想说:Diffusion Policy 在机器人模仿学习里相当于 LLaVA 在 VLM 里——一个开新分支的"祖宗模板"。


我建议这样读这篇

零基础读者不要从头读到尾。建议这样走:

  1. 看 Figure 1 三幅小图(5 分钟):Explicit Policy / Implicit Policy / Diffusion Policy 三种动作表达方式。一眼记住核心创新是什么。
  2. 跳到第 2 节"Diffusion Policy Formulation"(15 分钟):搞懂"加噪 → 去噪"这套流程的数学骨架。公式 1-5 是核心。
  3. 读第 3 节"Key Design Decisions"(10 分钟):CNN vs Transformer 怎么选、视觉编码怎么接、噪声调度选什么。
  4. 跳到第 4 节"Intriguing Properties"(15 分钟):这一节才是这篇论文的灵魂——为什么扩散能解多模态、为什么训练稳、为什么位置控制更好。
  5. 快速扫消融实验(5 分钟):动作视野选多长、视觉编码用什么——后续工作都会引用这几张表的结论。
  6. 跳过 5/6/7 节的具体任务:除非你要复现,否则知道"15 个任务全赢"就够了,具体细节用时再查。

读完这 6 步大约 50-70 分钟,已经能在和别人讨论机器人策略时报出 Diffusion Policy 的核心思路。

所以这一节是想说:精华全在第 2 节的"加噪去噪"和第 4 节的"为什么扩散能解老问题",工程细节可以略读。


一些好奇心问答(FAQ)

Q1:扩散模型不是用来画图的吗?怎么跑动作?

数学上没区别。扩散模型本质是"学习一个数据分布的得分函数"——只要你能定义"什么是好数据",它就能从噪声里采样出好数据。图像的"好数据"是清晰图,动作的"好数据"是专家轨迹。换个数据集而已。

Q2:每次推理都要去噪 100 步?机器人不会卡住?

训练时 100 步,推理时用 DDIM 加速到 10 步,单 GPU 0.1 秒。能跑 10Hz 闭环。比起"研究 demo 跑一帧几秒",这已经是真机可用了。但比起 100Hz 高频控制还是不够。

Q3:为什么"位置控制"比"速度控制"好?

直觉解释:位置控制是"我要去 X 这个点",速度控制是"我要以多快往哪边"。后者会有"误差累积"——这一帧速度算错一点,下一帧位置就偏一点,几秒后就漂走了。位置控制每帧重新看绝对位置,没有累积。Diffusion Policy 又能优雅表达多模态,所以用位置控制最划算。

Q4:演示数据要多少?

论文实验里:模拟器任务用 100-300 个 demo,真机 push-T 用 136 个 demo,蛋打机 210 个,叠衬衫 284 个。比强化学习省好几个数量级,但比"零样本指令跟随"贵——还得人手把着机器人录。

Q5:CNN 版还是 Transformer 版?

作者明确建议先试 CNN 版——开箱即用、几乎不用调超参。只有当任务里动作变化非常快(比如要做高频速度控制)CNN 抹平太严重时,再换 Transformer 版,并准备好调好几天超参。

Q6:训练稳定具体稳到什么程度?

论文 Figure 6 显示:IBC 训练 1000 个 epoch,评估成功率从 0% 到 80% 来回乱跳,研究员只能"训完几百次挑最好的"。Diffusion Policy 损失一路平稳下降,成功率单调上升,最终 checkpoint 就是最好的。这一点对于实验室复现门槛影响巨大。

Q7:能用 Diffusion Policy 跑多大的机器人?

论文的真机实验从 6DoF 单臂(UR5)到 14DoF 双臂(两个 Franka 协作)都试了。自由度数量不是瓶颈——扩散模型在高维空间表现很好。瓶颈是控制频率(10Hz 适合慢任务,更快的还得加速)。

Q8:之后该看什么?

最直接的下一步是 3D Diffuser Actor(把 Diffusion Policy 扩展到 3D 点云输入)和 Octo(用 Diffusion Policy 思想做通用机器人基础模型)。如果想看"扩散 + 大模型"路线,看 Cosmos Policyπ0。如果想理解扩散模型本身,先读 DDPM 原文(Ho et al. 2020)

所以这一节是想说:实操问题(数据、速度、规模、跟进路线)作者都想到了,用法已经很成熟。


如果你想再深入

按"前传 → 同期对手 → 续作 → 衍生方向"排序:

  1. 前传:DDPM(Ho et al. 2020) — 扩散模型的奠基论文。读完才知道 Diffusion Policy 用的"加噪 → 去噪"具体什么样、为什么这么训练。
  2. 前传:IBC(Florence et al. 2021) — Diffusion Policy 直接打败的对手。能量模型路线代表作。读它能理解"为什么 IBC 训练不稳"是 Diffusion Policy 出来的关键动机。
  3. 同期:Diffuser(Janner et al. 2022) — 几乎同一时间用扩散做规划(不是策略)的工作。和 Diffusion Policy 思路相似但更强调长程规划,对照能看出"做策略 vs 做规划"的两条路。
  4. 续作:3D Diffuser Actor(2024) — 把 Diffusion Policy 输入从 2D 图像换成 3D 点云,效果再涨。
  5. 衍生:Octo / OpenVLA / π0 — 把 Diffusion Policy 思想嵌入更大的视觉-语言-动作(VLA)模型,做通用机器人基础模型。本仓库已有 OpenVLA 笔记可对照。

所以这一节是想说:把 DDPM + IBC + Diffusion Policy 这三篇连起来读,就能看到 2020-2023 年机器人模仿学习的范式转换全貌。


最后一个画面

想象这样的场景:实验室里 UR5 机械臂正在推一个 T 字木块。你伸手把木块往边上挪了挪——研究员在演示 Diffusion Policy 的"扰动鲁棒性"。

机械臂看到画面变了,并没有继续按原计划走。它停顿了不到一秒(10Hz 重规划),然后从相反方向绕过来重新推。论文里写:"Diffusion Policy may be able to synthesize novel behavior in response to unseen observations(Diffusion Policy 似乎能针对没见过的情况合成新行为)"。

这一刻,从"模仿照搬演示"到"看着情况临场反应",机器人模仿学习走完了一个台阶。

所以最后一节是想说:Diffusion Policy 不只是技术指标好看——它让机器人在面对没见过的扰动时,也能临场组合出新的合理行为。这是机器人模仿学习的一个标志性瞬间。

引用本笔记 / Cite this note
BibTeX
@online{eai_diffusion_policy_2026,
  title       = {(readable note) Diffusion Policy: Visuomotor Policy Learning via Action Diffusion},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/diffusion-policy/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim