Diffusion Policy · Plate Nº 39

3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations

15 min read · 5167 字 · ⭐⭐⭐ · auto 摘要

#diffusion #transformer #3D #vision #imitation

TL;DR

让机器人改看 3D 立体形状（点云）而不是 2D 照片来学动作，10 条示范就够，72 个任务平均比原版强 24.2%。

所以这一节是想说：DP3 把视觉模仿学习里"靠 2D 照片猜 3D 动作"这个根本错位修好了，代价只是加一个三层 MLP。

这是个什么场景

想象你蒙着一只眼睛伸手去拿桌上的水杯。你能看到杯子的轮廓，但很难判断它"离手还有多远"——很可能一把抓空，或者撞翻。

机器人现在面临的就是这种"独眼"困境。模仿学习（imitation learning） 是教机器人最省心的办法：人遥控机械手做一遍（比如包一次饺子），录下"我看到什么 → 我做了什么"，机器人照葫芦画瓢。比强化学习好，因为不用让真机摔几千次去试错。

但有个让人头大的老毛病：特别费示教数据。

原版 Diffusion Policy（DP，2023 RSS）：每个真实任务要 100~200 条人工演示
一条演示要遥操几十秒到几分钟
演示一多手就抖、容易出错、要重录，整个数据收集能拖好几天

为什么这么费？因为机器人是通过 RGB 照片看世界的，跟"独眼看杯子"一个毛病——它知道"杯子在画面左边"，不知道"杯子离我 30cm 还是 60cm"。结果：

灯光换了（早上拍 vs 晚上拍）→ 失效
摄像头挪了 5 度 → 失效
杯子从蓝色换成红色 → 失效

每出现一种新情况，都得多录一批演示来补。

DP3 这篇文章问：要是直接给机器人一双"立体眼"（看 3D 点云），能不能从根上解决？

所以这一节是想说：模仿学习贵在示教，而示教贵的根因是 2D 图像不够"懂空间"——这给了 3D 表征一个出场的理由。

Plate Nº I3D Diffusion Policy — 场景示意：这论文要解决的现实问题

之前的人怎么做

DP3 出现之前，机器人视觉策略大致两条路：

路线 A：2D 图像派（主流）

代表：BCRNN（行为克隆 + RNN）、IBC（隐式行为克隆）、Diffusion Policy（DP）。

输入：一张或几张 RGB 图
输出：下一段动作序列
用图像编码器（一般是 ResNet）压成特征 → 喂给策略网络
缺点：缺空间感；要应对视角/外观变化只能"狂喂数据 + 数据增强"

路线 B：3D 派（小众但在长大）

代表：PerAct、GNFactor、Act3D、RVT、3D Diffuser Actor。

这条路也用 3D 信息（点云、神经辐射场、体素），但有两个共同问题：

关键帧+规划的设定：它们不是"连续生成动作"，而是"预测几个关键位姿，再用规划器连起来"。这套对低维任务（机械臂搬箱子）凑合，但对高维任务（多指灵巧手包饺子）行不通——灵巧手有 22 维关节，关键帧根本表达不出连贯运动
推理慢：PerAct 才 2.23 FPS，3D Diffuser Actor 1.67 FPS。机器人跟不上动态环境

Diffusion Policy（路线 A 的天花板）这篇是 DP3 的直接对照组：它已经证明了"用扩散模型生成动作序列"比 BCRNN 这类 RNN 式方法强很多。但它的"眼睛"还是 2D 的，所以 DP3 说：把 DP 的眼睛换成 3D，看会发生什么。

所以这一节是想说：2D 派强在动作生成、弱在空间感；3D 派强在空间感、弱在高维任务和速度。DP3 的位置就是把两边的强项拼起来。

新想法

DP3 的核心想法非常朴素，可以浓缩成一句话：

用稀疏点云 + 轻量 MLP 编码器替换 Diffusion Policy 里的图像编码器，其它都不动。

听起来像"改个零件"，但藏着几个反直觉的设计选择：

1. 用点云，不用 RGB-D，不用体素，不用 NeRF

直觉上，RGB-D（图像+深度）信息更多，应该更强。但作者发现 RGB-D 还是被图像编码器主导，深度信息没被好好利用。点云直接把"哪些 xyz 位置有东西"摆在那，反而更纯粹。

2. 不用颜色（只 xyz）

直觉上颜色应该有帮助。但作者发现：拿掉颜色后，模型对外观变化的泛化能力大涨——因为它根本没机会"作弊地依赖颜色"。

3. 用一个"傻"的三层 MLP，不用 PointNet/PointNet++/Point Transformer 这些复杂网络

直觉上更复杂的点云网络更强。但消融实验发现：PointNet 平均 15.7%，PointNet++ 2.2%，DP3 自家 MLP 78.3%。原因是 PointNet 里的 T-Net（学坐标变换）和 BatchNorm 拖了后腿（在固定相机的控制任务里 T-Net 没必要，BN 在小 batch 训练时不稳）。

4. 稀疏，不密集

只用 512 或 1024 个点（远少于一般点云任务的几千~几万个），用 Farthest Point Sampling（最远点采样，FPS）保证空间覆盖。

5. 单视角，不多视角

之前的 3D 方法一般要多个相机围着机器人摆。DP3 只用 一个深度相机，把深度图转成点云。这个选择是为了真实可部署。

所以这一节是想说：DP3 的新意不在"加新模块"而在"做减法"——简单的表征 + 简单的编码器 + 单相机，反而打过更复杂的方案。

方法分步

把 DP3 跑一次（训练阶段）拆成 6 步。整体节奏像做菜：先拿食材（拍照）→ 切配（点云处理）→ 压味（编码器）→ 下锅（扩散）→ 出餐（执行）。

步骤 1：拍一张深度图

像用手机的"人像模式"拍一张——只是这次相机（RealSense L515）拍的不是颜色，而是"哪里近哪里远"的灰度图，84×84 像素。每个像素值告诉你"这一点离相机多少厘米"。

步骤 2：深度 → 点云

像把一张地形等高线地图"撑"起来变成立体沙盘。利用相机的内参（焦距等）和外参（位置朝向），把每个深度像素反投影成 3D 空间里的一个 (x, y, z) 点。

步骤 3：裁剪 + 下采样

像在一锅原料里挑出今天要用的部分，再切成均匀大小。

裁剪（Crop）：用一个长方体把工作区框出来，扔掉桌面、地面、远处墙等无关点。这步影响巨大——去掉它平均成功率从 78.3% 掉到 45.3%
下采样（FPS）：从剩下的点里挑 512 或 1024 个，用最远点采样（Farthest Point Sampling）保证均匀分布，不会全挤在一个角落

步骤 4：DP3 Encoder：点云 → 64 维向量

像把一篮散乱的食材全榨成一小杯浓缩汁。这一步把成百上千个点压成一个 64 长度的小向量。

N×3 点云 → Linear(3,64) → LayerNorm → ReLU
        → Linear(64,128) → LayerNorm → ReLU
        → Linear(128,256) → LayerNorm → ReLU
        → MaxPool（沿 N 维做最大池化）→ 256 维
        → Linear(256,64) → LayerNorm → 64 维 v

整个网络就是 三层 MLP（多层感知机）+ 一次 max pool + 一个投影头。MaxPool 让"点的顺序"不影响结果（点云本来就是无序的）。

机器人自己的位姿 q（关节角度等，DimRobo 维）也走一个类似的小 MLP 编成 64 维。两个向量拼起来得到 128 维条件向量。

步骤 5：把条件向量喂给扩散策略

等等，先慢一拍——扩散策略（Diffusion Policy）到底在做什么？

类比：想象一张被雪花盖满的电视屏（纯噪声），你拿橡皮一遍一遍擦，擦着擦着画面浮出来，最后看到一段"机械手该怎么动"的动画。"扩散"就是这个反向擦除的过程。

正式说，这是个条件去噪网络 ε_θ：

训练时：从演示里取真实动作 a₀，加 k 步噪声变成 a_k，让网络猜"刚才加进去的噪声 ε_k"长什么样。损失函数：MSE(ε_k, ε_θ(a_k, k, v, q))
推理时：从一团随机噪声 a_K 出发，迭代 K 次去噪，每一步擦掉一点点，最后得到 a₀ = 一段动作序列

人话总结：告诉我当前看到的环境（v）和我自己的状态（q），帮我从满屏雪花里逐步擦出一段合理的动作。

步骤 6：执行

像厨师只把刚出锅最热的几勺端上桌，剩下的下次再做。预测出 H=4 步动作，但只执行最前面的 N_act=3 步（短 horizon 是为了在真实环境里能随时根据新画面调整）。

训练细节：

噪声调度器：DDIM
训练 100 时间步 / 推理 10 时间步（DDIM 的优势就是推理可以少步）
用 sample prediction（直接预测干净动作）而不是 epsilon prediction，高维动作收敛更快
batch size 128，MetaWorld 训 1000 epoch，其他训 3000 epoch

所以这一节是想说：方法本身不复杂——拍深度图 → 切成点云 → MLP 压成向量 → 喂给一个标准扩散策略——每一步都用最朴素的选择。

关键数字

挑出论文里最该记住的一组数字：

整体战绩

仿真：72 任务平均 74.4%（DP 是 59.8%），相对提升 24.2%
真机：4 任务平均 85%，DP 35%，DP-Depth 20%
安全：DP3 安全违规率 0%；DP 32.5%；DP-Depth 25%

数据效率

仿真任务普遍只用 10 条示教就能跑（少数复杂任务 100 条）
真机 4 任务每个 40 条示教就能 85%

收敛速度

DP3 一般 500 epoch 收敛；DP 经常 3000 epoch 还没收敛或停在次优

推理速度

DP3 12.7 FPS；DP 12.3 FPS（不仅没变慢，反而快一点点）
Simple DP3（精简 UNet）25.3 FPS（接近翻倍），准确率只掉 4 个点

视觉表征对比（6 个消融任务平均成功率）

表征	平均
Oracle State	76.8
Point cloud（DP3）	78.3
Image	40.7
Depth	32.0
RGB-D	34.7
Voxel	32.3

注意：点云甚至打过 oracle state——直接给真实物体状态都没"看 3D 点云"好。

点云编码器对比

编码器	平均
DP3 Encoder（三层 MLP）	78.3
PointNet	15.7
PointNet++	2.2
PointNeXt	2.3
Point Transformer	1.0
PointNet++（预训练）	6.8

简单 MLP 把所有"高级"网络打得满地找牙。

安全违规率（真机，单任务最差）

DP 在 Roll-Up：90% 的运行会出现需要人停手的危险动作
DP3 在所有任务：0%

所以这一节是想说：从准确率到安全性，DP3 几乎在每条指标上都把基线甩开一大截，而且没有付出推理速度的代价。

应该懂的新词

Imitation Learning（模仿学习）：让机器人看人示范然后照做。对应词是 reinforcement learning（强化学习，靠试错）。

Visuomotor Policy（视觉运动策略）：输入是视觉（图像/点云），输出是动作（关节角、末端位姿等）的策略函数 π。

Diffusion Model（扩散模型）：从噪声里反向还原数据的生成模型。原来用来生图（DDPM、Stable Diffusion），这里用来生动作。

类比：给一团雾，慢慢吹散，雾里出现的形状就是答案

Point Cloud（点云）：一堆 (x, y, z) 点的集合，用来描述 3D 物体表面。

类比：把世界扎一堆图钉，每个图钉位置就是一个点

Voxel（体素）：3D 版的像素，把空间切成立方格子。

类比：乐高积木堆出来的世界

Farthest Point Sampling（FPS，最远点采样）：从大量点里挑代表点的算法，每次挑"离已选点最远的"那个，保证均匀分布。

注意：和帧率 FPS（frames per second）撞名了，论文上下文区分

MLP（多层感知机）：最基本的神经网络——几层 Linear 夹激活函数。

MaxPool / 最大池化：从一组数里只留最大值。在点云这里用来把 N 个点的特征压成 1 个全局特征，且和点的顺序无关（这点很关键，因为点云本身就是无序的）。

LayerNorm（层归一化）：对每个样本的特征做归一化。这里用它替代 BatchNorm 是因为小 batch 时 BN 不稳定。

DDIM（Denoising Diffusion Implicit Models）：扩散模型的快速采样器，能用更少的去噪步数得到差不多的质量。

Sample prediction vs Epsilon prediction：扩散模型训练时让网络预测什么——直接预测"干净样本 a₀"叫 sample prediction，预测"添加的噪声 ε"叫 epsilon prediction。DP3 选了前者，理由是高维动作时更稳定。

Allegro Hand：一种 16 自由度的多指机械手，论文真机实验用的就是它。

RealSense L515：Intel 的一款消费级深度相机，用 LiDAR 测距。

所以这一节是想说：术语本身都不难，理解的关键是"点云=无序 3D 点集"和"扩散模型=从噪声里抠出答案"这两个直觉。

搞不定的

DP3 自己承认（或可以推测）的局限：

1. 长 horizon 任务还是难

论文明说"this work does not delve into tasks with extremely long horizons"。Roll-Up、Dumpling 已经是多阶段任务，但相比"折叠衣服 5 分钟"这种还是短的。

2. 大幅度视角变化撑不住

文中表 XII 的 view generalization 是"小幅"视角变化。如果相机大幅移动，DP3 也没法自动迁移——还得手动调整裁剪框。

3. 单相机带来的盲区

只有一个深度相机意味着遮挡严重时点云就是缺的。论文没解决遮挡问题，靠 max pool 的鲁棒性兜着。

4. 真机示教仍然不便宜

虽然从 100~200 降到 40，但 40 条多指灵巧手示教（用视觉重定向）还是费时——论文里说这正是为什么真机只跑 4 任务。

5. "为什么 PointNet 系不行"还没完全弄清

作者通过修改 PointNet 找到了 T-Net 和 BatchNorm 是凶手，但为什么这两个东西在控制任务里有害，论文留作 future work。

6. 仿真到真实的 gap 没系统讨论

虽然真机也跑了 4 个任务，但训练全在真机数据上，没尝试 sim-to-real transfer。

7. 没有语言/任务条件

DP3 是"一个任务一个策略"，没有像 PerAct、3D Diffuser Actor 那样接语言指令做多任务。这是为了对照清晰，但也意味着不能直接用作通用机器人大脑。

所以这一节是想说：DP3 在"短 horizon 单任务模仿"这个设定里很强，但要真正做通用、长 horizon、多任务的机器人，它只是奠基的一块砖。

与别篇关系

DP3 的位置可以画在两条家谱上：

家谱 A：Diffusion Policy 这条线（2D → 3D）

DDPM (2020 NeurIPS)         扩散模型本体
   ↓
Diffusion Policy (2023 RSS) 把扩散模型用作动作生成器，输入是 RGB
   ↓
DP3 (2024 RSS, 本篇)         把 RGB 换成点云
   ↓
Simple DP3 (本篇附录)        精简 UNet，速度翻倍

DP3 是 Diffusion Policy 的"3D 化身"，并直接把作者列在引用 [10] Cheng Chi et al.

家谱 B：3D 机器人策略这条线

PerAct (CoRL 2023)          体素 + Transformer，关键帧预测
GNFactor (CoRL 2023)        NeRF 特征 + 多任务
Act3D (2023)                Transformer + 3D 注意力
RVT (2023)                  虚拟视角 + Transformer
3D Diffuser Actor (2024)    类似 DP3 的思路，但走 attention + language
DP3 (2024)                  最简的 3D 表征 + 扩散策略

DP3 与同期的 3D Diffuser Actor 是最直接的"竞品"。差异：

3D Diffuser Actor：多视角、有语言条件、用 attention
DP3：单视角、无语言、用 max pool；更快更简但功能更窄

DP3 引用但和它思路不同的一类：DexMV、DexDeform 等灵巧手任务的论文——它们贡献的是任务和数据，DP3 贡献的是算法。

Robot Synesthesia / DexCap 等同期工作：也在尝试用更好的多模态输入解决数据效率，但 DP3 走的是"减法"路线。

所以这一节是想说：DP3 = Diffusion Policy 的 3D 升级版，同时也是 3D 机器人策略家族里"最朴素的那一个"——简洁性是它最大的卖点。

阅读顺序

如果你是入门者按这个顺序读最顺：

第一遍（30 分钟，建立直觉）

Abstract（论文 27-51 行）
Figure 1（标题页那张图）：扫一眼"DP3 vs DP"和真机任务图
Section III.A "A Motivating Example"（149-184 行）：MetaWorld Reach 的 5 个示教点是最好的入门例子
Figure 3：训练点（蓝）和成功评估点（绿）的 3D 散点对比
Section VI Conclusion

第二遍（1 小时，啃方法）

Section III.B "Perception"（186-226 行）：点云处理 + DP3 Encoder
Section III.C "Decision"（228-263 行）：扩散策略公式（人话翻译见上文"方法分步"）
Figure 2：整个流程图（论文 230-235 行附近）
Appendix A：DP3 Encoder 的 PyTorch 实现，能直接看代码理解结构

第三遍（1 小时，看结果）

Table I + Table II：仿真主结果
Table IV + V + VI + VII：四张消融表（3D 表征 / 点云编码器 / PointNet 改造 / 设计选择）——这是论文最有教学价值的部分
Section V 全部：真机部分，特别是 Table VIII（主结果）和 Table XIV（安全违规率）
Section V.C 四种泛化的小表（IX、X、XI、XII）

可跳过：Section II Related Work（除非需要写 related work）；Appendix B 任务套件细节；Appendix C 每个任务的具体数字。

强烈建议配合 GitHub 看：https://github.com/YanjieZe/3D-Diffusion-Policy 有完整代码，DP3 Encoder 部分对照论文 Appendix A 的 PyTorch 片段一看就懂。

所以这一节是想说：先看 motivating example 抓直觉 → 再啃 Perception/Decision → 最后用消融表巩固"为什么这些设计是对的"。

FAQ

Q1：为什么单相机也行？多相机不是更好吗？

理论上多相机更好（覆盖盲区），但代价是：

真机布置麻烦（要标定多个相机）
数据增多反而让训练更难
实际部署场景一般只有一个相机 DP3 选单相机是为了"真实可用"。如果场景允许，加多相机当然能涨点。

Q2：为什么不用颜色反而更好？

颜色让模型容易"偷懒"——它会学到"绿色 = 训练时见过的方块"，结果换个颜色就废了。去掉颜色逼模型只看几何，泛化反而强。这是个"少即是多"的典型例子。

Q3：扩散策略和 GAN/VAE 比有什么优势？

扩散模型生成多模态分布特别稳。机器人动作经常有多个合理选择（比如绕过障碍可以左也可以右），扩散模型能很好地建模这种多模态；GAN 容易模式塌陷，VAE 容易模糊。

Q4：64 维特征会不会太少？

作者做了消融（Table VII 的 projection 行）：去掉 projection 头让特征是 256 维，准确率没变。说明 64 维是够用的，projection 头只是为了加速推理。

Q5：DP3 能直接搬到我的机器人上吗？

需要这些条件：

一台深度相机（RealSense / Kinect / Azure Kinect 类似的都行）
能采集示教（遥操或脚本）
知道相机的内外参（用来反投影）
能跑 PyTorch + 一块 GPU 推理（2080 Ti 都够）

代码开源，按 README 改任务配置就行。

Q6：为什么 RGB-D 不如纯点云？

RGB-D 在论文里是把图像和深度都过同一个 2D 图像编码器（ResNet 类）。这种处理把 3D 信息硬压成 2D 特征图，浪费了深度的几何意义。点云 + 专门的 3D 编码器（哪怕是简单 MLP）才能真正用上 3D 信息。

Q7：为什么 PointNet++ 这么烂？

作者在 Table VI 慢慢拆解发现：T-Net（学坐标变换矩阵）和 BatchNorm 是主要凶手。

T-Net：在控制任务里相机固定，不需要学变换；T-Net 反而引入额外不稳定
BatchNorm：训练时 batch 小（128）+ 控制任务的样本相关性强，BN 统计量不稳

把这两个拿掉的 PointNet 就接近 DP3 Encoder 了（72.3% vs 78.3%）。

Q8：为什么真机只 4 任务？

灵巧手示教成本高（视觉重定向 + 多阶段），4 任务已经足以证明点。论文重点是"40 条够用"这件事本身就反传统。

Q9：Simple DP3 和 DP3 怎么选？

Simple DP3：推理 25.3 FPS，准确率 70.2%（DP3 是 74.4%）。如果你跑实时控制（机器人要 20+ FPS）选 Simple DP3；离线评估或追求最高精度选 DP3。

Q10：DP3 之后这条线又有什么新工作？

DP3 之后可关注的：iDP3（in-the-wild DP3）、3D Diffuser Actor（多任务 + 语言）、RDT-1B（大规模扩散 transformer）。一句话：3D + 扩散这条线还在长。

所以这一节是想说：DP3 看起来朴素，但每个设计选择背后都有"我们试过别的，结果更差"的实验依据。

延伸阅读

直接前驱（必读）

Diffusion Policy（Chi et al., RSS 2023）：DP3 的对照组本体。理解 DP 才能理解 DP3 在加什么
DDPM（Ho et al., NeurIPS 2020）：扩散模型本体；理解扩散过程公式从这里开始

3D 表征的同期/相关工作

3D Diffuser Actor（Ke et al., 2024）：DP3 的"语言条件版兄弟"
PerAct（Shridhar et al., CoRL 2023）：体素+Transformer 的 3D 策略代表
GNFactor（Ze et al., CoRL 2023）：作者前作，NeRF 特征用于策略

点云编码器

PointNet（Qi et al., CVPR 2017）：所有点云网络的祖师爷；理解 max pool 顺序无关性的来源
PointNet++（Qi et al., NeurIPS 2017）：层级版本
PointNeXt（Qian et al., NeurIPS 2022）：现代 PointNet 重训版

灵巧手任务

DexMV（Qin et al., ECCV 2022）：人手视频→机器手的灵巧操作
DexDeform（Li et al., 2023）：可形变物体灵巧操作

项目资源

论文项目页：https://3d-diffusion-policy.github.io
开源代码：https://github.com/YanjieZe/3D-Diffusion-Policy
配套视频很值得看，能感受真机表现差异

一作的后续工作

Yanjie Ze 之后做了 iDP3（in-the-wild Humanoid DP3）等，把这条线推到人形机器人上。可以追他的 Google Scholar

所以这一节是想说：DP3 是个十字路口——往前理解 DPM/DP，往左看 PerAct/3D Diffuser Actor，往右看 PointNet 家族，往后看 iDP3 这类延伸，能在"3D 机器人策略"这个领域里建立完整地图。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_3d_diffusion_policy_2026,
  title       = {(readable note) 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/3d-diffusion-policy/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)