Imitation Learning · Plate Nº 59

Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)

7 min read · 2572 字 · ⭐⭐⭐⭐ · 短摘要

#diffusion #transformer #3D #language #vision #manipulation

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

让人形机器人用"自己眼睛"的视角看世界（而不是死记房间地图）。换间屋子也照样干活，不用重学。

这是个什么场景

想一下你在新同事家做客，他让你"去厨房拿瓶水"。

笨办法：他告诉你"从大门进来往北走 4 米，左转 2 米，那个柜子第三格"。下次换他朋友家，这套话直接作废。
聪明办法：他说"你低头看见的那个台面右边就是冰箱"。换谁家都成立——只要冰箱还在你眼前。

机器人现在面临同样的事。家用人形机器人不可能每搬一次家就让你重新教一遍"杯子放在房间东北角"。可原版 3D Diffusion Policy（DP3）干的就是笨办法：它记的是世界系坐标——"在这个房间里，点云长这样、机械臂要伸到这个绝对位置"。换个房间，点云的绝对坐标全变了，策略当场懵。

iDP3 改成聪明办法：点云全部表达在机器人自己头部相机的视角下（叫 自我中心坐标，egocentric）。世界变了，但"我面前 30cm 有个杯子"这句话的说法没变，策略还能认。

Plate Nº IGeneralizable Humanoid Manipulation with 3D Diffusion Policies (iDP3) — 场景示意：这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

2D 模仿学习（Diffusion Policy / ACT / Mobile ALOHA）：用 RGB 图像 + 扩散/Transformer 拟合人类示范的动作序列。优点是数据好采（摄像头便宜），缺点是对 3D 几何不敏感，距离感差，跨视角脆弱。
3D Diffusion Policy（DP3，原版）：把 RGB-D 转成点云，用稀疏点云编码器 + 扩散策略。在仿真和单工作台真机上效果显著好于 2D，但点云用的是世界系/工作台系坐标，默认你不换桌子。
大规模视觉-语言-动作模型（RT-2 / OpenVLA）：靠堆数据和大模型获得泛化能力，但对人形机器人（移动 + 双臂 + 高自由度）这种数据稀缺场景，性价比未必高。
传统 SLAM + 运动规划：先建图、再规划。鲁棒但对柔性/接触丰富的操作（叠衣服、倒水）很笨拙。
Sim-to-real：在仿真里训，再迁移到真机。对接触动力学复杂的人形操作，sim2real gap 还是个大坑。

iDP3 想问的问题：能不能不堆数据、不靠仿真，只通过改变"输入怎么表达"，就让小数据真机模仿学习到的策略跨场景用？

这篇论文的关键想法

核心一句话：坐标系选错了，泛化就死了。

具体三点：

从世界系换到自我中心系：像把"门牌号导航"换成"跟着我的视线走"。所有点云都表达在机器人头部相机坐标下，这样换房间、换桌子高度，策略看到的"输入分布"几乎不变。
改进的视觉编码器：原版 DP3 的稀疏点云编码器在真实人形机器人采到的噪声点云上效果不好，iDP3 据公开资料用了更鲁棒的视觉表示（具体细节需读原文）。
更大的预测视野 + 更长的动作 chunk：人形操作动作链条长，短视野容易抖。具体数字需读原文。

落到工程上：人形机器人 → 头部 RGB-D → 自我中心点云 → 扩散策略 → 双臂动作序列。

Plate Nº IIGeneralizable Humanoid Manipulation with 3D Diffusion Policies (iDP3) — 方法示意：核心 pipeline

它怎么做的（方法）— 3-4 段

第一段：输入侧——像戴 GoPro 拍 vlog。 人形机器人头部装一个 RGB-D 相机（RealSense / ZED 这种），实时拿到彩色画面 + 每个像素的深度。深度图反投影成点云后，关键的偷懒动作是：保留相机自己看到的视角，不去做坐标变换。听起来工程上就是"少做一步矩阵乘法"，但意义巨大——策略从此不再需要知道"我现在在客厅还是厨房"。

等等，先慢一拍——点云是什么？想象你拿激光笔扫房间，每扫到一个表面就记一个 (x, y, z) 点，最后得到一团飘在空中的小点儿，那就是点云。RGB-D 相机相当于一次性扫几万个点。

第二段：表征侧——像翻译把外语压成意思。 点云经过一个视觉编码器变成一组 latent token（你可以理解成"一团把这堆乱点压缩出的语义摘要"）。原版 DP3 用稀疏 3D 卷积，但真机点云有噪声、有遮挡、还稀疏，原编码器扛不住，iDP3 据介绍换/改了编码器（具体架构需读原文）。这一步如果输出抖，下游策略会被带偏。

第三段：策略侧——像厨师按菜谱出连贯动作。 这里沿用 Diffusion Policy 的套路：把刚才那组 latent，加上机器人当前的本体状态（proprioception，自己各关节当前角度），一起喂给一个扩散模型，让它一次性"画"出未来一小段连续动作（action chunk）。扩散模型的好处是同一个场景下人类可能有好几种合理做法，它能同时容纳这几种，不会硬选一个、卡在中间。

第四段：训练 + 部署——像抄作业，但只抄几十份。 训练数据来自人类用遥操作（teleop，戴 VR/外骨骼远程操控机器人）录的示范，量级是几十到几百条轨迹（具体数字需读原文），属于典型"小数据"。部署时换新场景不用再补采数据——这就是论文最想卖的卖点。

实验在做什么

公开资料能看到的几条线索：

多种操作任务：覆盖抓取、放置、倒水、清洁桌面之类的人形日常操作，具体任务清单和成功率数字需读原文。
跨场景泛化测试：在训练场景 A 采数据，在没见过的场景 B/C/D 直接评测。这是和 DP3 / 2D 基线最关键的对比。
对比基线：至少包括原版 DP3 和 2D Diffusion Policy；可能还有 ACT / 大模型基线。
消融：自我中心 vs 世界系坐标、不同视觉编码器、不同 action chunk 长度，理论上都该 ablate（具体哪些做了需读原文）。

读这篇时最该盯死的两张图：

跨场景成功率柱状图——新场景 vs 原场景的 gap 有多大，iDP3 vs DP3 谁的 gap 小。
点云可视化对比图——自我中心 vs 世界系点云在不同场景下的分布差异。

你应该懂的几个新词 — 4-6 个

自我中心坐标（egocentric coordinate frame）：以观察者（机器人自己的头/相机）为原点的坐标系。换场景时这个坐标系跟着机器人走，所以"前方 30cm 的杯子"这件事的描述不变。对应概念是 allocentric / world frame。
3D Diffusion Policy（DP3）：iDP3 的前身。把扩散策略的输入从 2D 图换成 3D 点云，让策略对几何更敏感。
Action chunking：策略一次输出未来 N 步动作（不是只输出下一步），减少高频抖动、提高时序一致性。Mobile ALOHA / ACT 都用过。
遥操作（teleoperation）：人通过外骨骼/VR/操纵杆控制机器人完成任务，过程中记录"机器人看到什么 + 机器人做了什么"作为模仿学习的训练数据。
本体感（proprioception）：机器人对自己关节角度、速度、力的内部感知，作为策略的条件输入之一。
Sim-to-real gap：仿真训练的策略迁移到真机时的性能下降。iDP3 选择直接真机数据 + 不动仿真的路线绕开这个坑。

它和其他论文什么关系

直接前作：3D Diffusion Policy（DP3, 2024）。iDP3 = DP3 + egocentric + 真机人形 + 跨场景泛化。读 iDP3 之前强烈建议先读 DP3，否则会看不出"改进"在哪。
方法学祖师：Diffusion Policy（Chi et al., 2023）。整个扩散策略范式的源头。
同时期人形操作竞品：Mobile ALOHA（2D + 双臂 + 移动底盘）、HumanPlus（人形全身控制）。iDP3 的差异点是3D 输入 + 跨场景，ALOHA 系列是 2D + 同场景多任务。
泛化路线对比：RT-2 / OpenVLA 走"大模型 + 大数据"路线；iDP3 走"小数据 + 表示工程"路线。两条路在 2025 年都还活着，各有适用场景。
下游可能：把 iDP3 当作"局部技能"插到更大的 VLA 框架里，由高层 LLM 调度——这是值得想想的延伸方向。

我建议这样读 — 3-4 步

先确认你已经懂 DP3 和 Diffusion Policy。如果没读过，先看 diffusion-policy 和 3d-diffusion-policy，再回来读 iDP3，差异点会立刻跳出来。
第一遍只读 abstract + intro + 实验主表 + 跨场景图。目标是回答两个问题：(a) 自我中心坐标到底带来多大泛化提升？(b) 跨场景的 gap 在新场景里掉了多少？
第二遍读方法节。重点看视觉编码器和点云预处理，这是工程上最容易被忽视、但决定真机能不能跑起来的地方。
第三遍看消融。验证"是不是 egocentric 这一个改动就解释了大部分提升"——如果是，论文的核心 claim 就成立；如果不是，要看其他改动各自贡献多少。

为什么值得读

思想优雅：泛化问题被"换坐标系"这一个看似简单的改动解掉一大半。这种"先想清楚输入怎么表达、再考虑模型多大"的思维，对零经验学习者建立直觉特别有帮助。
真机 + 人形：2025 年人形机器人热度极高，iDP3 是少数在真实人形上 work 的模仿学习方案，而且不依赖仿真和大模型。
小数据路线的代表作：在所有人都在堆数据的当下，证明了"表示工程 + 小数据"在某些场景仍然能打。对硬件资源有限的研究者/学习者特别友好。
承上启下：往上接 Diffusion Policy 系列，往下可以接 VLA 大模型作为"低层技能"，是理解 2024-2025 模仿学习全景的关键节点之一。
RSS 2025 会议级：方法成熟度、实验完整度都会比 arxiv preprint 更高，读起来"性价比"高。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_idp3_2026,
  title       = {(readable note) Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/idp3/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)