回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Imitation Learning · Plate Nº 59

Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)

7 min read · 2572 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

让人形机器人用"自己眼睛"的视角看世界(而不是死记房间地图)。换间屋子也照样干活,不用重学。

这是个什么场景

想一下你在新同事家做客,他让你"去厨房拿瓶水"。

  • 笨办法:他告诉你"从大门进来往北走 4 米,左转 2 米,那个柜子第三格"。下次换他朋友家,这套话直接作废。
  • 聪明办法:他说"你低头看见的那个台面右边就是冰箱"。换谁家都成立——只要冰箱还在你眼前。

机器人现在面临同样的事。家用人形机器人不可能每搬一次家就让你重新教一遍"杯子放在房间东北角"。可原版 3D Diffusion Policy(DP3)干的就是笨办法:它记的是世界系坐标——"在这个房间里,点云长这样、机械臂要伸到这个绝对位置"。换个房间,点云的绝对坐标全变了,策略当场懵。

iDP3 改成聪明办法:点云全部表达在机器人自己头部相机的视角下(叫 自我中心坐标,egocentric)。世界变了,但"我面前 30cm 有个杯子"这句话的说法没变,策略还能认。

Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3) — 场景示意:这论文要解决的现实问题
Plate Nº IGeneralizable Humanoid Manipulation with 3D Diffusion Policies (iDP3) — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 2D 模仿学习(Diffusion Policy / ACT / Mobile ALOHA):用 RGB 图像 + 扩散/Transformer 拟合人类示范的动作序列。优点是数据好采(摄像头便宜),缺点是对 3D 几何不敏感,距离感差,跨视角脆弱。
  • 3D Diffusion Policy(DP3,原版):把 RGB-D 转成点云,用稀疏点云编码器 + 扩散策略。在仿真和单工作台真机上效果显著好于 2D,但点云用的是世界系/工作台系坐标,默认你不换桌子
  • 大规模视觉-语言-动作模型(RT-2 / OpenVLA):靠堆数据和大模型获得泛化能力,但对人形机器人(移动 + 双臂 + 高自由度)这种数据稀缺场景,性价比未必高。
  • 传统 SLAM + 运动规划:先建图、再规划。鲁棒但对柔性/接触丰富的操作(叠衣服、倒水)很笨拙。
  • Sim-to-real:在仿真里训,再迁移到真机。对接触动力学复杂的人形操作,sim2real gap 还是个大坑。

iDP3 想问的问题:能不能不堆数据、不靠仿真,只通过改变"输入怎么表达",就让小数据真机模仿学习到的策略跨场景用?

这篇论文的关键想法

核心一句话:坐标系选错了,泛化就死了

具体三点:

  1. 从世界系换到自我中心系:像把"门牌号导航"换成"跟着我的视线走"。所有点云都表达在机器人头部相机坐标下,这样换房间、换桌子高度,策略看到的"输入分布"几乎不变。
  2. 改进的视觉编码器:原版 DP3 的稀疏点云编码器在真实人形机器人采到的噪声点云上效果不好,iDP3 据公开资料用了更鲁棒的视觉表示(具体细节需读原文)。
  3. 更大的预测视野 + 更长的动作 chunk:人形操作动作链条长,短视野容易抖。具体数字需读原文。

落到工程上:人形机器人 → 头部 RGB-D → 自我中心点云 → 扩散策略 → 双臂动作序列

Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3) — 方法示意:核心 pipeline
Plate Nº IIGeneralizable Humanoid Manipulation with 3D Diffusion Policies (iDP3) — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

第一段:输入侧——像戴 GoPro 拍 vlog。 人形机器人头部装一个 RGB-D 相机(RealSense / ZED 这种),实时拿到彩色画面 + 每个像素的深度。深度图反投影成点云后,关键的偷懒动作是:保留相机自己看到的视角,不去做坐标变换。听起来工程上就是"少做一步矩阵乘法",但意义巨大——策略从此不再需要知道"我现在在客厅还是厨房"。

等等,先慢一拍——点云是什么?想象你拿激光笔扫房间,每扫到一个表面就记一个 (x, y, z) 点,最后得到一团飘在空中的小点儿,那就是点云。RGB-D 相机相当于一次性扫几万个点。

第二段:表征侧——像翻译把外语压成意思。 点云经过一个视觉编码器变成一组 latent token(你可以理解成"一团把这堆乱点压缩出的语义摘要")。原版 DP3 用稀疏 3D 卷积,但真机点云有噪声、有遮挡、还稀疏,原编码器扛不住,iDP3 据介绍换/改了编码器(具体架构需读原文)。这一步如果输出抖,下游策略会被带偏。

第三段:策略侧——像厨师按菜谱出连贯动作。 这里沿用 Diffusion Policy 的套路:把刚才那组 latent,加上机器人当前的本体状态(proprioception,自己各关节当前角度),一起喂给一个扩散模型,让它一次性"画"出未来一小段连续动作(action chunk)。扩散模型的好处是同一个场景下人类可能有好几种合理做法,它能同时容纳这几种,不会硬选一个、卡在中间。

第四段:训练 + 部署——像抄作业,但只抄几十份。 训练数据来自人类用遥操作(teleop,戴 VR/外骨骼远程操控机器人)录的示范,量级是几十到几百条轨迹(具体数字需读原文),属于典型"小数据"。部署时换新场景不用再补采数据——这就是论文最想卖的卖点。

实验在做什么

公开资料能看到的几条线索:

  • 多种操作任务:覆盖抓取、放置、倒水、清洁桌面之类的人形日常操作,具体任务清单和成功率数字需读原文。
  • 跨场景泛化测试:在训练场景 A 采数据,在没见过的场景 B/C/D 直接评测。这是和 DP3 / 2D 基线最关键的对比。
  • 对比基线:至少包括原版 DP3 和 2D Diffusion Policy;可能还有 ACT / 大模型基线。
  • 消融:自我中心 vs 世界系坐标、不同视觉编码器、不同 action chunk 长度,理论上都该 ablate(具体哪些做了需读原文)。

读这篇时最该盯死的两张图

  1. 跨场景成功率柱状图——新场景 vs 原场景的 gap 有多大,iDP3 vs DP3 谁的 gap 小。
  2. 点云可视化对比图——自我中心 vs 世界系点云在不同场景下的分布差异。

你应该懂的几个新词 — 4-6 个

  • 自我中心坐标(egocentric coordinate frame):以观察者(机器人自己的头/相机)为原点的坐标系。换场景时这个坐标系跟着机器人走,所以"前方 30cm 的杯子"这件事的描述不变。对应概念是 allocentric / world frame。
  • 3D Diffusion Policy(DP3):iDP3 的前身。把扩散策略的输入从 2D 图换成 3D 点云,让策略对几何更敏感。
  • Action chunking:策略一次输出未来 N 步动作(不是只输出下一步),减少高频抖动、提高时序一致性。Mobile ALOHA / ACT 都用过。
  • 遥操作(teleoperation):人通过外骨骼/VR/操纵杆控制机器人完成任务,过程中记录"机器人看到什么 + 机器人做了什么"作为模仿学习的训练数据。
  • 本体感(proprioception):机器人对自己关节角度、速度、力的内部感知,作为策略的条件输入之一。
  • Sim-to-real gap:仿真训练的策略迁移到真机时的性能下降。iDP3 选择直接真机数据 + 不动仿真的路线绕开这个坑。

它和其他论文什么关系

  • 直接前作:3D Diffusion Policy(DP3, 2024)。iDP3 = DP3 + egocentric + 真机人形 + 跨场景泛化。读 iDP3 之前强烈建议先读 DP3,否则会看不出"改进"在哪。
  • 方法学祖师:Diffusion Policy(Chi et al., 2023)。整个扩散策略范式的源头。
  • 同时期人形操作竞品:Mobile ALOHA(2D + 双臂 + 移动底盘)、HumanPlus(人形全身控制)。iDP3 的差异点是3D 输入 + 跨场景,ALOHA 系列是 2D + 同场景多任务。
  • 泛化路线对比:RT-2 / OpenVLA 走"大模型 + 大数据"路线;iDP3 走"小数据 + 表示工程"路线。两条路在 2025 年都还活着,各有适用场景。
  • 下游可能:把 iDP3 当作"局部技能"插到更大的 VLA 框架里,由高层 LLM 调度——这是值得想想的延伸方向。

我建议这样读 — 3-4 步

  1. 先确认你已经懂 DP3 和 Diffusion Policy。如果没读过,先看 diffusion-policy3d-diffusion-policy,再回来读 iDP3,差异点会立刻跳出来。
  2. 第一遍只读 abstract + intro + 实验主表 + 跨场景图。目标是回答两个问题:(a) 自我中心坐标到底带来多大泛化提升?(b) 跨场景的 gap 在新场景里掉了多少?
  3. 第二遍读方法节。重点看视觉编码器和点云预处理,这是工程上最容易被忽视、但决定真机能不能跑起来的地方。
  4. 第三遍看消融。验证"是不是 egocentric 这一个改动就解释了大部分提升"——如果是,论文的核心 claim 就成立;如果不是,要看其他改动各自贡献多少。

为什么值得读

  • 思想优雅:泛化问题被"换坐标系"这一个看似简单的改动解掉一大半。这种"先想清楚输入怎么表达、再考虑模型多大"的思维,对零经验学习者建立直觉特别有帮助。
  • 真机 + 人形:2025 年人形机器人热度极高,iDP3 是少数在真实人形上 work 的模仿学习方案,而且不依赖仿真和大模型。
  • 小数据路线的代表作:在所有人都在堆数据的当下,证明了"表示工程 + 小数据"在某些场景仍然能打。对硬件资源有限的研究者/学习者特别友好。
  • 承上启下:往上接 Diffusion Policy 系列,往下可以接 VLA 大模型作为"低层技能",是理解 2024-2025 模仿学习全景的关键节点之一。
  • RSS 2025 会议级:方法成熟度、实验完整度都会比 arxiv preprint 更高,读起来"性价比"高。

引用本笔记 / Cite this note
BibTeX
@online{eai_idp3_2026,
  title       = {(readable note) Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/idp3/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim