回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Diffusion Policy · Plate Nº 41

EquiBot: SIM(3)-Equivariant Diffusion Policy

7 min read · 2409 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

教机器人几次就够了。挪位置、转方向、换大小都不用重学,因为这件事直接焊在网络结构里。

这是个什么场景 — 日常类比

想象你教刚上幼儿园的小孩"把杯子放到盘子上"。

  • 普通学法:你得在客厅、厨房、卧室各演一次,桌子高的矮的都要演,杯子转个角度又得演——演了两百次小孩还经常翻车。
  • 聪明学法:小孩看一次就会了。因为他知道"杯子放盘子上"这件事和杯子摆在哪、朝哪、是马克杯还是儿童小杯,根本没关系——只要最后那个相对位置对了就行。

机器人模仿学习长期是前者:换个位置、换个朝向、换个大小,就得重新喂数据。EquiBot 想做后者——把"这事跟位置朝向大小无关"这个常识直接焊进网络结构里,而不是靠堆数据让网络自己慢慢悟。

SIM(3) 是数学家给"平移 + 旋转 + 等比放大缩小"这一整套变换起的名字——简单说就是把场景挪一挪、转一转、放大缩小,但物体之间的相对关系不变。

EquiBot — 场景示意:这论文要解决的现实问题
Plate Nº IEquiBot — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • Diffusion Policy(Chi et al. 2023):用扩散模型生成动作轨迹,效果好但对场景的位置/朝向/尺度敏感,需要大量演示才能泛化。
  • 数据增强:把演示数据人工旋转、平移、缩放后再训练,靠"见过更多"换泛化——治标不治本,且对扩散策略训练成本翻倍。
  • SE(3) 等变策略(如 Equivariant Descriptor Fields, EDF):在抓取/放置任务上把 3D 旋转平移焊进网络,但只覆盖刚体位姿,不处理尺度。
  • VN-DGCNN 等 SO(3) 等变骨干:等变特征提取器很成熟,但和扩散去噪器怎么对接、怎么处理时间序列动作,没人系统做过。

这篇论文的关键想法

像装修一栋房子——骨架不动,只把两个核心房间换装。EquiBot 把 Diffusion Policy(前作的扩散策略)里的两个关键模块——点云编码器动作去噪器——都换成 SIM(3) 等变版本,其他不动。

直觉上分两步:

  1. 观测端等变:场景点云(point cloud,相机扫出来的一堆 3D 点)经过等变编码器后,如果你把整个场景转 90°,编码出来的特征也会自动跟着转 90°——而不是变成另一组毫无关系的数字。
  2. 动作端等变:去噪器输出动作(手该去哪、朝哪、夹子开多大)时也守规矩——你转输入,它就转输出,转的角度还完全一致。

这样训练时只需要少量演示。测试时把整个场景旋转 90°、平移 1 米、缩小一半,策略输出会自动跟着变——不用重训练,也不用做数据增强。

关键差别:等变是架构级硬约束(焊在结构里,物理上做不到违反),不是 loss 软约束(只是惩罚违反,还是可能违反)。一旦网络写对,泛化是"白送"的。

EquiBot — 方法示意:核心 pipeline
Plate Nº IIEquiBot — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

输入表示(机器人看到什么、要输出什么):像建筑师拿激光雷达扫房子一样,场景不用 RGB 照片,而用 3D 点云(一堆带 (x,y,z) 坐标的小点)。机器人输出的动作是末端执行器(end-effector,机械臂最末端那只"手")该去的位置 + 朝向 + 夹子开合状态。点云的好处是——你转一下整个场景,所有点的坐标会"工工整整"地一起转,做几何变换比 2D 图像干净得多。

等变编码器(让特征跟着转):好比一个忠实的翻译——你把原文倒过来念,他译文也倒过来念,一一对应。EquiBot 用 Vector Neuron(VN,向量神经元)系列骨干来做这件事:普通神经元每个位置存一个数字(标量),VN 每个位置存一个 3D 向量(带方向)。这样输入点云一转,向量也跟着同步转。再加一层尺度归一化处理 SIM(3) 里的"放大缩小"那部分(具体怎么把尺度从形状里解耦出来需读原文)。

等等,先慢一拍——"等变(equivariance)"到底什么意思?就是输入怎么变,输出就怎么跟着变。比如 f(转 90° 的杯子) = 转 90° 的 f(杯子)。和"不变(invariance)"不一样,不变是怎么转输出都一样。EquiBot 要的是前者,因为机器人手该去的位置确实应该跟着场景一起转。

等变去噪器(去噪也得守规矩):扩散策略的去噪器(denoiser)就像一个橡皮擦——你给它一个被涂花的动作,它一点点把噪声擦掉、还原出干净动作。原本这个橡皮擦是 1D Conv 或 Transformer,输入是"加了噪声的动作 + 观测特征",输出是"预测的噪声"。EquiBot 把橡皮擦也换成等变版本:动作里的位置和旋转分量要和观测特征"对得上号"地融合,保证整个去噪过程也满足 SIM(3) 等变。具体每层怎么设计需读原文。

训练目标:和标准 Diffusion Policy 一样的去噪损失(denoising score matching,让网络学会"加什么噪声了"),不加额外正则。等变性是靠网络结构本身保证的,不是靠 loss 惩罚出来的——这是 EquiBot 的核心姿态。

实验在做什么

论文在 CoRL 2024 发表,按这个方向通常会做:

  • 仿真任务:在若干操作任务(pick-and-place、推、折叠等)上对比 Diffusion Policy / 数据增强基线 / 各种等变基线。重点指标是不同位姿/尺度泛化下的成功率。
  • 少样本学习:把演示数据砍到 5/10/20 条,看 EquiBot 能不能保持成功率而基线崩盘。
  • 真机实验:拿一两个真实机器人任务(如折毛巾、整理物品)验证 sim-to-real 不掉点。
  • 消融:去掉等变编码器只保留等变去噪器,反过来再做一次,量化两个组件各贡献多少。

具体任务列表、数据规模、绝对成功率数字需读原文。

你应该懂的几个新词 — 4-6 个

  • SIM(3) 群(similarity group):3D 空间中"平移 + 旋转 + 等比缩放"组成的变换群,比 SE(3)(只有平移+旋转)多一个尺度自由度。
  • 等变(equivariance):函数 f 满足 f(T·x) = T·f(x),输入做变换 T,输出会用"对应方式"跟着变。和"不变(invariance)"不同——不变是 f(T·x) = f(x),输出不变。
  • Vector Neuron(VN):把神经元的标量激活换成 3D 向量激活的网络模块,天然对 SO(3) 旋转等变;EquiBot 的等变骨干基础。
  • 去噪器(denoiser):扩散模型的核心网络,输入"加了噪声的样本 + 时间步",预测噪声(或干净样本)。Diffusion Policy 把它用在"加噪动作"上。
  • 点云(point cloud):一组 3D 坐标点 {(x,y,z)},相机或激光雷达直接出的几何表示,做几何变换比 2D 图像干净。
  • 架构级约束 vs loss 级约束:前者把性质焊进网络结构(如等变层),后者靠损失函数惩罚违反。架构级更可靠但实现更难。

它和其他论文什么关系

  • 直接前作 Diffusion Policy:方法骨架完全继承,只把编码器和去噪器替换成等变版本。
  • SE(3) 等变策略(EDF / Neural Descriptor Fields 等):思想同源(把对称性焊进网络),但 EquiBot 把范围扩到 SIM(3),且首次和扩散策略结合。
  • 3D 点云策略 3D Diffusion Policy / iDP3:都是"点云 + 扩散"路线,但不强等变;EquiBot 在同一路线上加了对称性约束。
  • Vector Neurons 系列:VN-DGCNN 等是 EquiBot 的等变骨干来源。
  • 下游影响:之后做"少样本 + 几何泛化"的策略学习论文很多会和 EquiBot 比;如果你以后要研究 sim-to-real 几何鲁棒性,这是必读基线之一。

我建议这样读 — 3-4 步

  1. 先确认你懂 Diffusion Policy 和等变:如果 Diffusion Policy 还没看,先看那篇;如果"等变"还是模糊概念,先花 30 分钟看一篇 Vector Neurons 入门博客。
  2. 快读 EquiBot 摘要 + 方法图:搞清楚"哪两个组件被换成等变了""SIM(3) 比 SE(3) 多了什么"。
  3. 跳到实验 Table 1 看数字:重点看"少演示 + 几何变换"列,这是 EquiBot 的卖点;和 Diffusion Policy / 数据增强基线对比。
  4. 想做研究的话再啃方法细节:等变层怎么写、尺度怎么处理、动作里的旋转分量怎么和观测对接——这些是工程实现关键。

为什么值得读

  • 思想干净:把"几何对称性"这个物理事实直接编码进网络,理论上比数据增强更优雅。
  • 少样本友好:演示成本是机器人学习的最大瓶颈之一;架构级泛化能直接砍 N 倍数据需求。
  • 可迁移:SIM(3) 等变思路不仅适用扩散策略,也可以套到 ACT、VLA 等其他策略架构上。
  • 当前路标:2024 年 CoRL 接收,意味着学界认可这个方向;后续做"几何鲁棒策略"的工作很多会引这一篇。
  • 零基础友好的进入门槛在哪:你不需要立刻看懂 Vector Neurons 数学,先把"等变 = 架构级硬约束"这件事记住,再慢慢补几何深度学习的基础。

引用本笔记 / Cite this note
BibTeX
@online{eai_equibot_2026,
  title       = {(readable note) EquiBot: SIM(3)-Equivariant Diffusion Policy},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/equibot/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim