3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
TL;DR
让机器人改看 3D 立体形状(点云)而不是 2D 照片来学动作,10 条示范就够,72 个任务平均比原版强 24.2%。
所以这一节是想说:DP3 把视觉模仿学习里"靠 2D 照片猜 3D 动作"这个根本错位修好了,代价只是加一个三层 MLP。
这是个什么场景
想象你蒙着一只眼睛伸手去拿桌上的水杯。你能看到杯子的轮廓,但很难判断它"离手还有多远"——很可能一把抓空,或者撞翻。
机器人现在面临的就是这种"独眼"困境。模仿学习(imitation learning) 是教机器人最省心的办法:人遥控机械手做一遍(比如包一次饺子),录下"我看到什么 → 我做了什么",机器人照葫芦画瓢。比强化学习好,因为不用让真机摔几千次去试错。
但有个让人头大的老毛病:特别费示教数据。
- 原版 Diffusion Policy(DP,2023 RSS):每个真实任务要 100~200 条人工演示
- 一条演示要遥操几十秒到几分钟
- 演示一多手就抖、容易出错、要重录,整个数据收集能拖好几天
为什么这么费?因为机器人是通过 RGB 照片看世界的,跟"独眼看杯子"一个毛病——它知道"杯子在画面左边",不知道"杯子离我 30cm 还是 60cm"。结果:
- 灯光换了(早上拍 vs 晚上拍)→ 失效
- 摄像头挪了 5 度 → 失效
- 杯子从蓝色换成红色 → 失效
每出现一种新情况,都得多录一批演示来补。
DP3 这篇文章问:要是直接给机器人一双"立体眼"(看 3D 点云),能不能从根上解决?
所以这一节是想说:模仿学习贵在示教,而示教贵的根因是 2D 图像不够"懂空间"——这给了 3D 表征一个出场的理由。

之前的人怎么做
DP3 出现之前,机器人视觉策略大致两条路:
路线 A:2D 图像派(主流)
代表:BCRNN(行为克隆 + RNN)、IBC(隐式行为克隆)、Diffusion Policy(DP)。
- 输入:一张或几张 RGB 图
- 输出:下一段动作序列
- 用图像编码器(一般是 ResNet)压成特征 → 喂给策略网络
- 缺点:缺空间感;要应对视角/外观变化只能"狂喂数据 + 数据增强"
路线 B:3D 派(小众但在长大)
代表:PerAct、GNFactor、Act3D、RVT、3D Diffuser Actor。
这条路也用 3D 信息(点云、神经辐射场、体素),但有两个共同问题:
- 关键帧+规划的设定:它们不是"连续生成动作",而是"预测几个关键位姿,再用规划器连起来"。这套对低维任务(机械臂搬箱子)凑合,但对高维任务(多指灵巧手包饺子)行不通——灵巧手有 22 维关节,关键帧根本表达不出连贯运动
- 推理慢:PerAct 才 2.23 FPS,3D Diffuser Actor 1.67 FPS。机器人跟不上动态环境
Diffusion Policy(路线 A 的天花板)这篇是 DP3 的直接对照组:它已经证明了"用扩散模型生成动作序列"比 BCRNN 这类 RNN 式方法强很多。但它的"眼睛"还是 2D 的,所以 DP3 说:把 DP 的眼睛换成 3D,看会发生什么。
所以这一节是想说:2D 派强在动作生成、弱在空间感;3D 派强在空间感、弱在高维任务和速度。DP3 的位置就是把两边的强项拼起来。
新想法
DP3 的核心想法非常朴素,可以浓缩成一句话:
用稀疏点云 + 轻量 MLP 编码器替换 Diffusion Policy 里的图像编码器,其它都不动。
听起来像"改个零件",但藏着几个反直觉的设计选择:
1. 用点云,不用 RGB-D,不用体素,不用 NeRF
直觉上,RGB-D(图像+深度)信息更多,应该更强。但作者发现 RGB-D 还是被图像编码器主导,深度信息没被好好利用。点云直接把"哪些 xyz 位置有东西"摆在那,反而更纯粹。
2. 不用颜色(只 xyz)
直觉上颜色应该有帮助。但作者发现:拿掉颜色后,模型对外观变化的泛化能力大涨——因为它根本没机会"作弊地依赖颜色"。
3. 用一个"傻"的三层 MLP,不用 PointNet/PointNet++/Point Transformer 这些复杂网络
直觉上更复杂的点云网络更强。但消融实验发现:PointNet 平均 15.7%,PointNet++ 2.2%,DP3 自家 MLP 78.3%。原因是 PointNet 里的 T-Net(学坐标变换)和 BatchNorm 拖了后腿(在固定相机的控制任务里 T-Net 没必要,BN 在小 batch 训练时不稳)。
4. 稀疏,不密集
只用 512 或 1024 个点(远少于一般点云任务的几千~几万个),用 Farthest Point Sampling(最远点采样,FPS)保证空间覆盖。
5. 单视角,不多视角
之前的 3D 方法一般要多个相机围着机器人摆。DP3 只用 一个深度相机,把深度图转成点云。这个选择是为了真实可部署。
所以这一节是想说:DP3 的新意不在"加新模块"而在"做减法"——简单的表征 + 简单的编码器 + 单相机,反而打过更复杂的方案。
方法分步
把 DP3 跑一次(训练阶段)拆成 6 步。整体节奏像做菜:先拿食材(拍照)→ 切配(点云处理)→ 压味(编码器)→ 下锅(扩散)→ 出餐(执行)。
步骤 1:拍一张深度图
像用手机的"人像模式"拍一张——只是这次相机(RealSense L515)拍的不是颜色,而是"哪里近哪里远"的灰度图,84×84 像素。每个像素值告诉你"这一点离相机多少厘米"。
步骤 2:深度 → 点云
像把一张地形等高线地图"撑"起来变成立体沙盘。利用相机的内参(焦距等)和外参(位置朝向),把每个深度像素反投影成 3D 空间里的一个 (x, y, z) 点。
步骤 3:裁剪 + 下采样
像在一锅原料里挑出今天要用的部分,再切成均匀大小。
- 裁剪(Crop):用一个长方体把工作区框出来,扔掉桌面、地面、远处墙等无关点。这步影响巨大——去掉它平均成功率从 78.3% 掉到 45.3%
- 下采样(FPS):从剩下的点里挑 512 或 1024 个,用最远点采样(Farthest Point Sampling)保证均匀分布,不会全挤在一个角落
步骤 4:DP3 Encoder:点云 → 64 维向量
像把一篮散乱的食材全榨成一小杯浓缩汁。这一步把成百上千个点压成一个 64 长度的小向量。
N×3 点云 → Linear(3,64) → LayerNorm → ReLU
→ Linear(64,128) → LayerNorm → ReLU
→ Linear(128,256) → LayerNorm → ReLU
→ MaxPool(沿 N 维做最大池化)→ 256 维
→ Linear(256,64) → LayerNorm → 64 维 v
整个网络就是 三层 MLP(多层感知机)+ 一次 max pool + 一个投影头。MaxPool 让"点的顺序"不影响结果(点云本来就是无序的)。
机器人自己的位姿 q(关节角度等,DimRobo 维)也走一个类似的小 MLP 编成 64 维。两个向量拼起来得到 128 维条件向量。
步骤 5:把条件向量喂给扩散策略
等等,先慢一拍——扩散策略(Diffusion Policy)到底在做什么?
类比:想象一张被雪花盖满的电视屏(纯噪声),你拿橡皮一遍一遍擦,擦着擦着画面浮出来,最后看到一段"机械手该怎么动"的动画。"扩散"就是这个反向擦除的过程。
正式说,这是个条件去噪网络 ε_θ:
- 训练时:从演示里取真实动作 a₀,加 k 步噪声变成 a_k,让网络猜"刚才加进去的噪声 ε_k"长什么样。损失函数:MSE(ε_k, ε_θ(a_k, k, v, q))
- 推理时:从一团随机噪声 a_K 出发,迭代 K 次去噪,每一步擦掉一点点,最后得到 a₀ = 一段动作序列
人话总结:告诉我当前看到的环境(v)和我自己的状态(q),帮我从满屏雪花里逐步擦出一段合理的动作。
步骤 6:执行
像厨师只把刚出锅最热的几勺端上桌,剩下的下次再做。预测出 H=4 步动作,但只执行最前面的 N_act=3 步(短 horizon 是为了在真实环境里能随时根据新画面调整)。
训练细节:
- 噪声调度器:DDIM
- 训练 100 时间步 / 推理 10 时间步(DDIM 的优势就是推理可以少步)
- 用 sample prediction(直接预测干净动作)而不是 epsilon prediction,高维动作收敛更快
- batch size 128,MetaWorld 训 1000 epoch,其他训 3000 epoch
所以这一节是想说:方法本身不复杂——拍深度图 → 切成点云 → MLP 压成向量 → 喂给一个标准扩散策略——每一步都用最朴素的选择。
关键数字
挑出论文里最该记住的一组数字:
整体战绩
- 仿真:72 任务平均 74.4%(DP 是 59.8%),相对提升 24.2%
- 真机:4 任务平均 85%,DP 35%,DP-Depth 20%
- 安全:DP3 安全违规率 0%;DP 32.5%;DP-Depth 25%
数据效率
- 仿真任务普遍只用 10 条示教就能跑(少数复杂任务 100 条)
- 真机 4 任务每个 40 条示教就能 85%
收敛速度
- DP3 一般 500 epoch 收敛;DP 经常 3000 epoch 还没收敛或停在次优
推理速度
- DP3 12.7 FPS;DP 12.3 FPS(不仅没变慢,反而快一点点)
- Simple DP3(精简 UNet)25.3 FPS(接近翻倍),准确率只掉 4 个点
视觉表征对比(6 个消融任务平均成功率)
| 表征 | 平均 |
|---|---|
| Oracle State | 76.8 |
| Point cloud(DP3) | 78.3 |
| Image | 40.7 |
| Depth | 32.0 |
| RGB-D | 34.7 |
| Voxel | 32.3 |
注意:点云甚至打过 oracle state——直接给真实物体状态都没"看 3D 点云"好。
点云编码器对比
| 编码器 | 平均 |
|---|---|
| DP3 Encoder(三层 MLP) | 78.3 |
| PointNet | 15.7 |
| PointNet++ | 2.2 |
| PointNeXt | 2.3 |
| Point Transformer | 1.0 |
| PointNet++(预训练) | 6.8 |
简单 MLP 把所有"高级"网络打得满地找牙。
安全违规率(真机,单任务最差)
- DP 在 Roll-Up:90% 的运行会出现需要人停手的危险动作
- DP3 在所有任务:0%
所以这一节是想说:从准确率到安全性,DP3 几乎在每条指标上都把基线甩开一大截,而且没有付出推理速度的代价。
应该懂的新词
Imitation Learning(模仿学习):让机器人看人示范然后照做。对应词是 reinforcement learning(强化学习,靠试错)。
Visuomotor Policy(视觉运动策略):输入是视觉(图像/点云),输出是动作(关节角、末端位姿等)的策略函数 π。
Diffusion Model(扩散模型):从噪声里反向还原数据的生成模型。原来用来生图(DDPM、Stable Diffusion),这里用来生动作。
- 类比:给一团雾,慢慢吹散,雾里出现的形状就是答案
Point Cloud(点云):一堆 (x, y, z) 点的集合,用来描述 3D 物体表面。
- 类比:把世界扎一堆图钉,每个图钉位置就是一个点
Voxel(体素):3D 版的像素,把空间切成立方格子。
- 类比:乐高积木堆出来的世界
Farthest Point Sampling(FPS,最远点采样):从大量点里挑代表点的算法,每次挑"离已选点最远的"那个,保证均匀分布。
- 注意:和帧率 FPS(frames per second)撞名了,论文上下文区分
MLP(多层感知机):最基本的神经网络——几层 Linear 夹激活函数。
MaxPool / 最大池化:从一组数里只留最大值。在点云这里用来把 N 个点的特征压成 1 个全局特征,且和点的顺序无关(这点很关键,因为点云本身就是无序的)。
LayerNorm(层归一化):对每个样本的特征做归一化。这里用它替代 BatchNorm 是因为小 batch 时 BN 不稳定。
DDIM(Denoising Diffusion Implicit Models):扩散模型的快速采样器,能用更少的去噪步数得到差不多的质量。
Sample prediction vs Epsilon prediction:扩散模型训练时让网络预测什么——直接预测"干净样本 a₀"叫 sample prediction,预测"添加的噪声 ε"叫 epsilon prediction。DP3 选了前者,理由是高维动作时更稳定。
Allegro Hand:一种 16 自由度的多指机械手,论文真机实验用的就是它。
RealSense L515:Intel 的一款消费级深度相机,用 LiDAR 测距。
所以这一节是想说:术语本身都不难,理解的关键是"点云=无序 3D 点集"和"扩散模型=从噪声里抠出答案"这两个直觉。
搞不定的
DP3 自己承认(或可以推测)的局限:
1. 长 horizon 任务还是难
论文明说"this work does not delve into tasks with extremely long horizons"。Roll-Up、Dumpling 已经是多阶段任务,但相比"折叠衣服 5 分钟"这种还是短的。
2. 大幅度视角变化撑不住
文中表 XII 的 view generalization 是"小幅"视角变化。如果相机大幅移动,DP3 也没法自动迁移——还得手动调整裁剪框。
3. 单相机带来的盲区
只有一个深度相机意味着遮挡严重时点云就是缺的。论文没解决遮挡问题,靠 max pool 的鲁棒性兜着。
4. 真机示教仍然不便宜
虽然从 100~200 降到 40,但 40 条多指灵巧手示教(用视觉重定向)还是费时——论文里说这正是为什么真机只跑 4 任务。
5. "为什么 PointNet 系不行"还没完全弄清
作者通过修改 PointNet 找到了 T-Net 和 BatchNorm 是凶手,但为什么这两个东西在控制任务里有害,论文留作 future work。
6. 仿真到真实的 gap 没系统讨论
虽然真机也跑了 4 个任务,但训练全在真机数据上,没尝试 sim-to-real transfer。
7. 没有语言/任务条件
DP3 是"一个任务一个策略",没有像 PerAct、3D Diffuser Actor 那样接语言指令做多任务。这是为了对照清晰,但也意味着不能直接用作通用机器人大脑。
所以这一节是想说:DP3 在"短 horizon 单任务模仿"这个设定里很强,但要真正做通用、长 horizon、多任务的机器人,它只是奠基的一块砖。
与别篇关系
DP3 的位置可以画在两条家谱上:
家谱 A:Diffusion Policy 这条线(2D → 3D)
DDPM (2020 NeurIPS) 扩散模型本体
↓
Diffusion Policy (2023 RSS) 把扩散模型用作动作生成器,输入是 RGB
↓
DP3 (2024 RSS, 本篇) 把 RGB 换成点云
↓
Simple DP3 (本篇附录) 精简 UNet,速度翻倍
DP3 是 Diffusion Policy 的"3D 化身",并直接把作者列在引用 [10] Cheng Chi et al.
家谱 B:3D 机器人策略这条线
PerAct (CoRL 2023) 体素 + Transformer,关键帧预测
GNFactor (CoRL 2023) NeRF 特征 + 多任务
Act3D (2023) Transformer + 3D 注意力
RVT (2023) 虚拟视角 + Transformer
3D Diffuser Actor (2024) 类似 DP3 的思路,但走 attention + language
DP3 (2024) 最简的 3D 表征 + 扩散策略
DP3 与同期的 3D Diffuser Actor 是最直接的"竞品"。差异:
- 3D Diffuser Actor:多视角、有语言条件、用 attention
- DP3:单视角、无语言、用 max pool;更快更简但功能更窄
DP3 引用但和它思路不同的一类:DexMV、DexDeform 等灵巧手任务的论文——它们贡献的是任务和数据,DP3 贡献的是算法。
Robot Synesthesia / DexCap 等同期工作:也在尝试用更好的多模态输入解决数据效率,但 DP3 走的是"减法"路线。
所以这一节是想说:DP3 = Diffusion Policy 的 3D 升级版,同时也是 3D 机器人策略家族里"最朴素的那一个"——简洁性是它最大的卖点。
阅读顺序
如果你是入门者按这个顺序读最顺:
第一遍(30 分钟,建立直觉)
- Abstract(论文 27-51 行)
- Figure 1(标题页那张图):扫一眼"DP3 vs DP"和真机任务图
- Section III.A "A Motivating Example"(149-184 行):MetaWorld Reach 的 5 个示教点是最好的入门例子
- Figure 3:训练点(蓝)和成功评估点(绿)的 3D 散点对比
- Section VI Conclusion
第二遍(1 小时,啃方法)
- Section III.B "Perception"(186-226 行):点云处理 + DP3 Encoder
- Section III.C "Decision"(228-263 行):扩散策略公式(人话翻译见上文"方法分步")
- Figure 2:整个流程图(论文 230-235 行附近)
- Appendix A:DP3 Encoder 的 PyTorch 实现,能直接看代码理解结构
第三遍(1 小时,看结果)
- Table I + Table II:仿真主结果
- Table IV + V + VI + VII:四张消融表(3D 表征 / 点云编码器 / PointNet 改造 / 设计选择)——这是论文最有教学价值的部分
- Section V 全部:真机部分,特别是 Table VIII(主结果)和 Table XIV(安全违规率)
- Section V.C 四种泛化的小表(IX、X、XI、XII)
可跳过:Section II Related Work(除非需要写 related work);Appendix B 任务套件细节;Appendix C 每个任务的具体数字。
强烈建议配合 GitHub 看:https://github.com/YanjieZe/3D-Diffusion-Policy 有完整代码,DP3 Encoder 部分对照论文 Appendix A 的 PyTorch 片段一看就懂。
所以这一节是想说:先看 motivating example 抓直觉 → 再啃 Perception/Decision → 最后用消融表巩固"为什么这些设计是对的"。
FAQ
Q1:为什么单相机也行?多相机不是更好吗?
理论上多相机更好(覆盖盲区),但代价是:
- 真机布置麻烦(要标定多个相机)
- 数据增多反而让训练更难
- 实际部署场景一般只有一个相机 DP3 选单相机是为了"真实可用"。如果场景允许,加多相机当然能涨点。
Q2:为什么不用颜色反而更好?
颜色让模型容易"偷懒"——它会学到"绿色 = 训练时见过的方块",结果换个颜色就废了。去掉颜色逼模型只看几何,泛化反而强。这是个"少即是多"的典型例子。
Q3:扩散策略和 GAN/VAE 比有什么优势?
扩散模型生成多模态分布特别稳。机器人动作经常有多个合理选择(比如绕过障碍可以左也可以右),扩散模型能很好地建模这种多模态;GAN 容易模式塌陷,VAE 容易模糊。
Q4:64 维特征会不会太少?
作者做了消融(Table VII 的 projection 行):去掉 projection 头让特征是 256 维,准确率没变。说明 64 维是够用的,projection 头只是为了加速推理。
Q5:DP3 能直接搬到我的机器人上吗?
需要这些条件:
- 一台深度相机(RealSense / Kinect / Azure Kinect 类似的都行)
- 能采集示教(遥操或脚本)
- 知道相机的内外参(用来反投影)
- 能跑 PyTorch + 一块 GPU 推理(2080 Ti 都够)
代码开源,按 README 改任务配置就行。
Q6:为什么 RGB-D 不如纯点云?
RGB-D 在论文里是把图像和深度都过同一个 2D 图像编码器(ResNet 类)。这种处理把 3D 信息硬压成 2D 特征图,浪费了深度的几何意义。点云 + 专门的 3D 编码器(哪怕是简单 MLP)才能真正用上 3D 信息。
Q7:为什么 PointNet++ 这么烂?
作者在 Table VI 慢慢拆解发现:T-Net(学坐标变换矩阵)和 BatchNorm 是主要凶手。
- T-Net:在控制任务里相机固定,不需要学变换;T-Net 反而引入额外不稳定
- BatchNorm:训练时 batch 小(128)+ 控制任务的样本相关性强,BN 统计量不稳
把这两个拿掉的 PointNet 就接近 DP3 Encoder 了(72.3% vs 78.3%)。
Q8:为什么真机只 4 任务?
灵巧手示教成本高(视觉重定向 + 多阶段),4 任务已经足以证明点。论文重点是"40 条够用"这件事本身就反传统。
Q9:Simple DP3 和 DP3 怎么选?
Simple DP3:推理 25.3 FPS,准确率 70.2%(DP3 是 74.4%)。如果你跑实时控制(机器人要 20+ FPS)选 Simple DP3;离线评估或追求最高精度选 DP3。
Q10:DP3 之后这条线又有什么新工作?
DP3 之后可关注的:iDP3(in-the-wild DP3)、3D Diffuser Actor(多任务 + 语言)、RDT-1B(大规模扩散 transformer)。一句话:3D + 扩散这条线还在长。
所以这一节是想说:DP3 看起来朴素,但每个设计选择背后都有"我们试过别的,结果更差"的实验依据。
延伸阅读
直接前驱(必读)
- Diffusion Policy(Chi et al., RSS 2023):DP3 的对照组本体。理解 DP 才能理解 DP3 在加什么
- DDPM(Ho et al., NeurIPS 2020):扩散模型本体;理解扩散过程公式从这里开始
3D 表征的同期/相关工作
- 3D Diffuser Actor(Ke et al., 2024):DP3 的"语言条件版兄弟"
- PerAct(Shridhar et al., CoRL 2023):体素+Transformer 的 3D 策略代表
- GNFactor(Ze et al., CoRL 2023):作者前作,NeRF 特征用于策略
点云编码器
- PointNet(Qi et al., CVPR 2017):所有点云网络的祖师爷;理解 max pool 顺序无关性的来源
- PointNet++(Qi et al., NeurIPS 2017):层级版本
- PointNeXt(Qian et al., NeurIPS 2022):现代 PointNet 重训版
灵巧手任务
- DexMV(Qin et al., ECCV 2022):人手视频→机器手的灵巧操作
- DexDeform(Li et al., 2023):可形变物体灵巧操作
项目资源
- 论文项目页:https://3d-diffusion-policy.github.io
- 开源代码:https://github.com/YanjieZe/3D-Diffusion-Policy
- 配套视频很值得看,能感受真机表现差异
一作的后续工作
- Yanjie Ze 之后做了 iDP3(in-the-wild Humanoid DP3)等,把这条线推到人形机器人上。可以追他的 Google Scholar
所以这一节是想说:DP3 是个十字路口——往前理解 DPM/DP,往左看 PerAct/3D Diffuser Actor,往右看 PointNet 家族,往后看 iDP3 这类延伸,能在"3D 机器人策略"这个领域里建立完整地图。
◼
引用本笔记 / Cite this note
@online{eai_3d_diffusion_policy_2026,
title = {(readable note) 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2024 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/3d-diffusion-policy/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim