回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Diffusion Policy · Plate Nº 39

3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations

15 min read · 5167 字 · ⭐⭐⭐ · auto 摘要

TL;DR

让机器人改看 3D 立体形状(点云)而不是 2D 照片来学动作,10 条示范就够,72 个任务平均比原版强 24.2%。

所以这一节是想说:DP3 把视觉模仿学习里"靠 2D 照片猜 3D 动作"这个根本错位修好了,代价只是加一个三层 MLP。


这是个什么场景

想象你蒙着一只眼睛伸手去拿桌上的水杯。你能看到杯子的轮廓,但很难判断它"离手还有多远"——很可能一把抓空,或者撞翻。

机器人现在面临的就是这种"独眼"困境。模仿学习(imitation learning) 是教机器人最省心的办法:人遥控机械手做一遍(比如包一次饺子),录下"我看到什么 → 我做了什么",机器人照葫芦画瓢。比强化学习好,因为不用让真机摔几千次去试错。

但有个让人头大的老毛病:特别费示教数据

  • 原版 Diffusion Policy(DP,2023 RSS):每个真实任务要 100~200 条人工演示
  • 一条演示要遥操几十秒到几分钟
  • 演示一多手就抖、容易出错、要重录,整个数据收集能拖好几天

为什么这么费?因为机器人是通过 RGB 照片看世界的,跟"独眼看杯子"一个毛病——它知道"杯子在画面左边",不知道"杯子离我 30cm 还是 60cm"。结果:

  • 灯光换了(早上拍 vs 晚上拍)→ 失效
  • 摄像头挪了 5 度 → 失效
  • 杯子从蓝色换成红色 → 失效

每出现一种新情况,都得多录一批演示来补。

DP3 这篇文章问:要是直接给机器人一双"立体眼"(看 3D 点云),能不能从根上解决?

所以这一节是想说:模仿学习贵在示教,而示教贵的根因是 2D 图像不够"懂空间"——这给了 3D 表征一个出场的理由。


3D Diffusion Policy — 场景示意:这论文要解决的现实问题
Plate Nº I3D Diffusion Policy — 场景示意:这论文要解决的现实问题

之前的人怎么做

DP3 出现之前,机器人视觉策略大致两条路:

路线 A:2D 图像派(主流)

代表:BCRNN(行为克隆 + RNN)、IBC(隐式行为克隆)、Diffusion Policy(DP)。

  • 输入:一张或几张 RGB 图
  • 输出:下一段动作序列
  • 用图像编码器(一般是 ResNet)压成特征 → 喂给策略网络
  • 缺点:缺空间感;要应对视角/外观变化只能"狂喂数据 + 数据增强"

路线 B:3D 派(小众但在长大)

代表:PerAct、GNFactor、Act3D、RVT、3D Diffuser Actor。

这条路也用 3D 信息(点云、神经辐射场、体素),但有两个共同问题:

  1. 关键帧+规划的设定:它们不是"连续生成动作",而是"预测几个关键位姿,再用规划器连起来"。这套对低维任务(机械臂搬箱子)凑合,但对高维任务(多指灵巧手包饺子)行不通——灵巧手有 22 维关节,关键帧根本表达不出连贯运动
  2. 推理慢:PerAct 才 2.23 FPS,3D Diffuser Actor 1.67 FPS。机器人跟不上动态环境

Diffusion Policy(路线 A 的天花板)这篇是 DP3 的直接对照组:它已经证明了"用扩散模型生成动作序列"比 BCRNN 这类 RNN 式方法强很多。但它的"眼睛"还是 2D 的,所以 DP3 说:把 DP 的眼睛换成 3D,看会发生什么。

所以这一节是想说:2D 派强在动作生成、弱在空间感;3D 派强在空间感、弱在高维任务和速度。DP3 的位置就是把两边的强项拼起来。


新想法

DP3 的核心想法非常朴素,可以浓缩成一句话:

用稀疏点云 + 轻量 MLP 编码器替换 Diffusion Policy 里的图像编码器,其它都不动。

听起来像"改个零件",但藏着几个反直觉的设计选择:

1. 用点云,不用 RGB-D,不用体素,不用 NeRF

直觉上,RGB-D(图像+深度)信息更多,应该更强。但作者发现 RGB-D 还是被图像编码器主导,深度信息没被好好利用。点云直接把"哪些 xyz 位置有东西"摆在那,反而更纯粹。

2. 不用颜色(只 xyz)

直觉上颜色应该有帮助。但作者发现:拿掉颜色后,模型对外观变化的泛化能力大涨——因为它根本没机会"作弊地依赖颜色"。

3. 用一个"傻"的三层 MLP,不用 PointNet/PointNet++/Point Transformer 这些复杂网络

直觉上更复杂的点云网络更强。但消融实验发现:PointNet 平均 15.7%,PointNet++ 2.2%,DP3 自家 MLP 78.3%。原因是 PointNet 里的 T-Net(学坐标变换)和 BatchNorm 拖了后腿(在固定相机的控制任务里 T-Net 没必要,BN 在小 batch 训练时不稳)。

4. 稀疏,不密集

只用 512 或 1024 个点(远少于一般点云任务的几千~几万个),用 Farthest Point Sampling(最远点采样,FPS)保证空间覆盖。

5. 单视角,不多视角

之前的 3D 方法一般要多个相机围着机器人摆。DP3 只用 一个深度相机,把深度图转成点云。这个选择是为了真实可部署。

所以这一节是想说:DP3 的新意不在"加新模块"而在"做减法"——简单的表征 + 简单的编码器 + 单相机,反而打过更复杂的方案。


方法分步

把 DP3 跑一次(训练阶段)拆成 6 步。整体节奏像做菜:先拿食材(拍照)→ 切配(点云处理)→ 压味(编码器)→ 下锅(扩散)→ 出餐(执行)。

步骤 1:拍一张深度图

像用手机的"人像模式"拍一张——只是这次相机(RealSense L515)拍的不是颜色,而是"哪里近哪里远"的灰度图,84×84 像素。每个像素值告诉你"这一点离相机多少厘米"。

步骤 2:深度 → 点云

像把一张地形等高线地图"撑"起来变成立体沙盘。利用相机的内参(焦距等)和外参(位置朝向),把每个深度像素反投影成 3D 空间里的一个 (x, y, z) 点。

步骤 3:裁剪 + 下采样

像在一锅原料里挑出今天要用的部分,再切成均匀大小。

  • 裁剪(Crop):用一个长方体把工作区框出来,扔掉桌面、地面、远处墙等无关点。这步影响巨大——去掉它平均成功率从 78.3% 掉到 45.3%
  • 下采样(FPS):从剩下的点里挑 512 或 1024 个,用最远点采样(Farthest Point Sampling)保证均匀分布,不会全挤在一个角落

步骤 4:DP3 Encoder:点云 → 64 维向量

像把一篮散乱的食材全榨成一小杯浓缩汁。这一步把成百上千个点压成一个 64 长度的小向量。

N×3 点云 → Linear(3,64) → LayerNorm → ReLU
        → Linear(64,128) → LayerNorm → ReLU
        → Linear(128,256) → LayerNorm → ReLU
        → MaxPool(沿 N 维做最大池化)→ 256 维
        → Linear(256,64) → LayerNorm → 64 维 v

整个网络就是 三层 MLP(多层感知机)+ 一次 max pool + 一个投影头。MaxPool 让"点的顺序"不影响结果(点云本来就是无序的)。

机器人自己的位姿 q(关节角度等,DimRobo 维)也走一个类似的小 MLP 编成 64 维。两个向量拼起来得到 128 维条件向量。

步骤 5:把条件向量喂给扩散策略

等等,先慢一拍——扩散策略(Diffusion Policy)到底在做什么?

类比:想象一张被雪花盖满的电视屏(纯噪声),你拿橡皮一遍一遍擦,擦着擦着画面浮出来,最后看到一段"机械手该怎么动"的动画。"扩散"就是这个反向擦除的过程。

正式说,这是个条件去噪网络 ε_θ:

  • 训练时:从演示里取真实动作 a₀,加 k 步噪声变成 a_k,让网络猜"刚才加进去的噪声 ε_k"长什么样。损失函数:MSE(ε_k, ε_θ(a_k, k, v, q))
  • 推理时:从一团随机噪声 a_K 出发,迭代 K 次去噪,每一步擦掉一点点,最后得到 a₀ = 一段动作序列

人话总结:告诉我当前看到的环境(v)和我自己的状态(q),帮我从满屏雪花里逐步擦出一段合理的动作

步骤 6:执行

像厨师只把刚出锅最热的几勺端上桌,剩下的下次再做。预测出 H=4 步动作,但只执行最前面的 N_act=3 步(短 horizon 是为了在真实环境里能随时根据新画面调整)。

训练细节:

  • 噪声调度器:DDIM
  • 训练 100 时间步 / 推理 10 时间步(DDIM 的优势就是推理可以少步)
  • 用 sample prediction(直接预测干净动作)而不是 epsilon prediction,高维动作收敛更快
  • batch size 128,MetaWorld 训 1000 epoch,其他训 3000 epoch

所以这一节是想说:方法本身不复杂——拍深度图 → 切成点云 → MLP 压成向量 → 喂给一个标准扩散策略——每一步都用最朴素的选择。


关键数字

挑出论文里最该记住的一组数字:

整体战绩

  • 仿真:72 任务平均 74.4%(DP 是 59.8%),相对提升 24.2%
  • 真机:4 任务平均 85%,DP 35%,DP-Depth 20%
  • 安全:DP3 安全违规率 0%;DP 32.5%;DP-Depth 25%

数据效率

  • 仿真任务普遍只用 10 条示教就能跑(少数复杂任务 100 条)
  • 真机 4 任务每个 40 条示教就能 85%

收敛速度

  • DP3 一般 500 epoch 收敛;DP 经常 3000 epoch 还没收敛或停在次优

推理速度

  • DP3 12.7 FPS;DP 12.3 FPS(不仅没变慢,反而快一点点)
  • Simple DP3(精简 UNet)25.3 FPS(接近翻倍),准确率只掉 4 个点

视觉表征对比(6 个消融任务平均成功率)

表征 平均
Oracle State 76.8
Point cloud(DP3) 78.3
Image 40.7
Depth 32.0
RGB-D 34.7
Voxel 32.3

注意:点云甚至打过 oracle state——直接给真实物体状态都没"看 3D 点云"好。

点云编码器对比

编码器 平均
DP3 Encoder(三层 MLP) 78.3
PointNet 15.7
PointNet++ 2.2
PointNeXt 2.3
Point Transformer 1.0
PointNet++(预训练) 6.8

简单 MLP 把所有"高级"网络打得满地找牙。

安全违规率(真机,单任务最差)

  • DP 在 Roll-Up:90% 的运行会出现需要人停手的危险动作
  • DP3 在所有任务:0%

所以这一节是想说:从准确率到安全性,DP3 几乎在每条指标上都把基线甩开一大截,而且没有付出推理速度的代价。


应该懂的新词

Imitation Learning(模仿学习):让机器人看人示范然后照做。对应词是 reinforcement learning(强化学习,靠试错)。

Visuomotor Policy(视觉运动策略):输入是视觉(图像/点云),输出是动作(关节角、末端位姿等)的策略函数 π。

Diffusion Model(扩散模型):从噪声里反向还原数据的生成模型。原来用来生图(DDPM、Stable Diffusion),这里用来生动作。

  • 类比:给一团雾,慢慢吹散,雾里出现的形状就是答案

Point Cloud(点云):一堆 (x, y, z) 点的集合,用来描述 3D 物体表面。

  • 类比:把世界扎一堆图钉,每个图钉位置就是一个点

Voxel(体素):3D 版的像素,把空间切成立方格子。

  • 类比:乐高积木堆出来的世界

Farthest Point Sampling(FPS,最远点采样):从大量点里挑代表点的算法,每次挑"离已选点最远的"那个,保证均匀分布。

  • 注意:和帧率 FPS(frames per second)撞名了,论文上下文区分

MLP(多层感知机):最基本的神经网络——几层 Linear 夹激活函数。

MaxPool / 最大池化:从一组数里只留最大值。在点云这里用来把 N 个点的特征压成 1 个全局特征,且和点的顺序无关(这点很关键,因为点云本身就是无序的)。

LayerNorm(层归一化):对每个样本的特征做归一化。这里用它替代 BatchNorm 是因为小 batch 时 BN 不稳定。

DDIM(Denoising Diffusion Implicit Models):扩散模型的快速采样器,能用更少的去噪步数得到差不多的质量。

Sample prediction vs Epsilon prediction:扩散模型训练时让网络预测什么——直接预测"干净样本 a₀"叫 sample prediction,预测"添加的噪声 ε"叫 epsilon prediction。DP3 选了前者,理由是高维动作时更稳定。

Allegro Hand:一种 16 自由度的多指机械手,论文真机实验用的就是它。

RealSense L515:Intel 的一款消费级深度相机,用 LiDAR 测距。

所以这一节是想说:术语本身都不难,理解的关键是"点云=无序 3D 点集"和"扩散模型=从噪声里抠出答案"这两个直觉。


搞不定的

DP3 自己承认(或可以推测)的局限:

1. 长 horizon 任务还是难

论文明说"this work does not delve into tasks with extremely long horizons"。Roll-Up、Dumpling 已经是多阶段任务,但相比"折叠衣服 5 分钟"这种还是短的。

2. 大幅度视角变化撑不住

文中表 XII 的 view generalization 是"小幅"视角变化。如果相机大幅移动,DP3 也没法自动迁移——还得手动调整裁剪框。

3. 单相机带来的盲区

只有一个深度相机意味着遮挡严重时点云就是缺的。论文没解决遮挡问题,靠 max pool 的鲁棒性兜着。

4. 真机示教仍然不便宜

虽然从 100~200 降到 40,但 40 条多指灵巧手示教(用视觉重定向)还是费时——论文里说这正是为什么真机只跑 4 任务。

5. "为什么 PointNet 系不行"还没完全弄清

作者通过修改 PointNet 找到了 T-Net 和 BatchNorm 是凶手,但为什么这两个东西在控制任务里有害,论文留作 future work。

6. 仿真到真实的 gap 没系统讨论

虽然真机也跑了 4 个任务,但训练全在真机数据上,没尝试 sim-to-real transfer。

7. 没有语言/任务条件

DP3 是"一个任务一个策略",没有像 PerAct、3D Diffuser Actor 那样接语言指令做多任务。这是为了对照清晰,但也意味着不能直接用作通用机器人大脑。

所以这一节是想说:DP3 在"短 horizon 单任务模仿"这个设定里很强,但要真正做通用、长 horizon、多任务的机器人,它只是奠基的一块砖。


与别篇关系

DP3 的位置可以画在两条家谱上:

家谱 A:Diffusion Policy 这条线(2D → 3D)

DDPM (2020 NeurIPS)         扩散模型本体
   ↓
Diffusion Policy (2023 RSS) 把扩散模型用作动作生成器,输入是 RGB
   ↓
DP3 (2024 RSS, 本篇)         把 RGB 换成点云
   ↓
Simple DP3 (本篇附录)        精简 UNet,速度翻倍

DP3 是 Diffusion Policy 的"3D 化身",并直接把作者列在引用 [10] Cheng Chi et al.

家谱 B:3D 机器人策略这条线

PerAct (CoRL 2023)          体素 + Transformer,关键帧预测
GNFactor (CoRL 2023)        NeRF 特征 + 多任务
Act3D (2023)                Transformer + 3D 注意力
RVT (2023)                  虚拟视角 + Transformer
3D Diffuser Actor (2024)    类似 DP3 的思路,但走 attention + language
DP3 (2024)                  最简的 3D 表征 + 扩散策略

DP3 与同期的 3D Diffuser Actor 是最直接的"竞品"。差异:

  • 3D Diffuser Actor:多视角、有语言条件、用 attention
  • DP3:单视角、无语言、用 max pool;更快更简但功能更窄

DP3 引用但和它思路不同的一类:DexMV、DexDeform 等灵巧手任务的论文——它们贡献的是任务和数据,DP3 贡献的是算法。

Robot Synesthesia / DexCap 等同期工作:也在尝试用更好的多模态输入解决数据效率,但 DP3 走的是"减法"路线。

所以这一节是想说:DP3 = Diffusion Policy 的 3D 升级版,同时也是 3D 机器人策略家族里"最朴素的那一个"——简洁性是它最大的卖点。


阅读顺序

如果你是入门者按这个顺序读最顺:

第一遍(30 分钟,建立直觉)

  1. Abstract(论文 27-51 行)
  2. Figure 1(标题页那张图):扫一眼"DP3 vs DP"和真机任务图
  3. Section III.A "A Motivating Example"(149-184 行):MetaWorld Reach 的 5 个示教点是最好的入门例子
  4. Figure 3:训练点(蓝)和成功评估点(绿)的 3D 散点对比
  5. Section VI Conclusion

第二遍(1 小时,啃方法)

  1. Section III.B "Perception"(186-226 行):点云处理 + DP3 Encoder
  2. Section III.C "Decision"(228-263 行):扩散策略公式(人话翻译见上文"方法分步")
  3. Figure 2:整个流程图(论文 230-235 行附近)
  4. Appendix A:DP3 Encoder 的 PyTorch 实现,能直接看代码理解结构

第三遍(1 小时,看结果)

  1. Table I + Table II:仿真主结果
  2. Table IV + V + VI + VII:四张消融表(3D 表征 / 点云编码器 / PointNet 改造 / 设计选择)——这是论文最有教学价值的部分
  3. Section V 全部:真机部分,特别是 Table VIII(主结果)和 Table XIV(安全违规率)
  4. Section V.C 四种泛化的小表(IX、X、XI、XII)

可跳过:Section II Related Work(除非需要写 related work);Appendix B 任务套件细节;Appendix C 每个任务的具体数字。

强烈建议配合 GitHub 看https://github.com/YanjieZe/3D-Diffusion-Policy 有完整代码,DP3 Encoder 部分对照论文 Appendix A 的 PyTorch 片段一看就懂。

所以这一节是想说:先看 motivating example 抓直觉 → 再啃 Perception/Decision → 最后用消融表巩固"为什么这些设计是对的"。


FAQ

Q1:为什么单相机也行?多相机不是更好吗?

理论上多相机更好(覆盖盲区),但代价是:

  1. 真机布置麻烦(要标定多个相机)
  2. 数据增多反而让训练更难
  3. 实际部署场景一般只有一个相机 DP3 选单相机是为了"真实可用"。如果场景允许,加多相机当然能涨点。

Q2:为什么不用颜色反而更好?

颜色让模型容易"偷懒"——它会学到"绿色 = 训练时见过的方块",结果换个颜色就废了。去掉颜色逼模型只看几何,泛化反而强。这是个"少即是多"的典型例子。

Q3:扩散策略和 GAN/VAE 比有什么优势?

扩散模型生成多模态分布特别稳。机器人动作经常有多个合理选择(比如绕过障碍可以左也可以右),扩散模型能很好地建模这种多模态;GAN 容易模式塌陷,VAE 容易模糊。

Q4:64 维特征会不会太少?

作者做了消融(Table VII 的 projection 行):去掉 projection 头让特征是 256 维,准确率没变。说明 64 维是够用的,projection 头只是为了加速推理。

Q5:DP3 能直接搬到我的机器人上吗?

需要这些条件:

  1. 一台深度相机(RealSense / Kinect / Azure Kinect 类似的都行)
  2. 能采集示教(遥操或脚本)
  3. 知道相机的内外参(用来反投影)
  4. 能跑 PyTorch + 一块 GPU 推理(2080 Ti 都够)

代码开源,按 README 改任务配置就行。

Q6:为什么 RGB-D 不如纯点云?

RGB-D 在论文里是把图像和深度都过同一个 2D 图像编码器(ResNet 类)。这种处理把 3D 信息硬压成 2D 特征图,浪费了深度的几何意义。点云 + 专门的 3D 编码器(哪怕是简单 MLP)才能真正用上 3D 信息。

Q7:为什么 PointNet++ 这么烂?

作者在 Table VI 慢慢拆解发现:T-Net(学坐标变换矩阵)和 BatchNorm 是主要凶手。

  • T-Net:在控制任务里相机固定,不需要学变换;T-Net 反而引入额外不稳定
  • BatchNorm:训练时 batch 小(128)+ 控制任务的样本相关性强,BN 统计量不稳

把这两个拿掉的 PointNet 就接近 DP3 Encoder 了(72.3% vs 78.3%)。

Q8:为什么真机只 4 任务?

灵巧手示教成本高(视觉重定向 + 多阶段),4 任务已经足以证明点。论文重点是"40 条够用"这件事本身就反传统。

Q9:Simple DP3 和 DP3 怎么选?

Simple DP3:推理 25.3 FPS,准确率 70.2%(DP3 是 74.4%)。如果你跑实时控制(机器人要 20+ FPS)选 Simple DP3;离线评估或追求最高精度选 DP3。

Q10:DP3 之后这条线又有什么新工作?

DP3 之后可关注的:iDP3(in-the-wild DP3)、3D Diffuser Actor(多任务 + 语言)、RDT-1B(大规模扩散 transformer)。一句话:3D + 扩散这条线还在长。

所以这一节是想说:DP3 看起来朴素,但每个设计选择背后都有"我们试过别的,结果更差"的实验依据。


延伸阅读

直接前驱(必读)

  • Diffusion Policy(Chi et al., RSS 2023):DP3 的对照组本体。理解 DP 才能理解 DP3 在加什么
  • DDPM(Ho et al., NeurIPS 2020):扩散模型本体;理解扩散过程公式从这里开始

3D 表征的同期/相关工作

  • 3D Diffuser Actor(Ke et al., 2024):DP3 的"语言条件版兄弟"
  • PerAct(Shridhar et al., CoRL 2023):体素+Transformer 的 3D 策略代表
  • GNFactor(Ze et al., CoRL 2023):作者前作,NeRF 特征用于策略

点云编码器

  • PointNet(Qi et al., CVPR 2017):所有点云网络的祖师爷;理解 max pool 顺序无关性的来源
  • PointNet++(Qi et al., NeurIPS 2017):层级版本
  • PointNeXt(Qian et al., NeurIPS 2022):现代 PointNet 重训版

灵巧手任务

  • DexMV(Qin et al., ECCV 2022):人手视频→机器手的灵巧操作
  • DexDeform(Li et al., 2023):可形变物体灵巧操作

项目资源

一作的后续工作

  • Yanjie Ze 之后做了 iDP3(in-the-wild Humanoid DP3)等,把这条线推到人形机器人上。可以追他的 Google Scholar

所以这一节是想说:DP3 是个十字路口——往前理解 DPM/DP,往左看 PerAct/3D Diffuser Actor,往右看 PointNet 家族,往后看 iDP3 这类延伸,能在"3D 机器人策略"这个领域里建立完整地图。

引用本笔记 / Cite this note
BibTeX
@online{eai_3d_diffusion_policy_2026,
  title       = {(readable note) 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/3d-diffusion-policy/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim