回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Imitation Learning · Plate Nº 54

Implicit Behavioral Cloning

18 min read · 6215 字 · ⭐⭐⭐⭐ · auto 摘要

这是一份给"完全没接触过 AI"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。

一句话讲什么(TL;DR)

别让模型直接报"动作是这个",而是让它给一堆候选动作打分、挑最低分那个——机器人的手就突然变巧了。

所以这一节是想说:把"输出动作"换成"给动作打分再挑",模仿学习能学到原来学不会的精细动作。


这是个什么场景

想象你在教一个新员工切水果。你切给他看 50 次,他要照着你的样子切。问题来了——同一个西瓜,你这刀从左切、下一刀从右切,两种都对;可如果叫他"把两种切法平均一下",他就会一刀劈在西瓜中间最硬的那条棱上,刀拐了。

再想另一个画面:把蓝色方块塞进只多 1 毫米空隙的卡扣。还没碰到卡扣时,可以慢慢推;碰到的那一瞬间,必须立刻停手,多推半毫米就卡死。中间没有过渡地带。

这两件事正是机器人模仿学习的硬骨头:

  • 同一个状态下有多个合理动作(左推右推都行)
  • 动作之间有断点(碰到之前慢慢推、碰到瞬间立刻停,没有中间速度)
  • 有时精度要求 1 毫米(太轻塞不进、太重会卡死)

传统的"看一眼 → 算出动作"网络在这种场合特别容易翻车——它本质上是在画一条平滑的曲线,而真实的最优动作既不平滑也不唯一。

IBC 想做的事,是换一种办法让机器人决定动作——不是直接算出来,而是先给一堆候选动作打分,再挑分数最低的那个。

所以这一节是想说:模仿学习里的硬骨头是"动作不连续 + 多个合理答案",传统做法对此无能为力。


Implicit Behavioral Cloning — 场景示意:这论文要解决的现实问题
Plate Nº IImplicit Behavioral Cloning — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

  • 方案 A:均方误差(MSE)回归 类比:让网络对所有合理动作"求平均"。如果两位老师傅一个推左、一个推右,机器人会学成"往中间推"——结果撞墙。这是这篇论文的头号靶子。

  • 方案 B:混合密度网络(MDN) 类比:让网络承认"答案可能有几种",每种打个概率。能处理多答案,但训练不稳定,超参数调起来像哄小孩,而且仍然假设动作分布是连续光滑的

  • 方案 C:离线强化学习(CQL、S4RL 等) 类比:除了看示范,还要看每一步打了多少分。需要标注奖励信号——大多数真实数据没奖励,标起来很贵。

  • 方案 D:分布匹配 / GAIL 类比:让机器人和老师"互相评判",需要不停在线试错,真机部署成本高

  • 核心难题:所有这些方案,骨子里都是"输入 o,直接吐出动作 a = F(o)"。这种"显式函数"天然对不连续和多答案不友好。

所以这一节是想说:以前的模仿学习要么爱"求平均",要么需要奖励信号,根子里都没改"直接输出动作"这件事。


这篇论文的新想法

别让网络直接说"动作是这个",而是让它对"状态+候选动作"打分,再用搜索找出分数最低的那个动作当输出。

形式上一行:把 a = F(o) 改成 a = argmin_a E(o, a)。少了点直觉但效果惊人。

所以这一节是想说:核心创新就是把"输出"换成"打分 + 搜索",让模型有能力学不连续、多答案的动作分布。


它分几步做的(方法)

整篇论文围绕 4 个动作展开:换公式、训练打分网络、推理时搜索、多种实现验证。每一步都先讲"日常这件事像什么",再翻译成网络在干嘛。

1. 把策略改写成能量函数 argmin

类比

假设你周末跟朋友选餐厅,有两种问法:

  • 问法 A:朋友直接说"就去这家"(显式策略,对应 a = F(o))。
  • 问法 B:朋友递给你一份"难吃指数表"——每家餐厅打一个分,你自己挑分数最低那家(隐式策略,对应 a = argmin_a E(o, a))。

问法 A 最怕"两家一样好"——朋友要么卡壳,要么折中说"那家也不错",但折中的那家可能根本不存在。问法 B 不会卡壳:分数表上两家都是 1 分、第三家 5 分,挑哪个都对,照单全收。

等等,先慢一拍 ——"能量函数"是啥? 名字听着像物理课,其实就是个评分网络。把状态和候选动作扔进去,吐回来一个数;数越小代表"越合理"。叫"能量"是因为物理系统总往能量低的地方走,跟挑最低分那家餐厅一个道理。

它在干什么

  • 训练一个网络 E_θ(o, a):输入是观测 o(图像 / 状态向量)和一个候选动作 a,输出是一个标量"能量"。
  • 训练目标:让真实演示中的(o, a)能量低,让其他不该选的动作能量高。
  • 推理(机器人执行时):给定 o,搜索一组候选动作 a,挑能量最低那个执行。

能量函数(Energy Function):本质就是个评分网络。给输入打一个数,数越小越"合理"。名字来自物理——物理系统总是趋向能量最低的状态。

隐式模型(Implicit Model):输出不是直接算出来的,而是"argmin/argmax 出来的"。需要在推理时多做一步搜索。

argmin:在所有候选里挑分数最低的那个。

为什么这步有用

  • 同一个 o 可以让多个 a 同时取得最低能量——天然支持多答案(multi-modal)。
  • 能量在动作空间里可以陡变——天然支持不连续。
  • 后面 Section 5 还给了证明:argmin 一个连续函数,就足以表达任意"集合值函数"和不连续函数。这是显式网络做不到的事。

所以这一节是想说:argmin + 能量函数这一行公式的改动,就把模型的"表达能力"扩大到了不连续和多答案。


2. 用 InfoNCE 损失训练能量函数

类比

要让评分网络学会打分,得找"反例"。就像教小朋友认水果:

  • 给他一个真苹果,说"这是苹果"(正例)。
  • 同时摆几个橘子、香蕉,说"这些不是苹果"(负例)。
  • 让他打分:苹果分越低、其他越高就奖励。

它在干什么

对每条训练数据 (o_i, a_i):

  1. 把演示动作 a_i 当正例(应该能量最低)。
  2. 在动作空间随机采若干个负例 ã_i^j(应该能量较高)。
  3. 用 InfoNCE 损失:让正例的能量比一堆负例都低。

InfoNCE 损失:一种"对比学习"风格的损失。直觉上写成"正例分数 vs 一堆负例分数的相对位置",很像 softmax 分类——把"正确动作"当成正确分类。

负例采样:在动作空间里随便撒一把假动作,让网络学会区分"老师演示的"和"瞎蒙的"。

关键公式人话翻译

原文长长一串带 exp、求和、log。翻译过来:

在所有候选动作里,让真实演示动作"看起来最像那个对的"。如果它最像,损失就小;如果有个负例分数比它还低,就罚一下。

为什么这步有用

  • 不需要奖励信号,跟标准的"行为克隆"用的数据一模一样(只要 o 和 a)。
  • 负例采样让模型学到"动作空间里别的地方都是错的",比 MSE 那种只见过正例的训练方式信息量大得多。

所以这一节是想说:训练用对比学习——让真实动作分数低、随机假动作分数高,本质就是教网络识别"专家动作的形状"。


3. 推理时搜索:怎么把 argmin 真的算出来

类比

你拿到一份菜单上的"难吃指数表",要挑分数最低的那家。怎么挑?

  • 笨办法:每家都问一遍,挑最便宜。
  • 聪明办法:先大致看一眼哪个区域评分低,再在这个区域挑。
  • 进阶办法:把指数表想成等高线图,从任意一点开始往低处滑。

IBC 论文给了三种推理实现:

  • a) 无导数采样优化:随机撒 16,384 个候选动作打分,挑能量最低的那一小部分,再围绕它们重新撒一批,反复 N 轮。本质是"逐步缩小搜索范围"。
  • b) 自回归坐标下降:动作有多个维度(比如机械臂 30 维)时,逐维优化。先固定其他维、找第 1 维最优,再固定其他维、找第 2 维最优,循环。维度高时比 a) 更稳。
  • c) Langevin MCMC(梯度方法):把能量函数对动作求梯度,从随机起点沿着负梯度方向"滑下山",并加点噪声跳出局部最小值。需要训练时加 gradient penalty 让能量光滑。

Langevin 采样:从能量低的地方采样的一种带噪声的梯度下降。"噪声"让它不会卡在小坑里,"梯度"指引它往真正的低谷走。

它在干什么

每次机器人要决策时(比如 5 Hz,每秒 5 次):

  1. 把当前观测 o(图像或状态向量)送进能量网络。
  2. 用上面任一搜索方法,在动作空间里找 argmin。
  3. 把找到的 a 发给机械臂执行。

为什么这步有用

  • 显式策略每次决策只需要一次前向;隐式策略要做几千次能量评估——计算贵很多
  • 但是!现代 GPU 可以批量并行算几千个候选动作的能量,因此 5 Hz 的实时控制完全跑得动。
  • 三种方法是"工具箱"——状态低维用无导数采样,高维用坐标下降,要平滑能量用 Langevin。

所以这一节是想说:推理时多花点算力做搜索,换来的是表达能力的飞跃;GPU 并行让这个代价在真机上可控。


4. 跨 6 个任务族的"显式 vs 隐式"对照实验

类比

要证明"打分挑动作"比"直接输出动作"更好,得在很多种场地比一次。论文像办了一场体能测试,让两种方法做 6 套不同项目的"全能赛"。

它在干什么

把 EBM(隐式)和 MSE/MDN(显式)放进 6 个环境对比:

  1. D4RL 人类专家任务(厨房、灵巧手),动作维度高达 30D。
  2. N-D 粒子积分器:1D 到 32D 的人造任务,专门隔离"不连续"这一个变量。
  3. 模拟 xArm6 推方块:单目标 / 多目标 / 视觉输入。
  4. 平面扫粒子:50–100 个小颗粒扫进区域,纯视觉。
  5. 双臂铲送:两个 KUKA 协作,把粒子分到两个碗,12 维动作。
  6. 真机操作:xArm6 推积木 + 1mm 公差插入 + 多色分拣。

为什么这步有用

  • 单看一个任务,提升可能是巧合。论文要证明"换隐式表达"是普遍性的好处,所以才铺这么大场子。
  • 真机 1mm 插入是最有说服力的——这种精度对 MSE 几乎是死刑,因为接触时动作必须陡变(碰到框就停,没碰到就继续推)。

所以这一节是想说:不只在一处做实验,6 个领域里隐式都比显式好,证明"能量+argmin"是普适改进。


Implicit Behavioral Cloning — 方法示意:核心 pipeline
Plate Nº IIImplicit Behavioral Cloning — 方法示意:核心 pipeline

关键数字(What works)

数字本身不重要,重要的是它们告诉你"换成隐式"到底改善了什么。

数字 1:1mm 插入任务,隐式 83% vs 显式 7%

  • 怎么算的:真机上"把蓝方块精准插入 1mm 公差卡扣"任务,60 次试验成功率。
  • 对比:EBM 83.3% vs MSE 6.7%——整整一个数量级
  • 生活语言:这个任务最考验"接触瞬间的陡变"——MSE 学到的是"慢慢往里推",结果一推就过头。EBM 学到了"快到位时立刻停手",所以才能塞进去。这正是"不连续动作"的代表场景。

数字 2:粒子积分器从 8D 跳到 16D

  • 怎么算的:变化动作维度 N,看哪种方法仍能保持 95% 成功率。
  • 对比:MSE 撑到 8D 就崩;EBM 能撑到 16D。
  • 生活语言:维度翻倍意味着"不连续点变多",MSE 处理不连续本来就吃力,维度一高雪上加霜。

数字 3:D4RL pen-human 得分 2586 vs 1214(CQL)

  • 怎么算的:D4RL 的 pen-human 任务,IBC(带 RWR 数据筛选)vs 之前最强离线 RL 方法 CQL。
  • 对比:IBC 不用奖励信号,分数比用奖励的 CQL 还高一倍。
  • 生活语言:连"看了答案的同学"都被"只看示范的同学"打败了——说明问题本身的关键是表达能力,不是有没有奖励。

数字 4:扫粒子任务,图像 EBM 82.6% vs 图像 MSE 56.6%

  • 怎么算的:扫 50–100 个粒子进目标区,3 种图像编码器、3 种 ResNet 深度。
  • 对比:在所有配置里 EBM 都领先 MSE 25 个点以上。
  • 生活语言:粒子位置在像素空间里有平移对称性,状态向量中没有,所以图像输入表现更好——而 EBM 比 MSE 更会利用这种对称。

数字 5:分拣 4 蓝 + 4 黄方块,隐式 48% vs 显式 20%

  • 怎么算的:组合复杂任务,每放对一个加分,60 次试验平均。
  • 对比:EBM 是 MSE 的 2.4 倍
  • 生活语言:分拣任务有大量"分支决策"——要不要先抓蓝色?要不要换抓另一颗?这正是多答案场景,EBM 天然吃这种结构。

数字 6:训练数据从 10 张 → 30 张图,EBM 误差降低 1–2 个数量级

  • 怎么算的:视觉坐标回归任务(找绿点位置),低数据量条件。
  • 对比:MSE 在 10 张数据下连训练集都拟合不好;EBM 在 10 张下就能外推。
  • 生活语言:在小数据下隐式比显式更"会推广",这对真实机器人特别重要——演示数据永远不够。

所以这一节是想说:数字反复指向一件事——隐式策略在不连续、高维、多答案、小数据这些"硬场景"全面领先。


你应该懂的几个新词

Behavioral Cloning(行为克隆,BC):最简单的模仿学习——把"老师做什么 → 学生做什么"当成一道监督学习题。输入观测、输出动作,照着 demo 训。

Implicit Model(隐式模型):输出不直接算出来,而是"对所有候选输入打分,再挑分数最低的"。需要在推理时多一步搜索。

Energy-Based Model(能量模型,EBM):一种隐式模型的实现方式——网络输出一个标量分数("能量"),数越小越合理。

InfoNCE Loss:对比学习里的常用损失。让正例分数明显低于一堆负例,本质上等于做"正例 vs 负例"的 softmax 分类。

Langevin MCMC:一种在能量函数里"找谷底"的采样方法。沿负梯度滑下山,加点随机噪声防止卡在小坑。

Mixture Density Network(MDN,混合密度网络):显式模型应对"多答案"的方案——输出一组高斯分布参数,每个高斯代表一种可能动作。论文的对比靶子之一。

Multi-modal / Multi-valued(多模态 / 多值):同一个观测下有多个合理动作。比如机器人抓杯子,从左侧抓和从右侧抓都对。

Discontinuity(不连续):动作随状态突变。最经典的例子是接触——碰到物体之前可以慢慢推,碰到瞬间必须停。

D4RL:离线强化学习的标准 benchmark,包含 Franka 厨房、Adroit 灵巧手等场景。IBC 在它的 human-expert 子集上做对比。

CQL / S4RL:当时最强的离线 RL 算法,需要奖励信号。IBC 在不用奖励的前提下打平甚至超过它们。

Universal Approximation(万能逼近):神经网络的经典理论——足够大的网络能任意逼近连续函数。论文 Section 5 把这个结论扩展到了"argmin 一个连续函数",从而能逼近不连续和集合值函数。

RWR(Reward-Weighted Regression):用奖励给数据加权的简单技巧。论文里用一个简化版:只用前 50% 高回报的演示数据。

所以这一节是想说:理解 IBC 只需要这 11 个词,每个都对应一个具体角色。


它有什么搞不定的

  • 推理慢、算力贵:argmin 需要每步采样几千个动作。论文里在 5 Hz 控制下勉强够用,但更高频率(比如 100 Hz)的任务跑不起来。
  • 训练不如显式好调参:负例采样数、Langevin 步长、能量光滑度都会影响训练稳定性。MSE 调一调就跑了,EBM 是手艺活。
  • 没解决"复合误差"问题:行为克隆固有的缺陷——错一步会积累偏差,IBC 只是改了表达形式,没解决这个根本问题。后面的 Diffusion Policy 才把"动作序列预测"加进来部分缓解。

所以这一节是想说:IBC 强在表达能力,弱在工程负担和训练稳定性,根本的"误差累积"还得靠后续工作。


它和别的论文是什么关系

  • 直接前传:标准 BC 范式(Pomerleau 1989 的 ALVINN),这篇就是想替换掉它的输出层。
  • 直接后继Diffusion Policy(2023)——把"argmin 能量"换成"扩散去噪"。本质上扩散模型也是隐式生成动作,思路和 IBC 一脉相承,但训练更稳、效果更好。如果说 IBC 是隐式策略的开山之作,Diffusion Policy 就是把它工业化。
  • 任务对照:和 openvla 比,OpenVLA 用大语言模型直接吐离散 token 当动作;IBC 在连续动作空间用 argmin 搜索。两条不同路线——OpenVLA 押宝预训练,IBC 押宝表达形式。
  • 范式对照:和 saycan 比,SayCan 是高层任务规划("先抓杯子,再倒水");IBC 是底层动作生成("机械臂下一时刻怎么动")。完全不同的层级,但 SayCan 给出的子任务最终需要 IBC/Diffusion Policy 这种底层策略来执行。
  • 同期对照:CQL、S4RL 这些离线 RL 用奖励信号;IBC 不用奖励却能打平。这件事让"行为克隆已死"的舆论被反转——只要表达形式选对,BC 一点也不弱。

所以这一节是想说:IBC 是从行为克隆到 Diffusion Policy 之间最关键的中间站,定义了"隐式策略"这条路线。


我建议这样读这篇

零基础读者不要从头读到尾。建议这样走:

  1. 读 Section 1 引言 + 看 Fig. 1(5 分钟):明确"argmin E(o,a) vs F(o)"这一行核心改动。
  2. 读 Section 3 Intriguing Properties + 看 Fig. 2、3(15 分钟):这是这篇论文的"灵魂图"——直观看到 EBM 怎么处理不连续和多答案,MSE 怎么翻车。
  3. 跳过 Section 2 公式细节(除非你想自己实现):知道"用 InfoNCE 训练能量函数 + 三种推理搜索方法"就够了。
  4. 快速扫 Section 4 实验(10 分钟):重点看 Table 6 真机结果——1mm 插入任务的 83% vs 7% 是这篇最有说服力的数字。
  5. 理论部分(Section 5)有兴趣再读:知道"argmin 连续函数能表达不连续函数"这一个结论就够了,证明在附录。
  6. 附录里挑你关心的看:尤其是三种推理方法的对比(采样 vs 坐标下降 vs Langevin),实战里要选哪种。

读完这 6 步大约 40-60 分钟,能在和别人讨论模仿学习时报出 IBC 的核心论点。

所以这一节是想说:这篇精华在 Section 3 的图和 Table 6 的真机数字,理论和公式可以略读。


一些好奇心问答

Q1:argmin 推理那么贵,真的能在真机 5 Hz 跑吗?

可以。论文用的是无导数采样,每步采 16,384 个动作并行算能量,在单 GPU 上 5 Hz 没问题。如果是 100 Hz 控制的任务,可能要换成更便宜的方法(比如 Langevin 少几步)或者预计算缓存。

Q2:负例怎么采样?随便撒就行吗?

随便撒确实是基线方法(在动作空间均匀采样)。论文还试了"环绕正例的局部采样"和"上一轮搜索结果的负例"等花样。负例质量直接影响训练效果——这是 EBM 训练的"手艺活"部分。

Q3:MDN 也能处理多答案,凭什么 EBM 更好?

MDN 假设答案是"几个高斯的混合",每个高斯都是连续光滑的。当真实分布有不连续(如接触瞬间),MDN 仍然要在两个动作模式之间画一条平滑的过渡——治标不治本。EBM 直接用神经网络拟合任意能量曲面,没这个限制。

Q4:为什么不连续这么难?我直觉觉得网络可以学陡变啊。

可以,但需要很大的梯度。学一条几乎垂直的曲线,相当于让网络的权重数值巨大,训练时数值不稳定,泛化也差。隐式模型的好处是能量函数不需要陡变,陡变发生在 argmin 这一步——argmin 本身就是一个不连续操作。

Q5:Langevin 那种带梯度的方法不是更现代吗?为啥论文还推荐采样?

Langevin 需要训练时加 gradient penalty 保持能量光滑,超参数比无导数采样多。论文实测发现,低维任务无导数采样又快又稳;只有高维任务(比如 D4RL 的 30D 灵巧手)Langevin 才显出优势。

Q6:这篇和 Diffusion Policy 啥关系?

Diffusion Policy(2023)也是隐式生成动作,但用扩散模型代替 EBM。优点:训练更稳、生成效果更好;缺点:推理时要做几十步去噪,比 IBC 更慢。可以理解为 IBC 是"用 argmin 搜索",Diffusion Policy 是"用去噪生成",殊途同归。

Q7:D4RL 任务上 BC 居然比 CQL 强,这正常吗?

是的,这一发现把整个离线 RL 圈震了一下。论文说得很委婉:"BC 的简洁性可能被低估了"。后续好几篇论文跟进确认:在高质量 demo 上,BC + 好的表达形式(EBM、Diffusion)确实可以打过用奖励的离线 RL。

Q8:我能在自己电脑上跑吗?

模拟环境(D4RL、PyBullet)可以,单 GPU 即可。真机部分需要 xArm6 + 工作台 + RGB 相机,硬件成本约 $10–15K,不是个人玩具,但实验室能上。代码作者后来开源了。

所以这一节是想说:实操问题(推不推得动、调不调得稳、能不能复现)作者给的答案是"勉强可以但有手艺成分"。


如果你想再深入

按"前传 → 同期对手 → 续作 → 衍生方向"四类排序:

  1. 前传:LeCun 的 EBM tutorial(2006) — 能量模型的祖师爷文。读完能搞清"EBM 不是某种特定网络结构,而是一种损失函数视角"。
  2. 同期对手:D4RL benchmark(Fu et al. 2020) — 离线 RL 的标准考场,IBC 在它的 human-expert 子集上和 CQL/S4RL 正面对比。读完能搞清"演示数据 + 奖励数据"两类范式的差别。
  3. 续作:Diffusion Policy(Chi et al. 2023) — 同思路的强化版。把 argmin EBM 换成扩散去噪,训练更稳、性能更好,目前是模仿学习的事实标准。强烈推荐紧跟着这篇读。
  4. 衍生:3D Diffuser Actor / RDT(2024) — 把 Diffusion Policy 扩展到 3D 点云、双臂操作、多任务等更复杂场景。
  5. 理论延伸:Cybenko 1989 的万能逼近定理 — 神经网络逼近能力的"祖宗定理"。IBC Section 5 的两个定理是它的隐式版本,读完能理解"为什么 argmin 神经网络比直接神经网络更能表达不连续"。

所以这一节是想说:IBC → Diffusion Policy → 3D Diffuser Actor 三篇连起来读,就是 2021–2024 模仿学习底层策略发展史。


最后一个画面

想象机器人面前有一个蓝色方块和一个 1mm 公差的插槽。MSE 训练的策略推过去——一推就过头,方块滑出去;再回来,又过头;反复几次后超时失败。

换成 IBC——机器人推到接触瞬间,能量函数突然在"立刻停下"这个动作上变得最低,机器人立刻收手;微调几下,方块咔哒一声卡进去。

成功率从 7% 跳到 83%,靠的不是更好的视觉、不是更多数据、不是更大模型——而是把"输出动作"换成了"打分挑动作"。

这就是 IBC 想让你看到的事:有时候表达形式本身就是天花板

所以最后一节是想说:选对表达形式,比堆数据堆模型更能解决精细操作任务——这是这篇论文留给具身 AI 的最重要遗产。

引用本笔记 / Cite this note
BibTeX
@online{eai_ibc_2026,
  title       = {(readable note) Implicit Behavioral Cloning},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2021 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/ibc/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim