回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
RF Perception & Mapping · Plate Nº 10

mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation

16 min read · 5693 字 · ⭐⭐⭐⭐ · auto 摘要

这是机器辅助生成的客观摘要笔记。基于完整论文 PDF 整理。面向读者重写。

一句话讲什么(TL;DR)

不直接问"东西在哪儿",而是先猜"它的皮朝哪边翘"——雷达就能隔着纸箱看出里面是什么形状。

所以这一节是想说:换一个提问方式,老硬件也能做到新效果。


这是个什么场景

双十一你抢到一台电钻,快递盒还没拆。你掂了掂——想知道把手朝哪边、有没有磕碰、电池装没装。可是:

  • 摄像头不行:盒子不透明,眼睛抓瞎。
  • 拆开再封回去:胶带封不平,强迫症发作。
  • 拉去医院做 X 光:贵、辐射、保安会拦你。

机器人在仓库里也会遇到一模一样的窘境:货架上几百个盒子,里面到底是螺丝刀还是扳手?姿态又是怎么躺的?人没法一个个拆。

有没有一种"便宜、安全、又能穿透薄壳"的办法?有——毫米波雷达

毫米波雷达(mmWave Radar):发射一种波长只有几毫米的电磁波(频率 77 GHz 上下)。和蝙蝠靠超声波回声判断前方有没有墙是同一个套路,只是把声音换成了电磁波。它能轻松穿过纸板、布、薄塑料这些遮挡物。

这篇论文要做的事就一句话:给机器人一台便宜的毫米波雷达,让它隔着包装看清盒子里那件东西长什么样

应用场景举例:

  • 仓库机械臂:闭着眼伸手进盒子里抓螺丝刀。
  • 扫地机器人:知道沙发底下是袜子还是充电线。
  • AR 眼镜:让你"看穿"被布盖住的东西。
  • 机场安检:比 X 光机便宜、又没辐射风险。

所以这一节是想说:我们想要一种便宜、安全、能穿透薄遮挡物的"看见"工具。


mmNorm — 场景示意:这论文要解决的现实问题
Plate Nº ImmNorm — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

之前这个领域的主流做法叫 反向投影(backprojection)。直觉上就是:

  • 雷达对着场景扫一圈,每个位置都收到一些回波。
  • 把回波"按光线方向倒推回去",看每一小格空间累计收到了多少能量。
  • 能量超过门槛的格子,就被当成"这里有物体"。

体素(voxel):3D 版的像素。可以想象成把空间用一堆小立方体(像乐高积木)填满,每块小立方体就是一个体素。

然后问题就来了:

  • 分辨率太糊:民用毫米波雷达的"看远近的精度"大概只有 4 cm。也就是说,一个真实只有 5 cm 厚的杯子,被它"看到"的厚度可能像 10 cm。
  • 重建出的形状像一团云:糊到机器人根本分不清"哪边是杯口、哪边是杯把"。
  • 想提高精度只能换更宽的频段:> 10 GHz 那种带宽的雷达,民用拿不到,是政府或军队专属。
  • 不是硬件不够好,而是用法不对:硬件已经摆在那,问题出在算法。

所以这一节是想说:旧方法把"找东西"当成"找在哪些格子里有能量"——可惜这种问法在 4 cm 精度下注定糊成一团。


这篇论文的新想法

类比:你在雾里画猫。硬猜"猫身上每一点在哪",画出来是一团毛球;改成先猜"每根猫毛朝哪边竖",把方向画对,猫的轮廓自己就浮出来了。

不去问"哪里有东西",而去问"东西的表面朝哪个方向"。把"定位置"翻译成"估朝向",剩下的几何问题就好办了。

所以这一节是想说:换问题,比换硬件更有效。


它分几步做的(方法)

整个流程分三大步,外加一步"复杂物体怎么处理"。先看一张总览图:

mmWave 表面法向估计的投票机制
Plate Nº IImmWave 表面法向估计的投票机制

1. 让所有雷达位置"投票",估出表面朝向

类比:上课老师问"答案是 A 还是 B",每个同学举一只手投票。每个雷达位置就是一个同学,它投的是"这个表面朝我这个方向"。所有同学的票汇总起来,就能选出最可能的方向。

它在干什么

  • 机械臂拖着雷达走过一片 60 cm × 45 cm 的区域,沿途采了很多次回波。
  • 对空间里的每一个小格子(体素),都问一句"这一点的表面朝哪?"
  • 答案来自一个物理事实——镜面反射

镜面反射(specular reflection):和浴室镜子一样。手电筒只有正对镜子时才会有强反光,斜着照基本不反。毫米波在大多数物体表面也有这个特点。

法向(surface normal):垂直于表面那根朝外的箭头。可以想象皮肤上每一个毛孔伸出的一根毛——这根毛指向哪,就是这一小块表面朝哪。

物理事实告诉我们:哪个雷达位置收到的回波最强,那一小块表面的"毛"就最可能指向那个雷达。

关键术语解释

合成孔径雷达(Synthetic Aperture Radar,SAR):把一个小雷达拖着走一大片,等价于一个超大的天线。类比"用手机拍全景"——你边走边拍多张普通照片,软件帮你拼成一张超广角。

复数信号 / IQ 信号:雷达收到的不是一个普通数字,而是一个"既有大小、又有方向"的箭头。可以把它画在一张二维平面上,用向量表示。

怎么投票(高中向量版)

  • 对每个体素 v,每个雷达位置 j:先画一根从 v 指向 j 的单位向量(高中里"单位向量"就是长度为 1 的箭头)。这是一根候选方向
  • 然后给这根候选方向配一个票权:这个雷达位置收到的回波有多"主流"?
  • 最后把所有候选方向按票权加权求和,得到这一点的"最终朝向"。

票权怎么算(用向量内积的语言)

  • 把所有雷达位置的回波画成一堆向量,加起来得到一个"总向量" S。
  • 单个雷达位置的回波向量 I_j 和总向量 S 算内积——内积大说明"它和大家方向一致",票权就高。
  • 高中学过:两个向量内积越大,说明它们越同向。这里就是这个意思。

读到这里你应该懂了:这一步是把"信号"翻译成"每个体素朝哪"的一张 3D 朝向地图

所以这一节是想说:信号最强的那个方向,就是表面"对着"的方向;多个雷达位置投票后,朝向地图就出来了。

表面法向估计流程图
Plate Nº III表面法向估计流程图

2. 从"朝向地图"反推"具体形状"

类比:等高线图只告诉你"地形在这里有多陡、坡朝哪",并没有直接告诉你"这一点的海拔是多少"。同一片坡度,可能整体抬高 100 米也可能压低 100 米。

它在干什么:从一片"朝向地图"反推"表面究竟在哪条线上"。

先解释两个新概念

有符号距离函数(SDF, Signed Distance Function):一个 3D 函数。空间中每一点的值 = 这一点到最近表面的距离。在物体外面取正、里面取负、表面上取 0。类比 GPS 给你"到最近海岸线还有多远",正数代表你在陆地,负数代表你已经下海了。

等值面(isosurface):函数取相同值的那些点连成的面。例如把所有"SDF = 0"的点连起来,就是物体表面。类比 3D 版的等高线。

问题是——我们要解的就是"表面在哪",但 SDF 又依赖"表面在哪"才能定义,是个先有鸡还是先有蛋的死循环。

论文的巧解:定义一个相对版的 SDF(RSDF, Relative SDF)

  • 选一个起点格子 v₀,规定它的 RSDF 值 = 0。
  • 对其它每个格子 v,从 v₀ 走到 v 的路上,每走一步就问:"我这一步的方向,跟这一点的法向夹角多大?"
  • 用向量内积算每一步的"得分",全部累加就得到 v 的 RSDF。
  • 如果这一步是"顺着法向走"(夹角小、内积大),相对深度增加快;如果是"沿着表面走"(夹角接近 90°、内积接近 0),相对深度几乎不变。

最后得到的 RSDF 长得几乎像真的 SDF,只是整体差一个未知常数 C。也就是说真表面是 RSDF 的某一条等值面,只是不知道具体是 C 等于几那条。

读到这里你应该懂了:这一步把"无数种可能的表面"压缩成了"一族平行的候选表面 + 一个未知常数 C"。下一步只要挑出对的 C 就行。

为什么这步有用:把一个看起来无解的反演问题,浓缩成"在一族候选里挑一条",问题维度从无穷掉到一维,太香了。

所以这一节是想说:朝向地图不能直接告诉你形状,但可以告诉你"形状大约长这样、只差一个上下平移",剩下就是确定上下挪多少。

连通分量分离 + 每块独立 RSDF
Plate Nº IV连通分量分离 + 每块独立 RSDF

3. 用"假设 + 模拟 + 对答案"挑出真表面

类比:物理课做选择题,四个选项不知道哪个对,就把每个选项代回原题验算一下,哪个验算结果最贴合就选哪个。

它在干什么

  • 候选表面有很多条(C 取不同值时是不同的等值面)。
  • 假设其中一条是真的,用电磁学公式正向算"如果真表面就长这样、雷达就该收到什么样的回波"
  • 把模拟出来的回波和实际收到的回波比一比。
  • 哪条候选误差最小,就选哪条。

关键术语解释

光线追踪(ray tracing):游戏里渲染光照常用的算法。从光源射出一束束光线,一根根追踪它们碰到物体后怎么反射。在这里我们用它模拟"雷达发出的电磁波碰到表面后怎么回来"。

频谱(spectrum)/ 傅里叶变换(FFT):傅里叶变换可以把一段随时间变化的信号拆成"它由哪些频率成分组成"。雷达里有个特点:信号频率和距离一一对应,所以比频谱差就等价于比距离差

路径损耗(path loss):电磁波越远能量越弱,跟距离平方成反比。和声音越远越小听不清是一个道理。

代价函数 / 误差总和(loss):考试里的"扣分总和"。这里就是"模拟回波 vs 实际回波"差多少。值越小,说明这条候选表面越接近真相。算法的目标是把这个分降到最低。

为什么这步有用:第二步只能告诉你"表面是某一条等值面",但具体哪一条还没定下来。这一步用物理模拟"对答案",把最后那个 C 值定死。

读到这里你应该懂了:这一步是用真实物理把候选表面挨个验算,挑误差最小那条做最终结果

所以这一节是想说:方法没用神经网络,纯物理模拟"如果是这样会观察到什么",然后跟实际观察对比。


4. 复杂物体怎么办:先切块,再各算各的

类比:考试做大题,要先把一个复杂题分成几个子问题,分别解决再拼起来。

它在干什么:像马克杯(杯身 + 把手)这种有多个分离表面的物体,朝向地图在两块之间会出现"断点"。如果硬当一块整体来反推,会把好的部分也带歪。

处理三步走:

  • 先把雷达图二值化(阈值之上是 1、之下是 0)。
  • 连通分量:地图里相邻 1 像素连成的一块块区域。

连通分量分析(connected component analysis):在一张二值图上找"哪些 1 像素是粘在一起的"。类比一张地图上把同一个国家的领土圈出来——同色相邻的就算一国。

  • 每块单独跑前面的反演 + 优化,最后把各块的结果拼回来。

读到这里你应该懂了:对于多块表面的物体,先分组再各自处理;这一步保证算法不会被复杂结构整体拖垮

所以这一节是想说:复杂物体先切块再处理,避免一锅粥。


mmNorm — 方法示意:核心 pipeline
Plate Nº VmmNorm — 方法示意:核心 pipeline

关键数字(What works)

论文用 YCB(Yale-CMU-Berkeley)日用物品集 里的 61 件物品,每件做"看得见"和"被纸板盖住看不见"两组实验,共 116 次。

3D F-Score 对比
Plate Nº VI3D F-Score 对比

F-Score(F 分数):一个综合的"重建得分",1.0 = 满分,越接近 1 越好。可以理解成"考试既要做对的多,也要别瞎写多",两种错误一起惩罚。

数字一:F-Score 96% vs 78% / 72%

  • mmNorm 拿到 96%
  • 旧方法(干涉法、反向投影)只有 78% 和 72%
  • 生活语言:旧方法重建出来"勉强能看出是个杯子";新方法重建出来"杯把和杯口的弧度都对得上"。

数字二:85% 的点贴合到位(旧方法只有 44%)

  • mmNorm 重建出的点云里,85% 的点位置误差小于物体本身尺寸的 5%
  • 旧方法只有约 44%——也就是一半多的点是飘出去的。
  • 生活语言:机械臂去抓东西,绝大多数表面点都贴在真实物体上,抓取规划才有可能成功。

数字三:朝向估计的余弦相似度中位数 0.99

余弦相似度(cosine similarity):衡量两个向量方向有多接近的指标,1 = 完全同向、0 = 垂直、-1 = 反向。高中向量学过两个向量夹角的余弦——就是这个东西。

  • mmNorm 朝向估得特别准,中位数 0.99。
  • 旧方法只能到 0.54(反向投影)和 0.66(干涉法)。
  • 生活语言:表面那根"毛"指向几乎完美。
法向估计准确度 CDF:mmNorm 0.99 vs 基线 0.54
Plate Nº VII法向估计准确度 CDF:mmNorm 0.99 vs 基线 0.54

数字四:被纸板盖住后基本不掉精度

  • 不挡住时点位中位误差 0.39 cm
  • 盖一层纸板后 0.43 cm
  • 生活语言:很多"穿墙感知"研究在被遮挡情况下精度会掉一大截,这篇几乎没掉。

数字五:消融实验告诉你"优化"那一步贡献了 3 倍精度

  • 不做第三步,只用第二步选中线:误差 1.6 cm。
  • 完整方法:误差 0.4 cm
  • 生活语言:第三步那个"对答案"过程是论文最后一根支柱,去掉就垮。

数字六:硬件成本约 200 美元的雷达,做出了 4 GHz 带宽下的最优

  • 对比的高分辨率雷达需要 > 10 GHz 带宽(民用买不到)。
  • mmNorm 用 200 美元的 TI 商用雷达,靠算法补硬件。
  • 生活语言:靠想法压过靠堆钱。

所以这一节是想说:在民用便宜雷达上拿到了过去要军用级硬件才能拿到的精度。


你应该懂的几个新词

毫米波雷达(mmWave Radar):波长几毫米的电磁波雷达,能穿薄遮挡物。类比"高频版蝙蝠回声定位"。

合成孔径雷达(SAR):让小雷达拖着走一大片,效果等于一个超大天线。类比手机拍全景。

体素(voxel):3D 版像素,把空间切成的小立方体。类比乐高积木堆出来的世界。

法向(surface normal):垂直于表面那个朝外的箭头。类比皮肤上一根根毛。

镜面反射(specular reflection):入射角 = 反射角。类比浴室镜子打灯,只有正对才反光。

有符号距离函数(SDF):3D 函数,每点值 = 到最近表面的距离,外正内负。类比 GPS 给你到海岸的距离。

等值面(isosurface):3D 函数取相同值的那些点连成的面。类比 3D 版等高线。

F-Score:综合形状重建得分,1.0 满分。类比考试综合得分。

FMCW(调频连续波):雷达不发短脉冲、而是连续发"频率随时间变"的信号。类比一边发声一边滑哨子,听回声哪段最响就知道目标多远。

余弦相似度:两个向量方向接近度,1 完全同向。高中向量直接讲过。

连通分量分析:在二值图上找相邻 1 像素粘成一块的区域。类比在地图上把同一个国家圈出来。

路径损耗:电磁波或声波随距离增加越来越弱,距离平方反比。类比声音越远越小。

所以这一节是想说:把这 12 个词记住,再看论文不会被英文术语吓跑。


它有什么搞不定的

论文老老实实给了几种失败例子:

mmNorm 三种典型失败:空心 / 视场外 / 锐边过渡
Plate Nº VIIImmNorm 三种典型失败:空心 / 视场外 / 锐边过渡
  • 空心物体:比如空纸盒。雷达信号会同时打到顶面和底面,但算法只能给每块输出一条等值面——结果重建落在两面之间,哪面都没对上。实际遇到:纸盒、薄壁水瓶不行。
  • 覆盖范围不够:比如一个圆球,球的赤道部分朝向是横着指出去的,根本没有任何雷达扫到那个方向。实际遇到:圆球只能重建出顶半球,下半球完全缺失。
  • 锐边过渡丢失:比如芥末瓶身和瓶盖那条 90° 的折痕。瓶身重建得对、瓶盖重建得对,但中间的尖锐过渡被"圆滑"掉了。
  • 金属遮挡完全失效:毫米波穿不过金属。想看穿铁皮工具箱?做不到。
  • 采集 + 计算时间长:扫一片 60×45 cm 的区域要几分钟(雷达要慢慢爬),算一次要 GPU 跑分钟级——离实时还很远。
  • 依赖机械臂的精确运动:算法假设知道每个雷达位置在哪,机械臂晃一下精度就掉。

所以这一节是想说:方法不是万能的,纸壳能穿、金属穿不过;薄壳容器、奇形怪状的边角还有路要走。


它和别的几篇是什么关系

可以用三个集合圈来看(圆圈代表不同的射频感知能力):

  • mmNorm(这篇):管"被遮挡的物体长什么样"。形状层
  • RF-SLAM:管"机器人自己在哪、整个房间地图什么样"。位置层
  • mmCLIP:管"看到的东西是什么"(杯子?电钻?)。语义层

时间线:先有 RF-SLAM 类工作(位置),后有 mmCLIP 类工作(语义),mmNorm 是最近补上"形状"这一块。

因果链:

  • RF-SLAM 告诉机器人"我在仓库 3 号货架前面"。
  • mmCLIP 告诉机器人"前面货架的盒子里大概率是螺丝刀"。
  • mmNorm 告诉机器人"螺丝刀的把手朝左 30° 倾斜"。
  • 三层叠起来,机器人才能伸手进去抓对。

特别地,mmNorm 走的是纯物理建模 + 优化,不用神经网络;mmCLIP 走的是学习模型路线。两者范式正好对偶,组合起来很互补。

所以这一节是想说:mmNorm 不是孤立的一篇,它正好补齐了射频感知"位置 / 形状 / 语义"三层里"形状"这一块。


我建议这样读这篇

总共大约 90 分钟,跳过繁琐推导:

  1. 读 Abstract + Section 1(15 分钟):搞清楚"为什么旧方法不行 / 新想法是什么"。
  2. 看 Figure 1 和 Figure 2(10 分钟):Figure 1 一眼看出"糊 vs 准"的对比;Figure 2 是整套方法的结构图。
  3. 跳读 Section 2(朝向估计)(15 分钟):理解"投票"那个直觉就够,公式可以先跳。
  4. 重点看 Section 3(20 分钟):RSDF 是论文最巧妙的地方,必看。
  5. 跳过 Section 4 公式细节,看 Section 6 实验(20 分钟):F-Score 和余弦相似度那两张图是硬证据。
  6. 可选:扫 Section 7 相关工作(10 分钟):把 mmNorm 放进研究脉络里。

如果只有 30 分钟:第 1、2、5 步就够了。

所以这一节是想说:先抓骨架,再抓巧妙之处,最后看实验数字——不要从头读到尾。


一些好奇心问答(FAQ)

Q1:这模型多大?我的电脑能跑吗?

A:这不是神经网络,没有"参数量"。它是 GPU 加速的传统信号处理 + 优化算法。论文用的是 8 年前的 GTX 1080。现在主流游戏卡(比如 RTX 4070)跑会快很多。

Q2:训练要多久?

A:完全不用训练。这是它相对深度学习路线的最大优势——不用任何标注数据、不挑物体类型、即装即用。

Q3:数据集在哪下?

A:YCB 物品集在 ycbbenchmarks.com 公开下载,免费用。论文自己采的雷达数据 + 代码在 GitHub 的 signalkinetics/mmNorm 仓库。

Q4:为什么不用更简单的办法、直接用更宽频段的雷达?

A:> 10 GHz 带宽的雷达民用拿不到,是政府或军队专属。所以瓶颈是法律 / 成本,不是物理。论文的贡献正是在民用 4 GHz 带宽下做出了过去要军用级才能做出的效果。

Q5:硬件成本多少?

A:商用毫米波雷达约 200 美元,数据采集板约 600 美元,深度相机约 200 美元;最贵的是机械臂(UR5e 工业级约 4 万美元,但便宜的 6 自由度臂约 1500 美元也能凑合)。

Q6:扫一次要多久?能边走边扫吗?

A:单次扫 60×45 cm 区域要几分钟(雷达走得很慢,0.1 m/s)。离实时还很远。机场那种集成式毫米波扫描仪几秒就能扫完,但带宽更大。

Q7:能在墙后看人吗?

A:可以穿薄墙(石膏板、纸板、布、薄塑料),不能穿金属(铝箔、铁皮)和厚混凝土。

Q8:为什么强调"不用神经网络"?

A:一是免去标注数据和训练;二是不挑物体类别(学习方法通常只能在训练过的类别上跑得好);三是有严格物理可解释性。这种"老物理 + 新算法"的工作在工程界也很受欢迎,因为可以预测它在哪些场景一定能成、哪些一定失败。

所以这一节是想说:硬件便宜、不用训练、不挑类别——这是 mmNorm 的三个甜点。


如果你想再深入

按从浅到深排:

  1. Figure 2 + Section 1:先把整套方法的流程图看 5 遍。
  2. YCB 物品集官网(ycbbenchmarks.com):看一眼"机器人圈用什么物品做基准测试",建立直觉。
  3. 任何一篇 backprojection 入门博客:搞懂"反向投影"在做什么,才能体会 mmNorm 为什么换路线。
  4. MIT Signal Kinetics 实验室主页:这篇作者所在的组,做了一系列"用射频信号做精细感知"的工作,方法论一脉相承。
  5. mmNorm GitHub 官方仓库(signalkinetics/mmNorm):想真正理解每一步在干什么,最好读读代码(论文 §1 末尾给了链接)。

所以这一节是想说:从"图 + 直觉"开始,最后才碰公式和代码。

引用本笔记 / Cite this note
BibTeX
@online{eai_nlos_mmwave_2026,
  title       = {(readable note) mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/nlos-mmwave/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim