Creating speech zones with self-distributing acoustic swarms
本笔记面向读者,原文事实保留,但语言全部用初高中常识重写。
一句话讲什么(TL;DR)
七个像骰子那么大的小机器人,自己爬上桌散成一圈,桌上几个人同时讲话,它能分清谁说了啥。
所以这一节是想说:这是一群自动布阵的小麦克风机器人。
这是个什么场景
周末聚餐,一桌六个人围着火锅,姑姑在跟你妈聊孩子,舅舅在讲股票,小表弟在抢虾滑——三波话同时在飞。
你掏出手机想给奶奶录一段,回放时只剩一锅"嗡嗡嗡",连自己说的那句"干杯"都挑不出来。原因很简单:手机就一只耳朵,蹲在桌中央,谁声音大就先盖过谁,它分不清"对面那位"和"左手边那位"是两个不同的人。
那人为什么能分清?因为你有两只耳朵,左右隔着十几厘米。同一个声音先到左耳、再到右耳,两边差那么一丁点时间,大脑就能反推出"声音从左前方来"。麦克风也一样——只要把好几只麦克风摆得离得远,就能靠"时间差"把不同方向的人拆开。
麦克风阵列张开尺度(aperture,光圈/张开度):一组麦克风里最远那两只之间的距离。类比相机光圈——开得越大,看得越清楚。
问题是,谁会在火锅桌上摆 7 只麦克风、量好坐标、再扯一堆线连到电脑?这事得让它自己去办。
所以这一节是想说:单麦克风分不清多人说话;要分清就要把麦克风摆远,但人手摆不现实。

之前的人怎么做的,为什么不够好
之前学界有一群做"小机器人群"的工作,但都被某些条件卡死:
- 靠头顶摄像头定位:要在天花板上装相机看着机器人。类比体育馆的鹰眼系统——离开体育馆就没法用。
- 靠投影仪打条纹:要往桌上投特殊图案,机器人靠看图案知道自己在哪。类比舞台灯光——撤了灯演员就摸瞎。
- 靠红外测距:机器人之间发红外光测距,但只能在 10 厘米内有效。类比近视眼——超过一臂长就什么都看不清。
- 靠惯性传感器自己估算:机器人靠"我向前走了几下"来推位置。类比闭着眼走路——走十步还行,走五十步就偏到墙角去了。
- 没有任何一个能同时做到三件事:自己散开 + 厘米级精度 + 多人语音分离。
所以这一节是想说:以前的方法要么靠外部设备,要么测距太短,要么会漂移,没人三件事一起做到。
这篇论文的新想法
类比一下:你做饭时让小米的扫地机器人自己出基站、绕家一圈、回基站充电——它知道自己走过哪。这篇做的是同款故事,只不过主角换成"会爬桌的小麦克风"。
具体说:七个厘米级的小机器人从底座自己爬上桌散开,互相**用声波"喊一嗓子算时间差"**反推彼此坐标,然后整个桌面就成了一张大麦克风网,开始听人说话。
一句话:**机器人自己当摆放工,把麦克风阵列在桌上铺开。**没有头顶相机、没有投影仪、没有人帮忙摆。
所以这一节是想说:机器人自己布阵,不靠任何外部设备。
它分几步做的(方法)
整个流程像七个小演员演一出戏:从化妆间排好队 → 一个个上台站位 → 报告各自坐标 → 开始听观众说话 → 结束后回化妆间充电。
1. 用声音测距离
类比:打雷数秒数。闪电一闪,你默数"1001、1002",三秒就是声音飞了一公里。
它在干什么:让七个机器人之间能两两知道"我离你多远"。一个机器人发声,另一个记下"什么时候听到的",乘上声速 343 米每秒就是距离。
用了什么术语:
chirp(扫频音):一段几毫秒长的声音,频率从低到高滑动,像警车鸣笛由低变高。
超声波:人耳听不到的高频声音(一般 20 千赫兹以上)。这里用 62.5 千赫兹采样,所以不会打扰说话的人。
为什么用 chirp 而不是普通"嘀"一声:屋里有回声,普通蜂鸣会和回声糊在一起分不清谁先到。chirp 因为频率在变,电脑可以用一种叫"匹配滤波"的算法精确锁定原始声音的"首达时间"——这个原理和雷达完全一样。
关键数字:
- 时间精度:16 微秒(一百万分之十六秒)
- 距离精度:5 毫米
为什么这步有用:所有后续定位都建立在两两距离之上。这一步要是塌了,整个系统都白搭。
所以这一节是想说:用扫频超声波算两两距离,精度毫米级。
2. 把"两两距离"变成"绝对坐标"
类比:先在已知刻度的尺子上读数,再三角测量。你拿一把贴着墙的尺子读自己离墙多远,比你拿两根没刻度的木棍互相比划要准得多。
它在干什么:光知道"A 离 B 30 cm,A 离 C 40 cm,B 离 C 50 cm"还不够——这没告诉你 A 在桌子的哪个角。而且这套距离数据有两个数学歧义:
- 整体平移:所有点同时往右挪 5 cm,距离全都不变。
- 镜像翻转:把整张图沿一条线翻过来,距离也全都不变(就像把一张照片左右镜像,里面的人之间的距离一点没变)。
要解决这两个歧义,得先有几个"已知坐标的锚点"。
关键步骤:
- 底座里留一个机器人,它沿着底座上的轨道滑动,每滑到一个已知坐标的小标记(论文叫 checkpoint)就发一次 chirp。
- 外面的机器人记下到每个标记的距离。这相当于有了好几个"虚拟坐标尺"。
- 外面的机器人之间再轮流发 chirp,互相补测距离。
- 把所有距离喂进一个数学求解器,反推每台外部机器人的 (x, y) 坐标。
为什么需要轨道上的多个标记? 因为它们在一条直线上、坐标已知——这条线就破了"镜像翻转"的歧义(翻过去那条线会跑到错位置),也破了"平移"歧义(坐标已知就有原点)。
关键数字:
- 1D 测距精度:中位数 0.45–0.48 cm(比一颗黄豆还小)
- 2D 定位精度:中位数 0.37–0.38 cm
- 桌面尺寸从 1.2m 到 1.8m,精度几乎不变
所以这一节是想说:用底座轨道当"已知刻度尺",把一堆距离反推出每台机器人的坐标。
3. 让机器人自己散开
类比:切披萨。机器人从底座出来后按等分角度往外扩,像从披萨中心切几刀。
它在干什么:让 N 个机器人在不知道桌子形状、不知道桌上有什么物体的情况下,最大化最终的张开尺度(也就是 aperture 越大越好)。
三个阶段:
阶段 a:底座里排队
- 机器人初始顺序是乱的。
- 让一台往前推,它会撞到前面那台(机器人靠加速度的瞬时尖峰判断"撞到了")。多次这样的"碰撞实验"加上轨道两端的标记识别,反推出底座里的顺序。
阶段 b:分配出走方向
- 把 360° 等分成 N-1 份,每台机器人分一个角度。
- 但前一半机器人需要先绕过底座本身才能往后散开。这里用 A* 算法 在网格上算出绕路。
A* 算法:一种"导航软件式"的找最短路。它对每条路打分(已经走了多少 + 还要走多少),优先尝试分数最低的那条。类比手机地图的"绕路最短路线"。
阶段 c:边走边躲
- 怎么知道桌沿到了:机器人底部有一对光电对管——一个朝下打红外光、一个接收。桌面在的时候光会反射回来,悬空就反射不回来(像汽车倒车雷达,但用红外光代替声波)。
- 怎么知道撞到东西:撞到杯子时机器人会有一个瞬时减速尖峰,超过阈值就判定撞了。
关键数字:
- 边检测最高速度:18 厘米每秒
- 散开能耗:22.3 焦耳,约 1.7% 电量
- 7 台机器人散开总时间:约 1 分 45 秒
- 桌面占用率:> 75%
为什么用"等分角度"这种朴素策略:因为机器人事先不知道桌子形状和障碍位置——任何"最优方案"都得先建图,但建图本身就要走一遍桌子。等分角度散开是"最坏情况下也凑合"的稳妥办法。
所以这一节是想说:机器人按披萨切角散开,碰沿/撞东西就停。
4. 防止机器人走偏
类比:单靠指南针走十步直线,走五十步就偏了;定期用 GPS 重新校准就能走得很远。
它在干什么:解决惯性传感器(IMU)的"积累误差"问题。
IMU(惯性测量单元):一颗能告诉机器人"自己在转"和"自己在加速"的小芯片。手机里也有,用来计步和判断方向。
只靠 IMU 推位置,传感器的小噪声会被积分放大成大漂移——陀螺仪每秒 0.1° 的漂移,30 秒后就是 3° 角度误差,对应米级位置错误。
怎么校准:
- 移动的机器人每 200 毫秒发一次 chirp。
- 留在底座的"灯塔机器人"测距。
- 把"测出来的距离"和"按 IMU 推出来的应有距离"做差,反推真实位置,纠正漂移。
为什么不用相机做 SLAM:
SLAM(同步定位与建图):机器人一边走一边画地图、一边知道自己在地图哪。常见做法是用相机看周围特征点。类比你蒙着眼摸到一个房间,靠手摸物体边缘记下房间形状。
但厘米级机器人装不下相机,下视摄像头也看不到桌面有效特征。声学测距是这个尺度下唯一可用的"绝对参考"。
所以这一节是想说:IMU 单用会漂,靠声波每 200 ms 校准一次。
5. 听人说话:先定位,再分离
到这里硬件部分搞完了——机器人会自己排队、散开、知道彼此坐标。下面是算法核心:怎么从这堆麦克风信号里抽出每个人的话。
分两步:先定位(房间里有几个人,分别坐哪),再分离(给每个人单独一份干净的语音)。
5a. 先定位
类比:用粗筛子筛沙,再用细筛过一遍。粗筛快速排除明显没东西的区域,细筛在剩下的格子里精细判断。
它在干什么:在 3D 空间里找到所有正在说话的人——既要数对人头,又要给出每个人的位置坐标,且事先不知道有几个人(这才是和大多数前作的本质区别)。
核心思路(对齐+检测):
把空间网格化(像棋盘一样切成小格子)。对每个候选格子,电脑做一件事:假设这个格子里有人在说话,那么声音从这格传到 14 个麦克风的路径会有不同长度,对应不同的"到达时间差"。
把每个麦克风的信号按这个时间差对齐回去——如果格子里真有人,对齐后所有麦克风的信号会"同步",叠加起来很响;如果格子里没人,对齐后是噪声乱叠加,叠出来很弱。
叠加后越响 = 这格越可能有人。
TDoA(Time Difference of Arrival,到达时间差):同一个声音被多个麦克风听到的时间差。类比闪电先到、雷声后到,靠时间差反推方向。
两步走:
粗筛(SRP-PHAT):
SRP-PHAT:一种经典声源定位算法。把所有麦克风信号"指向"每个候选点,算指向后的总能量,能量高就可能有人。计算便宜但分辨率粗。
它把搜索空间砍掉 200–400 倍,只留下"看起来像有人"的少数格子。
细筛(神经网络):在剩下的格子里,跑一个叫"分离网络"的程序做精细打分。
神经网络:一堆数字按特定方式连起来的"程序",输入信号经过一层层数字加权变换,输出一个判断。可以类比一台流水线机器,前面进原料,后面出成品。
U-Net:神经网络的一种"形状"。先把输入压成一个小书签,再展开回原大小,且每一层压缩和对应的展开层之间有"短路连接"保留细节。类比你做笔记——先精简到一句话,再展开成段落,但中间会回头看原稿。
Transformer:另一种神经网络结构。它的特点是处理一段序列时,可以让序列里任意两个位置"互相看一眼"。类比你读一句话时,会同时回头看前面的主语和后面的修饰词,而不是只看相邻的字。
关键技巧:
- 两级分辨率:先用大格子粗搜,留下的再分裂成小格子细搜——像拼图先粗分类再精细对接。
- 训练时随机扰动麦克风位置:故意把训练里的麦克风位置乱挪最多 2.8 cm,让网络学会容忍真实定位时的小误差。
- 去除幻影声源:屋里有回声,一个真说话人可能在网络输出上呈现为多个"幻影"。论文用聚类把相似的输出合并掉。
所以这一节是想说:把空间切成格子,对每格做"对齐 + 检测"看有没有人,先粗筛再细筛。
5b. 再分离
类比:鸡尾酒会效应。一桌人都在说话,你想听对面那位,大脑会自动把左右两人的声音"压低"。这步在数学上做的就是这件事。
它在干什么:第一阶段已经知道谁坐哪——第二阶段为每一个已定位的说话人生成一份干净的语音。
核心创新:让网络分两件事交替进行——
同一人内部:用一种叫 Conformer 的网络结构,分析这个人在时间上的语音特征。
Conformer:一个混合结构,把擅长"局部抓细节"的卷积网络和擅长"看全局关系"的 Transformer 串起来用。
不同人之间:用 Transformer 做"说话人间注意力"——让每个人的语音特征"看一眼"其他人的特征,从而识别"这段声音是不是从隔壁串过来的",把串音抑制掉。
两者交替多次,串音就被一层层压下去。
好处:网络架构和说话人数量解耦——不管 2 人还是 8 人,都用同一套网络,只是"说话人间"那一步的维度跟着 S 走。
关键数字:
- 输入采样率:48 千赫兹
- 处理片段长度:3 秒
- 麦克风总数:14(7 台机器人 × 2 麦克风)
- 小模型推理时间:1.82 秒中位数(实时)
所以这一节是想说:知道每个人坐哪后,让网络在每个人内部找规律 + 在多人之间互相压串音,输出每人一份干净语音。
6. 返航 + 充电
类比:晚上回家。早上来时记得每条街怎么走,晚上原路返回,到家门口靠路灯重新对齐。
它在干什么:电量低时让所有外部机器人回到底座充电。
关键步骤:
- 沿出来的路返回:论文做了关键假设——散开时机器人是直线走出去的,且这条路径上之后没有新放物体。所以返航不需要重新建图。
- 底座灯塔以 5 Hz 发 chirp:留在底座的机器人当灯塔,正在返航的机器人靠它做距离校准。
- **进入"安全圈"(25 cm 无障碍区)**后再做精细 2D 定位。
- 对接动作:靠近底座入口时朝向已经被 IMU 漂得不准,所以做一次直线运动 + 多次声学测量反推真实朝向,再调整。
- 依次进入底座:一台进,其他在底座里的机器人挪位置腾位,更新自己作为新的地标。
关键数字:
- 灯塔 chirp 频率:5 Hz
- 安全圈半径:25 cm
- 每台返航 + 对接耗时:40.4 ± 4.5 秒
- 满充时间:约 2.5 小时
所以这一节是想说:原路退回 + 灯塔校准 + 安全圈精定位 + 对接入坞。

关键数字(What works)
每个数字都看三件事:原文数据 + 对比基准 + 这意味着什么。
1. 1D 测距精度 0.45 cm(中位数)
- 对比:以前的小机器人群用红外测距只能在 10 cm 内有效。
- 意思:误差比一颗黄豆还小,是后面所有处理的基础。
2. 2D 定位精度 0.37 cm(中位数)
- 对比:以前要靠头顶相机才能做到,纯靠 IMU 的方案误差是米级。
- 意思:1 cm 麦克风位置误差对应大约 6 cm 语音定位误差。所以 0.4 cm 是"算法不被硬件拖后腿"的最低门槛。
3. 5 人同时说话,定位 precision/recall 都 > 89%
- 对比:以前的强基线大多要求"预先知道有几个人"。
- 意思:现实开会场景里不可能事先报数,"未知人数"是产品级必需,不是锦上添花。
4. 真实环境定位中位误差 14–15 cm
- 对比:仿真里 9–10 cm,真实环境损失约一半精度,但没崩。
- 意思:从仿真转到现实只损失一个量级,对部署是好消息。
5. 真实环境分离质量 SI-SDRi > 10 dB
SI-SDRi(伸缩不变信失真比提升):衡量分离出来的声音"纯不纯"的指标,单位 dB,越高越好。可以类比饮水机出水的纯净度提升。
- 对比:比单麦克风的 SepFormer 高 5+ dB,比 oracle 上限 IRM 高 4.8 dB。
- 意思:从"勉强分得出谁是谁"变成"像每个人单独麦克风录的"。
6. 把 7 台机器人挤在 10 cm 圆环里 → precision 71%
- 对比:散开版 89%+。
- 意思:直接证明"散开 = 大 aperture"是这套系统的核心魔法,不是神经网络本身有多神。
7. 散开能耗 22.3 J(约 1.7% 电量)
- 意思:可以反复工作几十次而不用人工充电。
所以这一节是想说:测距毫米级、定位厘米级、5 人场景准确率 > 89%,挤在一起就崩——空间分布是关键。
你应该懂的几个新词
- chirp(扫频音):频率从低到高滑动的一段声音,便于在嘈杂环境里精确测时。
- TDoA(到达时间差):同一个声音被多个麦克风听到的时间差。
- SRP-PHAT(一种声源定位算法):把虚拟麦克风指向每个候选点看哪儿能量最强。
- U-Net(一种神经网络形状):先压缩再展开,跨层有短路。
- Transformer(一种神经网络结构):让序列里任意两个位置互相看一眼。
- Conformer(卷积+Transformer 混合结构):既能抓局部细节又能看全局关系。
- SI-SDRi(信号质量指标,dB):衡量分离声音纯不纯,越高越好。
- IMU(惯性测量单元):测加速度和旋转的小芯片。
- Aperture(阵列张开尺度):麦克风之间最远距离,越大分辨率越高。
- Multipath(多径):声音经过墙、桌子反射造成多个延迟版本叠加。
- Photointerruptor(光电对管):红外发射器+接收器,靠反射探物。
- A* 算法:经典找最短路的算法。
- SOC(电池剩余电量百分比):用于决定是否返航。
- Opus Codec:一种把音频压缩得很小的开源格式,VoIP 常用。
它有什么搞不定的
实验数据里能看出几个明显的"翻车场景":
1. 人背对阵列说话(头朝向 > 135°)
- 现象:定位误差从 < 20 cm 飙到 > 50 cm。
- 原因:人后脑勺辐射的声波能量比前方低 10+ dB,高频更弱。chirp 测距用的是高频特征,吃不到就乱了。
2. 人离墙 < 60 cm 说话
- 现象:定位误差显著上升。
- 原因:墙壁反射造成强干扰,"幻影声源"聚类去重也压不住。
3. 桌子中央有大物体遮挡
- 现象:1D 测距长尾,但 2D 优化能补救。
- 边界:全员被遮挡(比如笔记本电脑横在中间)就会崩。
4. 散开后桌面状态变化
- 现象:返航假设原路无新物体——你散开后顺手放杯子,机器人撞上去就卡。
- 后续工作:截至 2024 没看到明确解决方案。
5. 底座被人挪动
- 现象:所有 2D 坐标失效,分离输出乱码。
- 边界:底座必须保持不动。
所以这一节是想说:背对阵列、靠墙、桌面被改、底座被挪都会让系统出问题。
它和别的几篇是什么关系
可以画一张集合图,分三圈:
同一个研究组的前作(Gollakota 组在听觉智能方向的连续投入)
- ClearBuds(耳机降噪):定义了"低带宽蓝牙音频流 + Opus 压缩 + 神经网络后处理"的工程范式。这篇是它的"分布式扩展版"。
- Cone of Silence:提出"用神经网络做空间感知语音分离"的雏形,是本文分离网络的直接思想前身。
- NeuralAids / Proactive Hearing:用户意图驱动的声场过滤,可以看作本文的应用层延伸。
同方向的竞争对手(机器人群文献)
- Kilobot:开山之作,但用红外测距只能 10 cm 内。这篇用声波替换了它,把工作距离推到 1+ m。
- Zooids:桌面机器人 UI,但需要顶置投影仪——正是这篇要去掉的"外部基础设施"。
互补的上层应用(VLA / 语言-动作机器人)
- 这篇是听觉感知层的工作,可以为上层的 VLA agent(语言-视觉-动作机器人)提供"听到妈妈在厨房说话"这类输入。
时间线上这篇 = 2023 年 Nature Communications,是该方向的开山级工作之一。
所以这一节是想说:同组前作 → 这篇 → 上层 VLA 应用,三层因果。
我建议这样读这篇
面向零基础的 4 步路线:
- 先看摘要 + Fig. 1(机器人长什么样)——建立物理直觉。这是个 3 cm 的小车,七颗一组蹲在桌上像七颗骰子。
- 跳到 Fig. 2 看 2D 定位流程,配合"Acoustic swarm localization"一节读——这是论文最核心的工程贡献。
- 跳到 Fig. 5 + "Speech separation and 2D localization"——抓住"先粗筛 SRP-PHAT 再细筛神经网络"这个两阶段思想就抓住了 80%。
- 看 Fig. 6 + Fig. 8 实验结果——仿真证明算法上限,真实证明能落地,就知道边界在哪了。
可以跳过:Methods 里的网络细节、Supplementary 的硬件清单——除非要复现,否则是工程附录。
所以这一节是想说:先看硬件长相,再看 2D 定位,再看分离算法,最后看实验。
一些好奇心问答(FAQ)
Q1:这个模型多大?我的电脑跑得动吗?
- 论文没说参数量。按 U-Net + Transformer 的典型配置估计在几十 M 到 100 M 参数级别(M = 百万)。一般家用显卡(比如 RTX 4070,12 GB 显存)推理肯定够。
- 但真正的瓶颈不是显卡,是那 7 台带 chirp 的机器人——没有就只能跑算法部分。
Q2:训练数据从哪来?
- 训练全用合成数据:用电脑模拟一个虚拟房间,把公开语音数据集(LibriSpeech、VCTK 这类)随机放在房间里不同位置,模拟反射后叠加,得到 14 通道混合信号。
- 真实测试数据没公开(涉及参与者隐私授权)。
Q3:代码开源吗?
- 论文是 2023 年 Nature Communications 发表,作者是华盛顿大学 Shyamnath Gollakota 组。算法代码可能开源,但硬件 BOM/PCB 文件不一定全公开——这种软硬一体工作的复现门槛极高。
Q4:推理一次要多久?能实时吗?
- 处理 3 秒音频:小模型 1.82 秒中位数(能实时),大模型 > 3 秒(不能实时)。
- 这是单 GPU 主机的数字。机器人本地只做录音和压缩,所有神经网络在主机跑。
Q5:为什么不用更简单的方法,比如让大家戴麦克风?
- 戴麦克风改变了交互形式——这篇追求的是"用户什么都不戴,桌上摆个底座就能用"。这是产品定位的根本差异。
Q6:能用在沙发上吗?
- 不行。机器人是 2D 移动的,只能在平面(桌面)上工作。沙发、地毯、不规则地面都跑不了。要推广到 3D 涉及完全不同的硬件(飞行群或腿式群)。
Q7:会不会有隐私问题?
- 能听清每个人说什么的家用设备同时也是潜在窃听器。论文没讨论硬件级隐私保护方案(比如本地处理、可关闭的物理开关)。这是后续产品化必须解决的问题。
Q8:这个方向接下来会怎么发展?
- 短期:把"在线重新规划返航路径"做出来,解决"散开后桌面状态变化"的脆弱假设。
- 中长期:和视觉、语言模型融合,让家用机器人能"听到声音 → 知道是谁 → 主动响应"。
如果你想再深入
- 必读前传 1:ClearBuds(MobiSys 2022)——同组的耳机降噪工作,奠定工程范式。
- 必读前传 2:Cone of Silence(NeurIPS 2020)——本文分离网络的思想前身。
- 必读前传 3:Conformer(Interspeech 2020,Google)——本文分离网络用到的具体结构。
- 同方向延伸:VarArray(ICASSP 2022,微软)——"几何无关分布式麦克风阵列",路径不同但目标相似,值得对照读。
- 机器人群历史:Kilobot(Science 2014)——swarm 机器人开山之作,理解硬件演进背景。
读完这 5 篇,你会同时拿到 (a) swarm 机器人硬件演进史、(b) 语音分离网络架构演进史、(c) Gollakota 组的方法论一致性。
所以这一节是想说:前传三篇看出方法来源,延伸两篇看清同行竞品。
◼
引用本笔记 / Cite this note
@online{eai_acoustic_swarms_2026,
title = {(readable note) Creating speech zones with self-distributing acoustic swarms},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2023 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/acoustic-swarms/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim