回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Auditory & Acoustic · Plate Nº 13

Creating speech zones with self-distributing acoustic swarms

19 min read · 6653 字 · ⭐⭐⭐ · auto 摘要

本笔记面向读者,原文事实保留,但语言全部用初高中常识重写。

一句话讲什么(TL;DR)

七个像骰子那么大的小机器人,自己爬上桌散成一圈,桌上几个人同时讲话,它能分清谁说了啥。

所以这一节是想说:这是一群自动布阵的小麦克风机器人。


这是个什么场景

周末聚餐,一桌六个人围着火锅,姑姑在跟你妈聊孩子,舅舅在讲股票,小表弟在抢虾滑——三波话同时在飞。

你掏出手机想给奶奶录一段,回放时只剩一锅"嗡嗡嗡",连自己说的那句"干杯"都挑不出来。原因很简单:手机就一只耳朵,蹲在桌中央,谁声音大就先盖过谁,它分不清"对面那位"和"左手边那位"是两个不同的人。

那人为什么能分清?因为你有两只耳朵,左右隔着十几厘米。同一个声音先到左耳、再到右耳,两边差那么一丁点时间,大脑就能反推出"声音从左前方来"。麦克风也一样——只要把好几只麦克风摆得离得远,就能靠"时间差"把不同方向的人拆开

麦克风阵列张开尺度(aperture,光圈/张开度):一组麦克风里最远那两只之间的距离。类比相机光圈——开得越大,看得越清楚。

问题是,谁会在火锅桌上摆 7 只麦克风、量好坐标、再扯一堆线连到电脑?这事得让它自己去办

所以这一节是想说:单麦克风分不清多人说话;要分清就要把麦克风摆远,但人手摆不现实。


Creating speech zones with self-distributing acoustic swarms — 场景示意:这论文要解决的现实问题
Plate Nº ICreating speech zones with self-distributing acoustic swarms — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

之前学界有一群做"小机器人群"的工作,但都被某些条件卡死:

  • 靠头顶摄像头定位:要在天花板上装相机看着机器人。类比体育馆的鹰眼系统——离开体育馆就没法用。
  • 靠投影仪打条纹:要往桌上投特殊图案,机器人靠看图案知道自己在哪。类比舞台灯光——撤了灯演员就摸瞎。
  • 靠红外测距:机器人之间发红外光测距,但只能在 10 厘米内有效。类比近视眼——超过一臂长就什么都看不清。
  • 靠惯性传感器自己估算:机器人靠"我向前走了几下"来推位置。类比闭着眼走路——走十步还行,走五十步就偏到墙角去了。
  • 没有任何一个能同时做到三件事:自己散开 + 厘米级精度 + 多人语音分离。

所以这一节是想说:以前的方法要么靠外部设备,要么测距太短,要么会漂移,没人三件事一起做到。


这篇论文的新想法

类比一下:你做饭时让小米的扫地机器人自己出基站、绕家一圈、回基站充电——它知道自己走过哪。这篇做的是同款故事,只不过主角换成"会爬桌的小麦克风"。

具体说:七个厘米级的小机器人从底座自己爬上桌散开,互相**用声波"喊一嗓子算时间差"**反推彼此坐标,然后整个桌面就成了一张大麦克风网,开始听人说话。

一句话:**机器人自己当摆放工,把麦克风阵列在桌上铺开。**没有头顶相机、没有投影仪、没有人帮忙摆。

所以这一节是想说:机器人自己布阵,不靠任何外部设备。


它分几步做的(方法)

整个流程像七个小演员演一出戏:从化妆间排好队 → 一个个上台站位 → 报告各自坐标 → 开始听观众说话 → 结束后回化妆间充电。

1. 用声音测距离

类比:打雷数秒数。闪电一闪,你默数"1001、1002",三秒就是声音飞了一公里。

它在干什么:让七个机器人之间能两两知道"我离你多远"。一个机器人发声,另一个记下"什么时候听到的",乘上声速 343 米每秒就是距离。

用了什么术语

chirp(扫频音):一段几毫秒长的声音,频率从低到高滑动,像警车鸣笛由低变高。

超声波:人耳听不到的高频声音(一般 20 千赫兹以上)。这里用 62.5 千赫兹采样,所以不会打扰说话的人。

为什么用 chirp 而不是普通"嘀"一声:屋里有回声,普通蜂鸣会和回声糊在一起分不清谁先到。chirp 因为频率在变,电脑可以用一种叫"匹配滤波"的算法精确锁定原始声音的"首达时间"——这个原理和雷达完全一样。

关键数字

  • 时间精度:16 微秒(一百万分之十六秒)
  • 距离精度:5 毫米

为什么这步有用:所有后续定位都建立在两两距离之上。这一步要是塌了,整个系统都白搭。

所以这一节是想说:用扫频超声波算两两距离,精度毫米级。


2. 把"两两距离"变成"绝对坐标"

类比:先在已知刻度的尺子上读数,再三角测量。你拿一把贴着墙的尺子读自己离墙多远,比你拿两根没刻度的木棍互相比划要准得多。

它在干什么:光知道"A 离 B 30 cm,A 离 C 40 cm,B 离 C 50 cm"还不够——这没告诉你 A 在桌子的哪个角。而且这套距离数据有两个数学歧义

  • 整体平移:所有点同时往右挪 5 cm,距离全都不变。
  • 镜像翻转:把整张图沿一条线翻过来,距离也全都不变(就像把一张照片左右镜像,里面的人之间的距离一点没变)。

要解决这两个歧义,得先有几个"已知坐标的锚点"。

关键步骤

  1. 底座里留一个机器人,它沿着底座上的轨道滑动,每滑到一个已知坐标的小标记(论文叫 checkpoint)就发一次 chirp。
  2. 外面的机器人记下到每个标记的距离。这相当于有了好几个"虚拟坐标尺"。
  3. 外面的机器人之间再轮流发 chirp,互相补测距离。
  4. 把所有距离喂进一个数学求解器,反推每台外部机器人的 (x, y) 坐标。

为什么需要轨道上的多个标记? 因为它们在一条直线上、坐标已知——这条线就破了"镜像翻转"的歧义(翻过去那条线会跑到错位置),也破了"平移"歧义(坐标已知就有原点)。

关键数字

  • 1D 测距精度:中位数 0.45–0.48 cm(比一颗黄豆还小)
  • 2D 定位精度:中位数 0.37–0.38 cm
  • 桌面尺寸从 1.2m 到 1.8m,精度几乎不变

所以这一节是想说:用底座轨道当"已知刻度尺",把一堆距离反推出每台机器人的坐标。


3. 让机器人自己散开

类比:切披萨。机器人从底座出来后按等分角度往外扩,像从披萨中心切几刀。

它在干什么:让 N 个机器人在不知道桌子形状、不知道桌上有什么物体的情况下,最大化最终的张开尺度(也就是 aperture 越大越好)。

三个阶段

阶段 a:底座里排队

  • 机器人初始顺序是乱的。
  • 让一台往前推,它会撞到前面那台(机器人靠加速度的瞬时尖峰判断"撞到了")。多次这样的"碰撞实验"加上轨道两端的标记识别,反推出底座里的顺序。

阶段 b:分配出走方向

  • 把 360° 等分成 N-1 份,每台机器人分一个角度。
  • 但前一半机器人需要先绕过底座本身才能往后散开。这里用 A* 算法 在网格上算出绕路。

A* 算法:一种"导航软件式"的找最短路。它对每条路打分(已经走了多少 + 还要走多少),优先尝试分数最低的那条。类比手机地图的"绕路最短路线"。

阶段 c:边走边躲

  • 怎么知道桌沿到了:机器人底部有一对光电对管——一个朝下打红外光、一个接收。桌面在的时候光会反射回来,悬空就反射不回来(像汽车倒车雷达,但用红外光代替声波)。
  • 怎么知道撞到东西:撞到杯子时机器人会有一个瞬时减速尖峰,超过阈值就判定撞了。

关键数字

  • 边检测最高速度:18 厘米每秒
  • 散开能耗:22.3 焦耳,约 1.7% 电量
  • 7 台机器人散开总时间:约 1 分 45 秒
  • 桌面占用率:> 75%

为什么用"等分角度"这种朴素策略:因为机器人事先不知道桌子形状和障碍位置——任何"最优方案"都得先建图,但建图本身就要走一遍桌子。等分角度散开是"最坏情况下也凑合"的稳妥办法。

所以这一节是想说:机器人按披萨切角散开,碰沿/撞东西就停。


4. 防止机器人走偏

类比:单靠指南针走十步直线,走五十步就偏了;定期用 GPS 重新校准就能走得很远。

它在干什么:解决惯性传感器(IMU)的"积累误差"问题。

IMU(惯性测量单元):一颗能告诉机器人"自己在转"和"自己在加速"的小芯片。手机里也有,用来计步和判断方向。

只靠 IMU 推位置,传感器的小噪声会被积分放大成大漂移——陀螺仪每秒 0.1° 的漂移,30 秒后就是 3° 角度误差,对应米级位置错误。

怎么校准

  1. 移动的机器人每 200 毫秒发一次 chirp。
  2. 留在底座的"灯塔机器人"测距。
  3. 把"测出来的距离"和"按 IMU 推出来的应有距离"做差,反推真实位置,纠正漂移。

为什么不用相机做 SLAM

SLAM(同步定位与建图):机器人一边走一边画地图、一边知道自己在地图哪。常见做法是用相机看周围特征点。类比你蒙着眼摸到一个房间,靠手摸物体边缘记下房间形状。

但厘米级机器人装不下相机,下视摄像头也看不到桌面有效特征。声学测距是这个尺度下唯一可用的"绝对参考"。

所以这一节是想说:IMU 单用会漂,靠声波每 200 ms 校准一次。


5. 听人说话:先定位,再分离

到这里硬件部分搞完了——机器人会自己排队、散开、知道彼此坐标。下面是算法核心:怎么从这堆麦克风信号里抽出每个人的话。

分两步:先定位(房间里有几个人,分别坐哪)再分离(给每个人单独一份干净的语音)

5a. 先定位

类比:用粗筛子筛沙,再用细筛过一遍。粗筛快速排除明显没东西的区域,细筛在剩下的格子里精细判断。

它在干什么:在 3D 空间里找到所有正在说话的人——既要数对人头,又要给出每个人的位置坐标,且事先不知道有几个人(这才是和大多数前作的本质区别)。

核心思路(对齐+检测)

把空间网格化(像棋盘一样切成小格子)。对每个候选格子,电脑做一件事:假设这个格子里有人在说话,那么声音从这格传到 14 个麦克风的路径会有不同长度,对应不同的"到达时间差"。

把每个麦克风的信号按这个时间差对齐回去——如果格子里真有人,对齐后所有麦克风的信号会"同步",叠加起来很响;如果格子里没人,对齐后是噪声乱叠加,叠出来很弱。

叠加后越响 = 这格越可能有人。

TDoA(Time Difference of Arrival,到达时间差):同一个声音被多个麦克风听到的时间差。类比闪电先到、雷声后到,靠时间差反推方向。

两步走

  1. 粗筛(SRP-PHAT)

    SRP-PHAT:一种经典声源定位算法。把所有麦克风信号"指向"每个候选点,算指向后的总能量,能量高就可能有人。计算便宜但分辨率粗。

    它把搜索空间砍掉 200–400 倍,只留下"看起来像有人"的少数格子。

  2. 细筛(神经网络):在剩下的格子里,跑一个叫"分离网络"的程序做精细打分。

神经网络:一堆数字按特定方式连起来的"程序",输入信号经过一层层数字加权变换,输出一个判断。可以类比一台流水线机器,前面进原料,后面出成品。

U-Net:神经网络的一种"形状"。先把输入压成一个小书签,再展开回原大小,且每一层压缩和对应的展开层之间有"短路连接"保留细节。类比你做笔记——先精简到一句话,再展开成段落,但中间会回头看原稿。

Transformer:另一种神经网络结构。它的特点是处理一段序列时,可以让序列里任意两个位置"互相看一眼"。类比你读一句话时,会同时回头看前面的主语和后面的修饰词,而不是只看相邻的字。

关键技巧

  • 两级分辨率:先用大格子粗搜,留下的再分裂成小格子细搜——像拼图先粗分类再精细对接。
  • 训练时随机扰动麦克风位置:故意把训练里的麦克风位置乱挪最多 2.8 cm,让网络学会容忍真实定位时的小误差。
  • 去除幻影声源:屋里有回声,一个真说话人可能在网络输出上呈现为多个"幻影"。论文用聚类把相似的输出合并掉。

所以这一节是想说:把空间切成格子,对每格做"对齐 + 检测"看有没有人,先粗筛再细筛。

5b. 再分离

类比:鸡尾酒会效应。一桌人都在说话,你想听对面那位,大脑会自动把左右两人的声音"压低"。这步在数学上做的就是这件事。

它在干什么:第一阶段已经知道谁坐哪——第二阶段为每一个已定位的说话人生成一份干净的语音。

核心创新:让网络分两件事交替进行——

  • 同一人内部:用一种叫 Conformer 的网络结构,分析这个人在时间上的语音特征。

    Conformer:一个混合结构,把擅长"局部抓细节"的卷积网络和擅长"看全局关系"的 Transformer 串起来用。

  • 不同人之间:用 Transformer 做"说话人间注意力"——让每个人的语音特征"看一眼"其他人的特征,从而识别"这段声音是不是从隔壁串过来的",把串音抑制掉。

两者交替多次,串音就被一层层压下去。

好处:网络架构和说话人数量解耦——不管 2 人还是 8 人,都用同一套网络,只是"说话人间"那一步的维度跟着 S 走。

关键数字

  • 输入采样率:48 千赫兹
  • 处理片段长度:3 秒
  • 麦克风总数:14(7 台机器人 × 2 麦克风)
  • 小模型推理时间:1.82 秒中位数(实时)

所以这一节是想说:知道每个人坐哪后,让网络在每个人内部找规律 + 在多人之间互相压串音,输出每人一份干净语音。


6. 返航 + 充电

类比:晚上回家。早上来时记得每条街怎么走,晚上原路返回,到家门口靠路灯重新对齐。

它在干什么:电量低时让所有外部机器人回到底座充电。

关键步骤

  1. 沿出来的路返回:论文做了关键假设——散开时机器人是直线走出去的,且这条路径上之后没有新放物体。所以返航不需要重新建图。
  2. 底座灯塔以 5 Hz 发 chirp:留在底座的机器人当灯塔,正在返航的机器人靠它做距离校准。
  3. **进入"安全圈"(25 cm 无障碍区)**后再做精细 2D 定位。
  4. 对接动作:靠近底座入口时朝向已经被 IMU 漂得不准,所以做一次直线运动 + 多次声学测量反推真实朝向,再调整。
  5. 依次进入底座:一台进,其他在底座里的机器人挪位置腾位,更新自己作为新的地标。

关键数字

  • 灯塔 chirp 频率:5 Hz
  • 安全圈半径:25 cm
  • 每台返航 + 对接耗时:40.4 ± 4.5 秒
  • 满充时间:约 2.5 小时

所以这一节是想说:原路退回 + 灯塔校准 + 安全圈精定位 + 对接入坞。


Creating speech zones with self-distributing acoustic swarms — 方法示意:核心 pipeline
Plate Nº IICreating speech zones with self-distributing acoustic swarms — 方法示意:核心 pipeline

关键数字(What works)

每个数字都看三件事:原文数据 + 对比基准 + 这意味着什么。

1. 1D 测距精度 0.45 cm(中位数)

  • 对比:以前的小机器人群用红外测距只能在 10 cm 内有效。
  • 意思:误差比一颗黄豆还小,是后面所有处理的基础。

2. 2D 定位精度 0.37 cm(中位数)

  • 对比:以前要靠头顶相机才能做到,纯靠 IMU 的方案误差是米级。
  • 意思:1 cm 麦克风位置误差对应大约 6 cm 语音定位误差。所以 0.4 cm 是"算法不被硬件拖后腿"的最低门槛。

3. 5 人同时说话,定位 precision/recall 都 > 89%

  • 对比:以前的强基线大多要求"预先知道有几个人"。
  • 意思:现实开会场景里不可能事先报数,"未知人数"是产品级必需,不是锦上添花。

4. 真实环境定位中位误差 14–15 cm

  • 对比:仿真里 9–10 cm,真实环境损失约一半精度,但没崩
  • 意思:从仿真转到现实只损失一个量级,对部署是好消息。

5. 真实环境分离质量 SI-SDRi > 10 dB

SI-SDRi(伸缩不变信失真比提升):衡量分离出来的声音"纯不纯"的指标,单位 dB,越高越好。可以类比饮水机出水的纯净度提升。

  • 对比:比单麦克风的 SepFormer 高 5+ dB,比 oracle 上限 IRM 高 4.8 dB。
  • 意思:从"勉强分得出谁是谁"变成"像每个人单独麦克风录的"。

6. 把 7 台机器人挤在 10 cm 圆环里 → precision 71%

  • 对比:散开版 89%+。
  • 意思:直接证明"散开 = 大 aperture"是这套系统的核心魔法,不是神经网络本身有多神。

7. 散开能耗 22.3 J(约 1.7% 电量)

  • 意思:可以反复工作几十次而不用人工充电。

所以这一节是想说:测距毫米级、定位厘米级、5 人场景准确率 > 89%,挤在一起就崩——空间分布是关键。


你应该懂的几个新词

  • chirp(扫频音):频率从低到高滑动的一段声音,便于在嘈杂环境里精确测时。
  • TDoA(到达时间差):同一个声音被多个麦克风听到的时间差。
  • SRP-PHAT(一种声源定位算法):把虚拟麦克风指向每个候选点看哪儿能量最强。
  • U-Net(一种神经网络形状):先压缩再展开,跨层有短路。
  • Transformer(一种神经网络结构):让序列里任意两个位置互相看一眼。
  • Conformer(卷积+Transformer 混合结构):既能抓局部细节又能看全局关系。
  • SI-SDRi(信号质量指标,dB):衡量分离声音纯不纯,越高越好。
  • IMU(惯性测量单元):测加速度和旋转的小芯片。
  • Aperture(阵列张开尺度):麦克风之间最远距离,越大分辨率越高。
  • Multipath(多径):声音经过墙、桌子反射造成多个延迟版本叠加。
  • Photointerruptor(光电对管):红外发射器+接收器,靠反射探物。
  • A* 算法:经典找最短路的算法。
  • SOC(电池剩余电量百分比):用于决定是否返航。
  • Opus Codec:一种把音频压缩得很小的开源格式,VoIP 常用。

它有什么搞不定的

实验数据里能看出几个明显的"翻车场景":

1. 人背对阵列说话(头朝向 > 135°)

  • 现象:定位误差从 < 20 cm 飙到 > 50 cm。
  • 原因:人后脑勺辐射的声波能量比前方低 10+ dB,高频更弱。chirp 测距用的是高频特征,吃不到就乱了。

2. 人离墙 < 60 cm 说话

  • 现象:定位误差显著上升。
  • 原因:墙壁反射造成强干扰,"幻影声源"聚类去重也压不住。

3. 桌子中央有大物体遮挡

  • 现象:1D 测距长尾,但 2D 优化能补救。
  • 边界:全员被遮挡(比如笔记本电脑横在中间)就会崩。

4. 散开后桌面状态变化

  • 现象:返航假设原路无新物体——你散开后顺手放杯子,机器人撞上去就卡。
  • 后续工作:截至 2024 没看到明确解决方案。

5. 底座被人挪动

  • 现象:所有 2D 坐标失效,分离输出乱码。
  • 边界:底座必须保持不动。

所以这一节是想说:背对阵列、靠墙、桌面被改、底座被挪都会让系统出问题。


它和别的几篇是什么关系

可以画一张集合图,分三圈:

  • 同一个研究组的前作(Gollakota 组在听觉智能方向的连续投入)

    • ClearBuds(耳机降噪):定义了"低带宽蓝牙音频流 + Opus 压缩 + 神经网络后处理"的工程范式。这篇是它的"分布式扩展版"。
    • Cone of Silence:提出"用神经网络做空间感知语音分离"的雏形,是本文分离网络的直接思想前身。
    • NeuralAids / Proactive Hearing:用户意图驱动的声场过滤,可以看作本文的应用层延伸。
  • 同方向的竞争对手(机器人群文献)

    • Kilobot:开山之作,但用红外测距只能 10 cm 内。这篇用声波替换了它,把工作距离推到 1+ m。
    • Zooids:桌面机器人 UI,但需要顶置投影仪——正是这篇要去掉的"外部基础设施"。
  • 互补的上层应用(VLA / 语言-动作机器人)

    • 这篇是听觉感知层的工作,可以为上层的 VLA agent(语言-视觉-动作机器人)提供"听到妈妈在厨房说话"这类输入。

时间线上这篇 = 2023 年 Nature Communications,是该方向的开山级工作之一。

所以这一节是想说:同组前作 → 这篇 → 上层 VLA 应用,三层因果。


我建议这样读这篇

面向零基础的 4 步路线:

  1. 先看摘要 + Fig. 1(机器人长什么样)——建立物理直觉。这是个 3 cm 的小车,七颗一组蹲在桌上像七颗骰子。
  2. 跳到 Fig. 2 看 2D 定位流程,配合"Acoustic swarm localization"一节读——这是论文最核心的工程贡献。
  3. 跳到 Fig. 5 + "Speech separation and 2D localization"——抓住"先粗筛 SRP-PHAT 再细筛神经网络"这个两阶段思想就抓住了 80%。
  4. 看 Fig. 6 + Fig. 8 实验结果——仿真证明算法上限,真实证明能落地,就知道边界在哪了。

可以跳过:Methods 里的网络细节、Supplementary 的硬件清单——除非要复现,否则是工程附录。

所以这一节是想说:先看硬件长相,再看 2D 定位,再看分离算法,最后看实验。


一些好奇心问答(FAQ)

Q1:这个模型多大?我的电脑跑得动吗?

  • 论文没说参数量。按 U-Net + Transformer 的典型配置估计在几十 M 到 100 M 参数级别(M = 百万)。一般家用显卡(比如 RTX 4070,12 GB 显存)推理肯定够。
  • 但真正的瓶颈不是显卡,是那 7 台带 chirp 的机器人——没有就只能跑算法部分。

Q2:训练数据从哪来?

  • 训练全用合成数据:用电脑模拟一个虚拟房间,把公开语音数据集(LibriSpeech、VCTK 这类)随机放在房间里不同位置,模拟反射后叠加,得到 14 通道混合信号。
  • 真实测试数据没公开(涉及参与者隐私授权)。

Q3:代码开源吗?

  • 论文是 2023 年 Nature Communications 发表,作者是华盛顿大学 Shyamnath Gollakota 组。算法代码可能开源,但硬件 BOM/PCB 文件不一定全公开——这种软硬一体工作的复现门槛极高。

Q4:推理一次要多久?能实时吗?

  • 处理 3 秒音频:小模型 1.82 秒中位数(能实时),大模型 > 3 秒(不能实时)。
  • 这是单 GPU 主机的数字。机器人本地只做录音和压缩,所有神经网络在主机跑。

Q5:为什么不用更简单的方法,比如让大家戴麦克风?

  • 戴麦克风改变了交互形式——这篇追求的是"用户什么都不戴,桌上摆个底座就能用"。这是产品定位的根本差异。

Q6:能用在沙发上吗?

  • 不行。机器人是 2D 移动的,只能在平面(桌面)上工作。沙发、地毯、不规则地面都跑不了。要推广到 3D 涉及完全不同的硬件(飞行群或腿式群)。

Q7:会不会有隐私问题?

  • 能听清每个人说什么的家用设备同时也是潜在窃听器。论文没讨论硬件级隐私保护方案(比如本地处理、可关闭的物理开关)。这是后续产品化必须解决的问题。

Q8:这个方向接下来会怎么发展?

  • 短期:把"在线重新规划返航路径"做出来,解决"散开后桌面状态变化"的脆弱假设。
  • 中长期:和视觉、语言模型融合,让家用机器人能"听到声音 → 知道是谁 → 主动响应"。

如果你想再深入

  • 必读前传 1:ClearBuds(MobiSys 2022)——同组的耳机降噪工作,奠定工程范式。
  • 必读前传 2:Cone of Silence(NeurIPS 2020)——本文分离网络的思想前身。
  • 必读前传 3:Conformer(Interspeech 2020,Google)——本文分离网络用到的具体结构。
  • 同方向延伸:VarArray(ICASSP 2022,微软)——"几何无关分布式麦克风阵列",路径不同但目标相似,值得对照读。
  • 机器人群历史:Kilobot(Science 2014)——swarm 机器人开山之作,理解硬件演进背景。

读完这 5 篇,你会同时拿到 (a) swarm 机器人硬件演进史、(b) 语音分离网络架构演进史、(c) Gollakota 组的方法论一致性。

所以这一节是想说:前传三篇看出方法来源,延伸两篇看清同行竞品。

引用本笔记 / Cite this note
BibTeX
@online{eai_acoustic_swarms_2026,
  title       = {(readable note) Creating speech zones with self-distributing acoustic swarms},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/acoustic-swarms/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim