回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Auditory & Acoustic · Plate Nº 11

Proactive Hearing Assistants that Isolate Egocentric Conversations

17 min read · 5847 字 · ⭐⭐⭐ · auto 摘要

这是给读者看的版本:从你已经会的东西(向量、概率、物理常识、考试扣分)出发,把这篇论文讲清楚。

一句话讲什么(TL;DR)

戴上这副耳机,它自己听出"现在你在跟谁聊天",把同伴的声音放大、其他人压下去,你一个按钮都不用按。

所以这一节是想说:耳机要从"被动放大全场"升级成"会自己挑人听"。


这是个什么场景

周五晚上你和两个朋友约火锅。锅在咕嘟、隔壁桌在喊"我跟你讲那个梅西啊"、服务员在背后喊"38 号上菜",对面朋友刚说完一句你最想听的——你只听到半句。

你下意识把头凑过去,喊一声"你说啥?"

戴助听器的人每天都在过这种日子,而且更糟。普通助听器只会把所有声音一起放大——锅声、隔壁桌的争论、服务员的吆喝,全都更响了。结果是:越听越累,朋友说什么还是听不清。

这就像你打开手机相机想拍朋友的脸,但相机不会对焦——它把整个画面同等清晰地拍下来,你的朋友只是其中模糊的一小块。

这种"一群人同时说话,你只想听其中几个"的难题,研究界叫鸡尾酒会问题

鸡尾酒会问题(cocktail party problem):多人同时说话时怎么只听清一个目标的难题。

读到这里你应该懂了:这篇论文要做的事,就是让耳机会"对焦"——自动把同伴的声音调清楚,把别的调暗。

所以这一节是想说:现实生活里的听觉混乱很普遍,本文要给它一个机器解。


Proactive Hearing Assistants that Isolate Egocentric Conversations — 场景示意:这论文要解决的现实问题
Plate Nº IProactive Hearing Assistants that Isolate Egocentric Conversations — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

研究界和耳机厂之前已经试过几条路,但都有明显短板:

  • 靠用户手动选方向 / 选人——像相机要先对焦再拍。等你低头点完手机,对面那句话早过去了。
  • 苹果 AirPods 的"对话感知"——只是检测到你开口就把背景音降一档,不知道你在跟谁说,更不会单独把同伴的声音抽出来。
  • 要先录一段同伴的声音存下来当"声纹身份证"——朋友临时来一个新人,没存过身份证就识别不出。
  • 算法只能离线跑——它要先看到未来几秒的录音才能算结果,根本塞不进实时的耳机。
  • 只用单耳麦克风——丢掉了"左右耳听到的差别"这个最关键的方向线索。

这就像你想拍一群在跑动的小朋友,但相机:

  1. 必须你手动追焦
  2. 拍下来要等几秒才出图
  3. 还得提前录入每个小朋友的脸

显然没法用。

读到这里你应该懂了:旧方法要么慢、要么需要预先准备、要么不知道"对话"是个什么东西。

所以这一节是想说:这个问题之前没人真正解决,留下了很大空白。


这篇论文的新想法

不去问"这个声音是谁的",而是问"谁正在跟我配合说话"。

它把"识别人"换成了"识别节奏"——你和同伴说话天然会一来一回,而隔壁桌跟你完全不配合。这个节奏差异就是身份。

所以这一节是想说:不靠声纹靠节奏,是这篇论文最聪明的一点。


它分几步做的(方法)

把这套方法想象成一家小餐厅的厨房分工:先有人记住"老板的口味"(第 1 步),然后大堂经理观察"哪几桌客人是同一拨"(第 2 步),再分成"前台快手"和"后厨慢工"两班搭配(第 3、4 步),最后店里没真客人时就拿模拟客人来练手(第 5 步)。下面五步就是这家"厨房"的内部分工。

下面这张是整体架构图,你可以先扫一眼有个印象,下面会拆开讲:

架构图
Plate Nº II架构图

图里两条线:上半部分"Slow"(慢模型)每 1 秒看一眼整体;下半部分"Fast"(快模型)每 12.5 毫秒(比一次眨眼还短)输出一段实时声音。

1. 用"我自己说话的样子"当锚点

类比:想象你在化装舞会找朋友,你身上戴着会发光的徽章。徽章一亮,你就知道"哪些人是真的在跟我互动"。本文的徽章就是佩戴者自己的嘴

它在干什么:佩戴者自己的嘴离耳朵最近、声音最稳定,所以系统先把"我自己刚说的那句话"专门抽出来,作为"我在说话"的信号。等你连续说够 5 秒,系统就开始工作。

波束成形器(beamformer):一种利用多个麦克风之间到达时间差,把某个方向的声音聚焦出来的装置——就像声学版的探照灯。 锚点(anchor):参照基准。这里指"用我自己的声音当作参照,去判断别人是不是在跟我对话"。

为什么这步有用:以前要让用户先注册一个声纹身份证,麻烦又不够准。现在改用"你自己说出来的话"当参照——开口就能用,跟换没换助听器、换没换朋友、换没换语言都没关系。

读到这里你应该懂了:耳机不需要预先认识你的同伴,它先认识你自己就够了。

所以这一节是想说:第一步是把"佩戴者的嘴"变成系统的起点信号。

2. 学"轮流说话"的节奏

类比:两个人下围棋,你不用看脸都能从落子节奏猜出他们是不是真在对弈——一个落子另一个会想几秒再落,几乎不会同时落。

人对话也一样:

  • 你说一段,对方接一段
  • 几乎没人同时开口
  • 停顿很短,平均不到 0.2 秒就接上

这种规律就叫轮流说话(turn-taking)

轮流说话(turn-taking):对话学里的术语,指人对话天然会交替、几乎不重叠、停顿很短。 概率分布:一个事件可能取每个值的概率列表。这里指"两人对话时停顿长度的概率列表长什么样"。

它在干什么:模型不学"这是 Alice 的声音"这种东西,而是学对话节奏的概率分布——什么时候该停、停多久、谁接、有没有重叠。同一桌朋友会互相配合(节奏吻合),隔壁桌跟你完全不配合(节奏对不上)。

为什么这步有用

  1. 跨语言能用。中文、英文、日文虽然语速不一样,但"一来一回"的形态都差不多。结果就是论文用英文训出来的模型,直接拿去测中文和日文,效果都还不错。
  2. 不用提前注册任何人。新朋友走过来开始聊几句,节奏对得上就被留下来。
  3. 抗打扰。隔壁桌再吵,他们的节奏跟你这桌就是对不上。

读到这里你应该懂了:这一招的本质,是把"识别身份"换成了"识别配合关系"。

所以这一节是想说:节奏比身份更通用,是跨语言、跨人群都能用的关键。

3. 一快一慢两个模型搭配

类比:人开车的时候——

  • 眼睛和反射神经负责"前面突然有东西马上踩刹车",反应在毫秒级。
  • 大脑同时在后台想"过 500 米要不要变道",反应在秒级。

两个反应速度不一样,分工合作。本文的耳机系统就是这样的两层。

它在干什么

  • 快模型:每 12.5 毫秒(比一次眨眼短得多)跑一次,输出当前这一小片的声音结果。它的任务是抢时间。
  • 慢模型:每 1 秒跑一次,吃过去 1 秒的所有信息,总结成一串"这场对话长什么样"的数字密码,喂给快模型当提示。

神经网络:一种通过大量例子自动学规律的程序,结构上像神经元一层层连接。可以理解成"一个会做题的考试机器"。 嵌入向量(embedding):把一段复杂内容压缩成的一串数字,相当于给这段内容贴的"数字标签"。两个标签的方向越接近,原内容就越像(这里就用到了高中向量夹角的直觉)。 对话嵌入向量(conversation embedding):把"现在这场对话长什么样"压成的一串数字,是慢模型的产物。

为什么这步有用

  • 慢模型要看几十秒的历史才能判断节奏,但跑得起慢——可以放在手机上。
  • 快模型只要把慢模型给的"提示"刷一下,就能跟着出实时结果——可以放在耳机里。
  • 蓝牙只需要传那串小小的数字密码(不传完整音频),省电也省带宽

读到这里你应该懂了:把"看大局"和"出实时结果"分开,让两边都不用妥协。

所以这一节是想说:双模型架构是把"实时"和"长上下文"这对矛盾拆开来同时满足。

4. 让慢模型不抢时间

类比:你让助理每秒画一张"过去 1 分钟发生了什么"的简报。如果你要他画"现在",他就得偷看未来——做不到。所以他只能画"5 秒前往前的 1 分钟"。

它在干什么:慢模型给出的"对话密码"在时间上故意往后挪了 1 秒。换句话说,快模型在第 N 秒只能用第 (N-1) 秒的密码。

为什么这步有用:这样慢模型就完全不用赶时间。它跑得慢一点没事,反正快模型不等它。带来的好处是慢模型可以做得更复杂、看得更远。

读到这里你应该懂了:慢模型故意"晚一拍",是为了换来"想得更清楚"。

所以这一节是想说:用一点点延迟换来更深的理解,是工程上很值的交易。

5. 用合成数据训练

类比:你想学画"一群人在公园下棋",但找不到这种照片。怎么办?把"单人下棋"的照片和"公园背景"用 PS 拼起来,自己造素材。本文也是这么干的。

它在干什么

  1. 找一个真人对话数据集(中文 RAMC,180 小时),但只用它的时间戳——也就是"Alice 说 03.2 秒,Bob 说 3.47.1 秒"这种节奏表。
  2. 把每个时间槽换成英文语音库(LibriTTS)里随机一个人的录音。这样节奏是真人的,声音是英文的
  3. 用一个声学模拟工具(PyRoomAcoustics)造一个虚拟房间——5 到 10 米见方、3 到 4 米高,每个人站在不同位置,墙壁会反射声音。
  4. 模拟出"佩戴者左右耳听到的双声道录音"。

混响(reverb):声音在房间里被墙壁反弹后形成的回响。空浴室回声大、地毯卧室回声小,就是混响差异。

为什么这步有用

  • 真要去录上千小时"一个人戴着双耳麦克风跟朋友吃饭"的录音,几乎不可能。
  • 但只要节奏是真人的,模型学到的"对话节奏感"就还是真的。
  • 房间可以无限随机生成,等于"训练样本无穷无尽"。

读到这里你应该懂了:用真节奏 + 假声音 + 假房间,绕过了真实数据稀缺的难题。

所以这一节是想说:聪明地造数据,让训练量从几百小时变成"想多少有多少"。


Proactive Hearing Assistants that Isolate Egocentric Conversations — 方法示意:核心 pipeline
Plate Nº IIIProactive Hearing Assistants that Isolate Egocentric Conversations — 方法示意:核心 pipeline

关键数字(What works)

看数字之前先记两个量:

  • **dB(分贝)**是声音强度的对数单位。每多 3 dB,听感大约相当于声音"响一倍"。
  • SISDRi:可以理解成"目标声音被加强了多少分贝",越大越好。

1. 在没见过的英文测试集上的提升

  • 数字:目标说话人的声音被加强了 11.95 dB,模型选对人的概率 92.1%,把陌生人当成同伴的失误率只有 1.5%
  • 对比:一个工业界用得很广的降噪模型 DeepFilterNet2 在同样设置下,效果是 -3.45 dB(也就是反而更糟)。
  • 生活语言:原本听不太清的同伴变得明显响很多,100 次只有 1.5 次会把陌生人误当成你的同伴。

2. 真人录音上的表现

  • 设置:找了 11 个人(21~39 岁),戴着双耳麦克风录了 6.8 小时真人对话,话题从美食到旅行计划。
  • 数字:两人对话提升 7.84 dB(选对率 85%),三人对话提升 6.00 dB(选对率 73.4%)。
  • 生活语言:纯粹用合成数据训出来的模型,直接拿来听真人对话也管用——这一步通常是最容易掉链子的。

3. 跨语言迁移

  • 设置:模型只学过英文,零样本测试中文(RAMC)和日文。
  • 数字:日文 7.92 dB,中文 6.50 dB
  • 生活语言:你不用为每种语言重新训练模型——这是要做"全球版产品"的关键。

4. 在便宜的小板子上的延迟

  • 设置:快模型放在 600 元级的开发板(Orange Pi 5B)上跑。
  • 数字:每 12.5 毫秒的音频块平均处理时间 8.9 毫秒,占用内存 86 MB
  • 生活语言:处理音频的时间比那段音频本身还短,等于跟得上、不堆积。一个不到 1000 元的板子就能扛。

5. 从未见过的人数也能搞定

  • 设置:训练时只给过 2~3 人对话,测试时丢 4 人甚至 5 人。
  • 数字:4 人 11.94 dB,5 人 11.85 dB——几乎不掉。
  • 生活语言:模型没在死记"几个人",而是真的学会了"配合的节奏"。

6. 真人主观打分

  • 设置:11 个人对原始录音和模型输出打分,5 分制。
  • 数字:原始混音 1.88 分 → 模型输出 4.30 分。
  • 生活语言:不只是仪器数字好看,真人觉得"听起来好太多了"。

下面这张柱状图(论文 Fig. 6)展示的是:在真人录音上,模型把目标声音加强的分贝数分布。大部分集中在 5~15 dB 之间。

SISDRi 在真实录音上的分布
Plate Nº IVSISDRi 在真实录音上的分布

下面这张散点图很有意思——一个说话人开始时跟你是同一桌(横轴正分贝),中途离开去加入别桌后(纵轴变负分贝),模型自动把他从增强变成压制。这不是死记,是动态判断。

有人离开同伴关系后,模型自动调整
Plate Nº V有人离开同伴关系后,模型自动调整

读到这里你应该懂了:这套方法在多种条件下都能跑出有意义的提升。

所以这一节是想说:数字证明这不是论文实验室里的玩具,是接近能用的东西。


你应该懂的几个新词

每个词的格式:英文(中文):一句定义。一个类比。

Egocentric audio(第一视角音频):从佩戴者自己耳朵位置录到的双声道音频。类比第一人称 vlog,只不过是声音版的。

Beamformer(波束成形器):用多麦克风之间的相位差当"声学探照灯",把某个方向的声音聚焦出来。本文用它对准你自己的嘴。

Turn-taking(轮流发言):对话里的"一来一回"规律——人说话会交替、几乎不重叠、停顿很短。本文模型抓的就是这个节奏。

SISDRi(信噪比提升,单位 dB):衡量"目标声音相对原始混音被加强了多少"。越大越好,每多 3 dB 听感大约响一倍。

嵌入向量(embedding):把一段复杂内容压成的一串数字。两个嵌入向量的夹角越小,原内容就越像(用高中向量内积的直觉理解)。

神经网络(neural network):一种用大量例子自动学规律的程序,类比"一个会做题的考试机器"。

流式模型(streaming model):边收边处理、不等录音结束就出结果的模型。类比直播 vs 录播。

混淆率(CR, confusion rate):模型把陌生人错当成同伴的频率,越低越好。本文新定义的安全指标。

OOD(分布外):测试数据来源跟训练数据不一样。类比"高考考了课外题"。

混响(reverb / RT60):房间反射形成的回声。RT60 是指声音衰减到原来声压百万分之一所需的秒数。

PESQ:一个国际标准的"机器打分听感"工具,约 0~4.5 分。比 SISDRi 更接近"听起来舒不舒服"。

Beamforming(波束成形):上面 beamformer 的动作版,意思一样。

读到这里你应该懂了:这套词是看懂全文的最小词汇表。

所以这一节是想说:论文里的术语其实没那么吓人,每个都能用 1 句类比抓住。


它有什么搞不定的

下面这张图是论文 Fig. 5——展示的是一个失败场景:佩戴者长时间不说话,模型就失灵了。

长时间沉默会破坏锚点
Plate Nº VI长时间沉默会破坏锚点

紫色线在中间一段直接掉到 0 分贝以下(基本无效),等佩戴者重新开口(图里灰色区域)才慢慢恢复。

具体的失灵场景:

  • 你两分钟不说话:模型立刻失效。比如听讲座、看电影、安静听别人聊——这些"我只听不说"的场景做不了。
  • 两边对话同时换人:当你这桌和隔壁桌都恰好在 1 秒内换了一个发言人时,模型分不清谁该被留下。
  • 三人对话比两人差一档:两人对话提升 7.84 dB,三人只有 6.00 dB。家庭聚会、四人围圆桌反而是助听器最常见的场景。
  • 新人刚开口的前 2 秒:每个新加入对话的人前 2 秒会"听不太清",要等 2 秒后效果才稳定。
  • 模型不会跟你说"我不确定":万一把陌生人当成同伴,你听不到模型滤掉的声音,也不知道自己漏听了什么。

读到这里你应该懂了:这套方法不是万能的,它换来"无需注册"的代价就是"不开口就失灵"。

所以这一节是想说:每个设计选择都有代价,看清代价才能知道下一步往哪走。


它和别的几篇是什么关系

可以画一个集合图来理解:

  • 集合 A:靠声纹身份证那一派——要先录入每个人的声音才能识别。本文不在这个集合里。
  • 集合 B:靠脑电波直接读你大脑的注意力那一派——精度高,但要在头上贴电极。本文也不在这个集合里。
  • 集合 C:靠对话节奏那一派——本文就在这里。论文之前同组做过 Target Conversation Extraction,那是离线版;本文是它的实时双耳升级版。

时间线上:

Target Conversation Extraction (2024) - 离线、单耳、要声纹
        ↓
Look Once to Hear (2024) - 看一眼目标人完成注册
        ↓
本文 (2026) - 不用注册、不用看,自动判断
        ↓
LlamaPIE (2025+) - 接入语言模型,从"听清"到"听懂 + 主动建议"

横向看,作者团队(华盛顿大学 Gollakota 实验室)连续推出了一整条"可编程耳朵"路线,每篇论文减少一个用户操作。本文是其中"用户什么都不用做"的极致。

读到这里你应该懂了:本文是同一条产品路线上"减少用户操作"的最新一棒。

所以这一节是想说:把它放在论文族谱里看,能更清楚它的位置和方向。


我建议这样读这篇

建议这样读:

  1. 读摘要 + 引言。先把"被动放大 vs 主动挑人"这个对立刻在脑子里。技术细节先放一边。
  2. 盯着架构图(img_004.jpg)看 5 分钟。把"快模型 + 慢模型 + 自语锚"这三块拼图摆清楚。这张图理解了,方法部分就不用从头啃。
  3. 跳读"自语作锚"和"双模型动机"两节。这是全文最关键的两个想法,作者也讲得最清楚。
  4. 看结果表前先记 SISDRi 的含义:每 3 dB 听感响一倍。然后只看 SISDRi 和准确率两列。
  5. 读"局限"那一段。看一篇好论文怎么诚实交代自己的弱点——这是科研素养训练。
  6. 跳过附录的网络细节。除非你要复现,不然不影响理解。

读到这里你应该懂了:哪怕术语没全看懂,按这个顺序也能抓住文章核心。

所以这一节是想说:读论文是技能,从框架先入比从细节啃起容易得多。


一些好奇心问答(FAQ)

Q1: 这个模型有多大? A: 三个网络加起来大约 165 万个参数——比手机里随便一个 App 都小。占用内存不到 1 GB。家用游戏显卡都跑得动。

Q2: 训练用了多少电脑、多少时间? A: 8 张高端显卡(L40s)训了大约 45 天。加上其他阶段一共大约 15002000 卡时。在云上租的话大约 3~4 万人民币。一个研究生项目能负担。

Q3: 我能不能把它装进我的 AirPods? A: 不能直接装——AirPods 不开放第三方代码。但作者用一套 1500 元以内的硬件(开发板 + 双耳麦克风 + 手机)就能复现,普通爱好者可以自己拼。

Q4: 数据集去哪下? A: 英文对话数据 Candor 公开下载(要邮箱注册),中文 RAMC 在 MagicData 注册申请,研究用免费。日文那个商业数据集可能要付费。

Q5: 为什么不用更简单的方法,比如直接用方向波束? A: 因为对话同伴会移动、可能不在同一个方向、可能会换位置。光用方向就锁不住"同一个对话伙伴关系"。本文的"节奏识别"才是关键。

Q6: 它能识别我家的方言吗? A: 论文里只测试了英文、中文普通话、日文标准发音。方言没有专门测,但因为模型抓的是节奏不是发音,理论上方言也行。需要实测验证。

Q7: 处理音频会不会有可怕的延迟? A: 端到端总延迟约 30 毫秒。这低于人耳能察觉的"延迟阈值"(约 50 毫秒),所以你戴上根本感觉不到。

Q8: 万一它把陌生人当成同伴怎么办? A: 论文实测失误率 1.5%~3.7%。但作者承认"用户没有兜底退路"——你听不到被滤掉的声音。后续工作要加"置信度提示"和"物理按钮重置"。

读到这里你应该懂了:这些问题是把这篇论文当真实产品来追问,每一个都很实在。

所以这一节是想说:好论文要经得起这种"如果我要用,会怎样"的问。


如果你想再深入

这篇看完之后,按"必读 → 可读"排序的延伸阅读:

  1. Target Conversation Extraction(Chen 2024b)——本文的直接前作。读完能看清"从离线 → 实时"的工程飞跃量。
  2. Semantic Hearing(Veluri 2023)——同组兄弟篇。换一个角度:"按主题(狗叫 / 警笛 / 婴儿哭)来过滤声音"。
  3. Look Once to Hear(Veluri 2024a)——同组兄弟篇。"看一眼目标人完成注册"的路线。三篇放一起读能完整看清这条路线的演化。
  4. Stivers 2009 全球 10 种语言的轮流说话研究(PNAS)——跨语言泛化能成立的理论根基。
  5. NeuroHEED——竞争路线代表,靠脑电波解码注意力。看看"另一条路"长什么样。

读到这里你应该懂了:这篇论文不是孤岛,它有清晰的前后传承和邻居。

所以这一节是想说:找到一篇论文的家族树,是把它真正读懂的关键。

引用本笔记 / Cite this note
BibTeX
@online{eai_proactive_hearing_2026,
  title       = {(readable note) Proactive Hearing Assistants that Isolate Egocentric Conversations},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/proactive-hearing/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim