Proactive Hearing Assistants that Isolate Egocentric Conversations
这是给读者看的版本:从你已经会的东西(向量、概率、物理常识、考试扣分)出发,把这篇论文讲清楚。
一句话讲什么(TL;DR)
戴上这副耳机,它自己听出"现在你在跟谁聊天",把同伴的声音放大、其他人压下去,你一个按钮都不用按。
所以这一节是想说:耳机要从"被动放大全场"升级成"会自己挑人听"。
这是个什么场景
周五晚上你和两个朋友约火锅。锅在咕嘟、隔壁桌在喊"我跟你讲那个梅西啊"、服务员在背后喊"38 号上菜",对面朋友刚说完一句你最想听的——你只听到半句。
你下意识把头凑过去,喊一声"你说啥?"
戴助听器的人每天都在过这种日子,而且更糟。普通助听器只会把所有声音一起放大——锅声、隔壁桌的争论、服务员的吆喝,全都更响了。结果是:越听越累,朋友说什么还是听不清。
这就像你打开手机相机想拍朋友的脸,但相机不会对焦——它把整个画面同等清晰地拍下来,你的朋友只是其中模糊的一小块。
这种"一群人同时说话,你只想听其中几个"的难题,研究界叫鸡尾酒会问题。
鸡尾酒会问题(cocktail party problem):多人同时说话时怎么只听清一个目标的难题。
读到这里你应该懂了:这篇论文要做的事,就是让耳机会"对焦"——自动把同伴的声音调清楚,把别的调暗。
所以这一节是想说:现实生活里的听觉混乱很普遍,本文要给它一个机器解。

之前的人怎么做的,为什么不够好
研究界和耳机厂之前已经试过几条路,但都有明显短板:
- 靠用户手动选方向 / 选人——像相机要先对焦再拍。等你低头点完手机,对面那句话早过去了。
- 苹果 AirPods 的"对话感知"——只是检测到你开口就把背景音降一档,不知道你在跟谁说,更不会单独把同伴的声音抽出来。
- 要先录一段同伴的声音存下来当"声纹身份证"——朋友临时来一个新人,没存过身份证就识别不出。
- 算法只能离线跑——它要先看到未来几秒的录音才能算结果,根本塞不进实时的耳机。
- 只用单耳麦克风——丢掉了"左右耳听到的差别"这个最关键的方向线索。
这就像你想拍一群在跑动的小朋友,但相机:
- 必须你手动追焦
- 拍下来要等几秒才出图
- 还得提前录入每个小朋友的脸
显然没法用。
读到这里你应该懂了:旧方法要么慢、要么需要预先准备、要么不知道"对话"是个什么东西。
所以这一节是想说:这个问题之前没人真正解决,留下了很大空白。
这篇论文的新想法
不去问"这个声音是谁的",而是问"谁正在跟我配合说话"。
它把"识别人"换成了"识别节奏"——你和同伴说话天然会一来一回,而隔壁桌跟你完全不配合。这个节奏差异就是身份。
所以这一节是想说:不靠声纹靠节奏,是这篇论文最聪明的一点。
它分几步做的(方法)
把这套方法想象成一家小餐厅的厨房分工:先有人记住"老板的口味"(第 1 步),然后大堂经理观察"哪几桌客人是同一拨"(第 2 步),再分成"前台快手"和"后厨慢工"两班搭配(第 3、4 步),最后店里没真客人时就拿模拟客人来练手(第 5 步)。下面五步就是这家"厨房"的内部分工。
下面这张是整体架构图,你可以先扫一眼有个印象,下面会拆开讲:

图里两条线:上半部分"Slow"(慢模型)每 1 秒看一眼整体;下半部分"Fast"(快模型)每 12.5 毫秒(比一次眨眼还短)输出一段实时声音。
1. 用"我自己说话的样子"当锚点
类比:想象你在化装舞会找朋友,你身上戴着会发光的徽章。徽章一亮,你就知道"哪些人是真的在跟我互动"。本文的徽章就是佩戴者自己的嘴。
它在干什么:佩戴者自己的嘴离耳朵最近、声音最稳定,所以系统先把"我自己刚说的那句话"专门抽出来,作为"我在说话"的信号。等你连续说够 5 秒,系统就开始工作。
波束成形器(beamformer):一种利用多个麦克风之间到达时间差,把某个方向的声音聚焦出来的装置——就像声学版的探照灯。 锚点(anchor):参照基准。这里指"用我自己的声音当作参照,去判断别人是不是在跟我对话"。
为什么这步有用:以前要让用户先注册一个声纹身份证,麻烦又不够准。现在改用"你自己说出来的话"当参照——开口就能用,跟换没换助听器、换没换朋友、换没换语言都没关系。
读到这里你应该懂了:耳机不需要预先认识你的同伴,它先认识你自己就够了。
所以这一节是想说:第一步是把"佩戴者的嘴"变成系统的起点信号。
2. 学"轮流说话"的节奏
类比:两个人下围棋,你不用看脸都能从落子节奏猜出他们是不是真在对弈——一个落子另一个会想几秒再落,几乎不会同时落。
人对话也一样:
- 你说一段,对方接一段
- 几乎没人同时开口
- 停顿很短,平均不到 0.2 秒就接上
这种规律就叫轮流说话(turn-taking)。
轮流说话(turn-taking):对话学里的术语,指人对话天然会交替、几乎不重叠、停顿很短。 概率分布:一个事件可能取每个值的概率列表。这里指"两人对话时停顿长度的概率列表长什么样"。
它在干什么:模型不学"这是 Alice 的声音"这种东西,而是学对话节奏的概率分布——什么时候该停、停多久、谁接、有没有重叠。同一桌朋友会互相配合(节奏吻合),隔壁桌跟你完全不配合(节奏对不上)。
为什么这步有用:
- 跨语言能用。中文、英文、日文虽然语速不一样,但"一来一回"的形态都差不多。结果就是论文用英文训出来的模型,直接拿去测中文和日文,效果都还不错。
- 不用提前注册任何人。新朋友走过来开始聊几句,节奏对得上就被留下来。
- 抗打扰。隔壁桌再吵,他们的节奏跟你这桌就是对不上。
读到这里你应该懂了:这一招的本质,是把"识别身份"换成了"识别配合关系"。
所以这一节是想说:节奏比身份更通用,是跨语言、跨人群都能用的关键。
3. 一快一慢两个模型搭配
类比:人开车的时候——
- 眼睛和反射神经负责"前面突然有东西马上踩刹车",反应在毫秒级。
- 大脑同时在后台想"过 500 米要不要变道",反应在秒级。
两个反应速度不一样,分工合作。本文的耳机系统就是这样的两层。
它在干什么:
- 快模型:每 12.5 毫秒(比一次眨眼短得多)跑一次,输出当前这一小片的声音结果。它的任务是抢时间。
- 慢模型:每 1 秒跑一次,吃过去 1 秒的所有信息,总结成一串"这场对话长什么样"的数字密码,喂给快模型当提示。
神经网络:一种通过大量例子自动学规律的程序,结构上像神经元一层层连接。可以理解成"一个会做题的考试机器"。 嵌入向量(embedding):把一段复杂内容压缩成的一串数字,相当于给这段内容贴的"数字标签"。两个标签的方向越接近,原内容就越像(这里就用到了高中向量夹角的直觉)。 对话嵌入向量(conversation embedding):把"现在这场对话长什么样"压成的一串数字,是慢模型的产物。
为什么这步有用:
- 慢模型要看几十秒的历史才能判断节奏,但跑得起慢——可以放在手机上。
- 快模型只要把慢模型给的"提示"刷一下,就能跟着出实时结果——可以放在耳机里。
- 蓝牙只需要传那串小小的数字密码(不传完整音频),省电也省带宽。
读到这里你应该懂了:把"看大局"和"出实时结果"分开,让两边都不用妥协。
所以这一节是想说:双模型架构是把"实时"和"长上下文"这对矛盾拆开来同时满足。
4. 让慢模型不抢时间
类比:你让助理每秒画一张"过去 1 分钟发生了什么"的简报。如果你要他画"现在",他就得偷看未来——做不到。所以他只能画"5 秒前往前的 1 分钟"。
它在干什么:慢模型给出的"对话密码"在时间上故意往后挪了 1 秒。换句话说,快模型在第 N 秒只能用第 (N-1) 秒的密码。
为什么这步有用:这样慢模型就完全不用赶时间。它跑得慢一点没事,反正快模型不等它。带来的好处是慢模型可以做得更复杂、看得更远。
读到这里你应该懂了:慢模型故意"晚一拍",是为了换来"想得更清楚"。
所以这一节是想说:用一点点延迟换来更深的理解,是工程上很值的交易。
5. 用合成数据训练
类比:你想学画"一群人在公园下棋",但找不到这种照片。怎么办?把"单人下棋"的照片和"公园背景"用 PS 拼起来,自己造素材。本文也是这么干的。
它在干什么:
- 找一个真人对话数据集(中文 RAMC,180 小时),但只用它的时间戳——也就是"Alice 说 0
3.2 秒,Bob 说 3.47.1 秒"这种节奏表。 - 把每个时间槽换成英文语音库(LibriTTS)里随机一个人的录音。这样节奏是真人的,声音是英文的。
- 用一个声学模拟工具(PyRoomAcoustics)造一个虚拟房间——5 到 10 米见方、3 到 4 米高,每个人站在不同位置,墙壁会反射声音。
- 模拟出"佩戴者左右耳听到的双声道录音"。
混响(reverb):声音在房间里被墙壁反弹后形成的回响。空浴室回声大、地毯卧室回声小,就是混响差异。
为什么这步有用:
- 真要去录上千小时"一个人戴着双耳麦克风跟朋友吃饭"的录音,几乎不可能。
- 但只要节奏是真人的,模型学到的"对话节奏感"就还是真的。
- 房间可以无限随机生成,等于"训练样本无穷无尽"。
读到这里你应该懂了:用真节奏 + 假声音 + 假房间,绕过了真实数据稀缺的难题。
所以这一节是想说:聪明地造数据,让训练量从几百小时变成"想多少有多少"。

关键数字(What works)
看数字之前先记两个量:
- **dB(分贝)**是声音强度的对数单位。每多 3 dB,听感大约相当于声音"响一倍"。
- SISDRi:可以理解成"目标声音被加强了多少分贝",越大越好。
1. 在没见过的英文测试集上的提升
- 数字:目标说话人的声音被加强了 11.95 dB,模型选对人的概率 92.1%,把陌生人当成同伴的失误率只有 1.5%。
- 对比:一个工业界用得很广的降噪模型 DeepFilterNet2 在同样设置下,效果是 -3.45 dB(也就是反而更糟)。
- 生活语言:原本听不太清的同伴变得明显响很多,100 次只有 1.5 次会把陌生人误当成你的同伴。
2. 真人录音上的表现
- 设置:找了 11 个人(21~39 岁),戴着双耳麦克风录了 6.8 小时真人对话,话题从美食到旅行计划。
- 数字:两人对话提升 7.84 dB(选对率 85%),三人对话提升 6.00 dB(选对率 73.4%)。
- 生活语言:纯粹用合成数据训出来的模型,直接拿来听真人对话也管用——这一步通常是最容易掉链子的。
3. 跨语言迁移
- 设置:模型只学过英文,零样本测试中文(RAMC)和日文。
- 数字:日文 7.92 dB,中文 6.50 dB。
- 生活语言:你不用为每种语言重新训练模型——这是要做"全球版产品"的关键。
4. 在便宜的小板子上的延迟
- 设置:快模型放在 600 元级的开发板(Orange Pi 5B)上跑。
- 数字:每 12.5 毫秒的音频块平均处理时间 8.9 毫秒,占用内存 86 MB。
- 生活语言:处理音频的时间比那段音频本身还短,等于跟得上、不堆积。一个不到 1000 元的板子就能扛。
5. 从未见过的人数也能搞定
- 设置:训练时只给过 2~3 人对话,测试时丢 4 人甚至 5 人。
- 数字:4 人 11.94 dB,5 人 11.85 dB——几乎不掉。
- 生活语言:模型没在死记"几个人",而是真的学会了"配合的节奏"。
6. 真人主观打分
- 设置:11 个人对原始录音和模型输出打分,5 分制。
- 数字:原始混音 1.88 分 → 模型输出 4.30 分。
- 生活语言:不只是仪器数字好看,真人觉得"听起来好太多了"。
下面这张柱状图(论文 Fig. 6)展示的是:在真人录音上,模型把目标声音加强的分贝数分布。大部分集中在 5~15 dB 之间。

下面这张散点图很有意思——一个说话人开始时跟你是同一桌(横轴正分贝),中途离开去加入别桌后(纵轴变负分贝),模型自动把他从增强变成压制。这不是死记,是动态判断。

读到这里你应该懂了:这套方法在多种条件下都能跑出有意义的提升。
所以这一节是想说:数字证明这不是论文实验室里的玩具,是接近能用的东西。
你应该懂的几个新词
每个词的格式:英文(中文):一句定义。一个类比。
Egocentric audio(第一视角音频):从佩戴者自己耳朵位置录到的双声道音频。类比第一人称 vlog,只不过是声音版的。
Beamformer(波束成形器):用多麦克风之间的相位差当"声学探照灯",把某个方向的声音聚焦出来。本文用它对准你自己的嘴。
Turn-taking(轮流发言):对话里的"一来一回"规律——人说话会交替、几乎不重叠、停顿很短。本文模型抓的就是这个节奏。
SISDRi(信噪比提升,单位 dB):衡量"目标声音相对原始混音被加强了多少"。越大越好,每多 3 dB 听感大约响一倍。
嵌入向量(embedding):把一段复杂内容压成的一串数字。两个嵌入向量的夹角越小,原内容就越像(用高中向量内积的直觉理解)。
神经网络(neural network):一种用大量例子自动学规律的程序,类比"一个会做题的考试机器"。
流式模型(streaming model):边收边处理、不等录音结束就出结果的模型。类比直播 vs 录播。
混淆率(CR, confusion rate):模型把陌生人错当成同伴的频率,越低越好。本文新定义的安全指标。
OOD(分布外):测试数据来源跟训练数据不一样。类比"高考考了课外题"。
混响(reverb / RT60):房间反射形成的回声。RT60 是指声音衰减到原来声压百万分之一所需的秒数。
PESQ:一个国际标准的"机器打分听感"工具,约 0~4.5 分。比 SISDRi 更接近"听起来舒不舒服"。
Beamforming(波束成形):上面 beamformer 的动作版,意思一样。
读到这里你应该懂了:这套词是看懂全文的最小词汇表。
所以这一节是想说:论文里的术语其实没那么吓人,每个都能用 1 句类比抓住。
它有什么搞不定的
下面这张图是论文 Fig. 5——展示的是一个失败场景:佩戴者长时间不说话,模型就失灵了。

紫色线在中间一段直接掉到 0 分贝以下(基本无效),等佩戴者重新开口(图里灰色区域)才慢慢恢复。
具体的失灵场景:
- 你两分钟不说话:模型立刻失效。比如听讲座、看电影、安静听别人聊——这些"我只听不说"的场景做不了。
- 两边对话同时换人:当你这桌和隔壁桌都恰好在 1 秒内换了一个发言人时,模型分不清谁该被留下。
- 三人对话比两人差一档:两人对话提升 7.84 dB,三人只有 6.00 dB。家庭聚会、四人围圆桌反而是助听器最常见的场景。
- 新人刚开口的前 2 秒:每个新加入对话的人前 2 秒会"听不太清",要等 2 秒后效果才稳定。
- 模型不会跟你说"我不确定":万一把陌生人当成同伴,你听不到模型滤掉的声音,也不知道自己漏听了什么。
读到这里你应该懂了:这套方法不是万能的,它换来"无需注册"的代价就是"不开口就失灵"。
所以这一节是想说:每个设计选择都有代价,看清代价才能知道下一步往哪走。
它和别的几篇是什么关系
可以画一个集合图来理解:
- 集合 A:靠声纹身份证那一派——要先录入每个人的声音才能识别。本文不在这个集合里。
- 集合 B:靠脑电波直接读你大脑的注意力那一派——精度高,但要在头上贴电极。本文也不在这个集合里。
- 集合 C:靠对话节奏那一派——本文就在这里。论文之前同组做过 Target Conversation Extraction,那是离线版;本文是它的实时双耳升级版。
时间线上:
Target Conversation Extraction (2024) - 离线、单耳、要声纹
↓
Look Once to Hear (2024) - 看一眼目标人完成注册
↓
本文 (2026) - 不用注册、不用看,自动判断
↓
LlamaPIE (2025+) - 接入语言模型,从"听清"到"听懂 + 主动建议"
横向看,作者团队(华盛顿大学 Gollakota 实验室)连续推出了一整条"可编程耳朵"路线,每篇论文减少一个用户操作。本文是其中"用户什么都不用做"的极致。
读到这里你应该懂了:本文是同一条产品路线上"减少用户操作"的最新一棒。
所以这一节是想说:把它放在论文族谱里看,能更清楚它的位置和方向。
我建议这样读这篇
建议这样读:
- 读摘要 + 引言。先把"被动放大 vs 主动挑人"这个对立刻在脑子里。技术细节先放一边。
- 盯着架构图(img_004.jpg)看 5 分钟。把"快模型 + 慢模型 + 自语锚"这三块拼图摆清楚。这张图理解了,方法部分就不用从头啃。
- 跳读"自语作锚"和"双模型动机"两节。这是全文最关键的两个想法,作者也讲得最清楚。
- 看结果表前先记 SISDRi 的含义:每 3 dB 听感响一倍。然后只看 SISDRi 和准确率两列。
- 读"局限"那一段。看一篇好论文怎么诚实交代自己的弱点——这是科研素养训练。
- 跳过附录的网络细节。除非你要复现,不然不影响理解。
读到这里你应该懂了:哪怕术语没全看懂,按这个顺序也能抓住文章核心。
所以这一节是想说:读论文是技能,从框架先入比从细节啃起容易得多。
一些好奇心问答(FAQ)
Q1: 这个模型有多大? A: 三个网络加起来大约 165 万个参数——比手机里随便一个 App 都小。占用内存不到 1 GB。家用游戏显卡都跑得动。
Q2: 训练用了多少电脑、多少时间?
A: 8 张高端显卡(L40s)训了大约 45 天。加上其他阶段一共大约 15002000 卡时。在云上租的话大约 3~4 万人民币。一个研究生项目能负担。
Q3: 我能不能把它装进我的 AirPods? A: 不能直接装——AirPods 不开放第三方代码。但作者用一套 1500 元以内的硬件(开发板 + 双耳麦克风 + 手机)就能复现,普通爱好者可以自己拼。
Q4: 数据集去哪下? A: 英文对话数据 Candor 公开下载(要邮箱注册),中文 RAMC 在 MagicData 注册申请,研究用免费。日文那个商业数据集可能要付费。
Q5: 为什么不用更简单的方法,比如直接用方向波束? A: 因为对话同伴会移动、可能不在同一个方向、可能会换位置。光用方向就锁不住"同一个对话伙伴关系"。本文的"节奏识别"才是关键。
Q6: 它能识别我家的方言吗? A: 论文里只测试了英文、中文普通话、日文标准发音。方言没有专门测,但因为模型抓的是节奏不是发音,理论上方言也行。需要实测验证。
Q7: 处理音频会不会有可怕的延迟? A: 端到端总延迟约 30 毫秒。这低于人耳能察觉的"延迟阈值"(约 50 毫秒),所以你戴上根本感觉不到。
Q8: 万一它把陌生人当成同伴怎么办? A: 论文实测失误率 1.5%~3.7%。但作者承认"用户没有兜底退路"——你听不到被滤掉的声音。后续工作要加"置信度提示"和"物理按钮重置"。
读到这里你应该懂了:这些问题是把这篇论文当真实产品来追问,每一个都很实在。
所以这一节是想说:好论文要经得起这种"如果我要用,会怎样"的问。
如果你想再深入
这篇看完之后,按"必读 → 可读"排序的延伸阅读:
- Target Conversation Extraction(Chen 2024b)——本文的直接前作。读完能看清"从离线 → 实时"的工程飞跃量。
- Semantic Hearing(Veluri 2023)——同组兄弟篇。换一个角度:"按主题(狗叫 / 警笛 / 婴儿哭)来过滤声音"。
- Look Once to Hear(Veluri 2024a)——同组兄弟篇。"看一眼目标人完成注册"的路线。三篇放一起读能完整看清这条路线的演化。
- Stivers 2009 全球 10 种语言的轮流说话研究(PNAS)——跨语言泛化能成立的理论根基。
- NeuroHEED——竞争路线代表,靠脑电波解码注意力。看看"另一条路"长什么样。
读到这里你应该懂了:这篇论文不是孤岛,它有清晰的前后传承和邻居。
所以这一节是想说:找到一篇论文的家族树,是把它真正读懂的关键。
◼
引用本笔记 / Cite this note
@online{eai_proactive_hearing_2026,
title = {(readable note) Proactive Hearing Assistants that Isolate Egocentric Conversations},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2024 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/proactive-hearing/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim