回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Auditory & Acoustic · Plate Nº 12

NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators

16 min read · 5527 字 · ⭐⭐⭐ · auto 摘要

一句话讲什么(TL;DR)

在咖啡馆听不清对面说话?让助听器自己降噪,不连手机、不连云。

所以这一节是想说:这是一篇"把聪明的耳机做小做省电"的论文。


这是个什么场景

周末下午的星巴克,你和朋友约在窗边那张桌子。

隔壁桌大声讨论项目、咖啡机"咔咔"打奶泡、背景音乐里有人在唱英文,全都叠在一起糊成一锅声音粥。你戴着 AirPods Pro 想听清朋友说"你昨天那个 PR 改完了吗"——结果只听到"你昨天那个……改完了吗",中间那段被噪声盖住了。

把场景换到 70 岁的爷爷戴助听器,问题被放大十倍——他听对面孙子说话基本靠猜。

戴在耳后的样子
Plate Nº I戴在耳后的样子

现在市面上"AI 助听器"主要有两种做法:

  1. 把麦克风录到的声音偷偷传到手机上,让手机算完再传回来。问题是:网络一抖、信号一断,回声就乱了。
  2. 在助听器自己里面跑一个超精简的小程序。问题是:噪音确实小了,但孙子的声音也跟着变得像在水底下说话。

这篇论文要解决的就是这个尴尬:

能不能让助听器自己就把这件事做好,不依赖任何外部设备?

但工程上这是个"听起来不可能"的任务,因为同时要满足三件事:

  • :助听器电池只有几百毫安时(mAh,电量单位),相当于一节纽扣电池。
  • :声音从耳朵进、被处理完、再播给你听,整个过程必须在 10 毫秒(千分之一秒)以内。慢一点就会出现"自己说话像在山洞里回响"的诡异感。
  • 像云端那么聪明:得跟手机/电脑里的大模型一样能干净地降噪。

助听器(hearing aid):戴在耳朵上、把声音放大让听障人士听得清的小设备。 mAh(毫安时):电量单位,数字越大电池能撑越久。

所以这一节是想说:这论文想做一个"耳朵戴的小电脑",自己就能听清吵闹里的人话。


NeuralAids — 场景示意:这论文要解决的现实问题
Plate Nº IINeuralAids — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

  • 方案 A:把声音传到手机算。像点外卖叫云端帮你做菜。结果就是网络一卡饭就凉,对话延迟超过 10 毫秒就会让你不舒服。
  • 方案 B:在耳机里跑一个超精简模型(叫 TinyDenoiser)。像让一个小学生帮你做高考题。能写但效果差——降噪同时把人声也"咬碎"了。
  • 方案 C:商业产品(AirPods Pro 等)。其实它们也没完全在耳机里算,至少把一部分计算扔回手机。
  • 方案 D:Phonak 一款 2024 年底的助听器号称做到了。但它是商业秘密,不公开怎么做的。

这篇论文说:我们用一套完全公开的、能复制的方法,把这件事做出来。

所以这一节是想说:要么慢、要么糊、要么商业秘密。这篇要做一份开源的"全程在耳朵里算"的样本。


这篇论文的新想法

硬件 + 神经网络 + 数字压缩,三层一起设计,让一个原本要跑在显卡上的大模型,缩小 100 倍后仍然听得清。

所以这一节是想说:单独优化哪一层都不够,要三层联手。


它分几步做的(方法)

整篇论文做的事可以拆成三大块:搭硬件、改神经网络、做数字压缩。

1. 搭一个"五层蛋糕"硬件

类比:像麦当劳的巨无霸——五层叠在一起,每一层各司其职:上面那片管面包、中间那片管菜、最下面那片管肉。每层换一种功能,但合在一起才是一个完整汉堡。

它在干什么:作者把五块小电路板叠在一起塞进耳后助听器壳里。每一块板各管一件事——充电、蓝牙、AI 计算、外围、麦克风。

最关键的那块叫 AI 板,里面装了一颗叫 GAP9 的特制芯片。

PCB(Printed Circuit Board,印刷电路板):电路用铜线印在塑料板上做成的硬件载体。你能看到的所有电子产品里都有它。 芯片:装在板子上的小黑方块,里面有几十亿个微型开关,负责"思考"。 GAP9:一颗专门为小耳机设计的低功耗 AI 芯片。可以把它想成"耳机里的小型显卡,但只擅长做整数加减乘"。 神经网络(Neural Network):一种由很多个"乘加运算"层叠出来的程序,灵感来自人脑神经元。它通过看大量例子学会做某件事——比如"区分人声和噪声"。

为什么这步有用:把原来需要手机帮忙的算力,挪到耳机本身。这样不再依赖外部设备。

所以这一节是想说:先把"小电脑"装进耳后这块塑料壳里。


2. 改造一个能听人声的神经网络

类比:像你在嘈杂酒吧听音乐时,耳朵其实同时在做两件事——

  • 一件是跟着鼓点走(时间维度:何时出现)
  • 一件是分辨这是吉他还是钢琴(频率维度:声音的高低)

作者就用两条通道分别处理这两件事。

它在干什么

  1. 先把一段 6 毫秒的小音频切成"时间-频率"二维小方格。
  2. 一条通道专门看频率维度(低音 / 中音 / 高音 之间的关系)。
  3. 另一条通道专门看时间维度(前后几帧的连贯)。
  4. 两条通道的结果合并,还原成干净人声。

STFT(Short-Time Fourier Transform,短时傅里叶变换):把一段声音按小窗口切开,每个窗口变成一张"频率分布图"。物理课上讲过钢琴 do 的频率是 261 Hz——STFT 就是把声音里这种"哪个频率有多响"画出来。 dual-path(双路径)网络:两条独立的神经网络通道,一条管时间、一条管频率。 TF-GridNet:2023 年别人发表的一个 SOTA(State-Of-The-Art,目前最强水平)双路径网络,本文从这个起点开始改。

但 TF-GridNet 直接搬过来跑不起来——太大太慢,硬件吃不消。所以作者做了三处魔改:

魔改 a:把频率"压扁"

类比:原来要逐个数完一本书所有的字才告诉你这本书写啥。现在改成先把书横着压扁四倍,再快速扫一遍。

它在干什么:原本网络要按 257 个频率点一个一个顺序处理,慢得离谱。作者先用一种叫"步长卷积"的操作把 257 压成 64,再处理。

卷积(convolution):一种"小窗口在数据上滑过、每滑一步算一次乘加"的操作。可以把它当成"用一把小刷子在画上反复涂、每涂一下记下涂的结果"。 步长卷积:让小刷子每次跳几步而不是一步,这样输出比输入短,等于做了"压缩"。 GRU(Gated Recurrent Unit,门控循环单元)LSTM(Long Short-Term Memory,长短期记忆网络):两种"会记住过去"的神经网络模块。GRU 比 LSTM 简单一点,速度快约 1.3 倍,效果差不多。作者把网络里的 LSTM 都换成 GRU。

为什么这步有用:少做 75% 的计算量,速度立刻提上来,效果几乎不掉。

魔改 b:双窗口拼接,省掉一段等待

延迟图:算法延迟 vs 硬件延迟
Plate Nº III延迟图:算法延迟 vs 硬件延迟

类比:原来切香肠要左切右切再粘起来,邻片得等下一片切完才能拼。现在用两把不一样大的刀,错开切,邻片不用等下一片就能拼好。

它在干什么:作者用两个不同大小的窗函数——分析时用大窗口(看得多)、合成时用小窗口(不依赖未来)。这样不需要等下一帧的数据就能拼好当前帧。

算法延迟(algorithmic latency):模型本身设计上"必须等多久才能输出"。 硬件延迟(hardware latency):芯片实际算这一帧花多久。 窗函数:在切音频时给每段加一个"两边轻、中间重"的权重曲线。物理上类似"渐入渐出"。

关键数字:算法延迟从 25 毫秒(之前的 TinyDenoiser)降到 10 毫秒。人耳对 10 毫秒以下的延迟基本不敏感,所以这是落地的关键门槛。

魔改 c:留底汤——把上一帧的中间结果存下来

类比:做一锅汤,每天倒掉太浪费。把昨天的底汤留着,今天接着用。

它在干什么:神经网络每来一个新音频块,很多中间计算其实和上一块共用。作者维护四个小缓存(约 30 KB),把这些中间结果存起来下次直接用。

为什么这步有用:避免重复算,速度再上一个台阶。

所以这一节是想说:作者把一个聪明但太重的网络瘦身了三道,让它能在小芯片上跑起来。


3. 把"小数"压成"整数",再训练让模型适应

类比:考试前复习时,提前用"被压缩成更粗糙精度"的草稿纸练,让自己习惯那种粗糙——真正考试就不慌了。

它在干什么

原本神经网络里的每个数字用 32 位的小数(叫 float32)存——精度高但占空间。作者把它们压成 8 位的整数(叫 int8)——空间少 4 倍、整数加减乘比小数快 5-10 倍。

直接压会出问题。论文实测:直接压完,降噪指标从 8.65 dB 掉到 -1.70 dB——也就是说降完比不降还差,模型彻底坏了。

作者的两步解法:

解法 1:混合精度

类比:像考试时你把粗略思路写在普通纸上,但关键步骤写在格子纸上保证清晰。

第一层和最后一层(最敏感的两层)用 16 位的精度,中间层全压成 8 位整数。

bfloat16:16 位的小数格式,精度比 float32 低、比 int8 高。 int8:8 位整数,能表示 -128 到 127 之间的值。

解法 2:QAT(量化感知训练)

类比:考试前先用真考试的卷子练,而不是用印得清楚的练习卷。

量化(quantization):把高精度的小数压成低精度整数的过程。 QAT(Quantization-Aware Training):在训练阶段就把"压缩"这一步加进去,让模型一边学一边适应"压完会损失精度"这件事。

普通做法是先训练好再压(PTQ,Post-Training Quantization)。作者的做法是边训练边压,让模型学会补偿压缩带来的损失。

关键术语解释

训练(training):让模型看大量例子(输入 + 正确答案),自动调整自己的内部数字直到它能给出接近正确的答案。 Loss(扣分总和):模型每次回答都和"标准答案"比一下,差得越远扣分越多。Loss 就是把所有题的扣分加起来——越小说明模型答得越好。模型学习的目标就是想办法降这个分。 梯度下降(gradient descent):调整模型参数的方法。像下山找最低点:每一步往最陡的下坡方向迈一小步,直到走到山谷底部(也就是 Loss 最低的地方)。 epoch(训练轮):把整个训练数据集完整看一遍叫一个 epoch。

关键数字:用了混合精度 + QAT 之后,性能从 0.90 dB 拉回到 8.19 dB——只比原始浮点版(8.65 dB)低 0.57 dB。

所以这一节是想说:模型不能直接压,得边压边训练让它学会适应粗糙精度。


NeuralAids — 方法示意:核心 pipeline
Plate Nº IVNeuralAids — 方法示意:核心 pipeline

关键数字(What works)

QAT 后量化模型几乎追平浮点
Plate Nº VQAT 后量化模型几乎追平浮点

每个数字后面加一句"这意味着什么"。

1. 处理一帧只要 5.54 毫秒

  • 原文数据:每收到一段 6 毫秒的新音频,模型在 5.54 毫秒内就处理完。
  • 对比基准:TinyDenoiser(之前的小模型)只要 0.58 毫秒——更快,但算法延迟 25 毫秒抵消了硬件优势,体验仍然差。
  • 生活语言:就像考试 6 分钟一道题,本作 5.54 分钟交卷,留 0.46 分钟缓冲;TinyDenoiser 30 秒交卷但答案乱写。

2. 功耗只有 71.64 毫瓦

  • 原文数据:芯片本身约 71.64 mW,加上蓝牙麦克风等总共约 82 mW。
  • 对比基准:手机端跑同类模型轻松上百毫瓦。
  • 生活语言:一节助听器小电池(约 1.155 Wh)按这个功耗能撑约 14 小时——一天通勤足够。

mW(毫瓦):功率单位,相当于"每秒消耗多少能量"。 Wh(瓦时):能量单位。1 Wh 能让 1 W 的设备跑 1 小时。

3. 模型只有 299 KB

  • 原文数据:压缩后模型大小 299 KB(约 0.3 MB)。
  • 对比基准:你手机上一张照片就有几 MB;GPT-3 有 700 GB。
  • 生活语言:比一张高清照片还小,但能听清咖啡馆里的人话。

4. 降噪能力 SISDRi 8.19 dB

  • 原文数据:本作 8.19 dB;TinyDenoiser 同条件 5.97 dB;浮点版理想上限 8.65 dB。
  • 对比基准:比 TinyDenoiser 高 2.22 dB;只比理想浮点低 0.57 dB。
  • 生活语言:从"中等清晰度"提到"高清晰度",跨过了一个明显感受上的门槛。

dB(分贝):声音强度的对数单位。两个声音差 10 dB 大约是"响度感觉差一倍"。 SISDRi(Scale-Invariant Signal-to-Distortion Ratio improvement):一个客观打分,衡量"降噪后人声比原来干净了多少"。数字越大越好。

5. 28 人主观打分

  • 原文数据:28 个志愿者在 15 个真实场景里盲听三种模式(不开 AI / 旧的 TinyDenoiser / 本作),打 1~5 分。
  • 对比基准:本作整体打分 3.38;不开 AI 是 2.96;TinyDenoiser 反而掉到 1.96。
  • 生活语言:TinyDenoiser 是"为了减肥把肌肉一起减掉"——降噪同时把人声也弄糊了。本作两件事同时做到。

MOS(Mean Opinion Score,主观平均评分):让真人听完打 1~5 分,取平均。类比"豆瓣评分"。

6. 量化前后差距:从 7.86 dB 缩到 0.57 dB

  • 原文数据:直接压(PTQ)时差距 7.86 dB;用 QAT 后差距压到 0.57 dB。
  • 对比基准:14 倍的差距压缩。
  • 生活语言:不用 QAT 就是"模型崩了",用了 QAT 就是"几乎不掉点"。这两个技术每一个都不能省。

所以这一节是想说:又快又小又省电又好听,四件事一起做到了。


你应该懂的几个新词

GAP9 / GreenWaves Application Processor 9:一颗专门为低功耗 AI 设计的小芯片。像"耳机里的小型显卡"。

STFT / Short-Time Fourier Transform / 短时傅里叶变换:把一段声音切成小窗口,每个窗口画成"频率分布图"。

dual-path / 双路径网络:神经网络的一种结构,一条通道处理时间维度、一条处理频率维度。

TF-GridNet:2023 年发表的双路径语音降噪网络,本文的起点。

SISDRi / Scale-Invariant Signal-to-Distortion Ratio improvement:客观降噪打分,单位 dB,数字越大越好。

MOS / Mean Opinion Score:真人主观打分 1~5 分的平均值,类似"豆瓣评分"。

PTQ / Post-Training Quantization / 训练后量化:训练完再压成整数。简单但效果差。

QAT / Quantization-Aware Training / 量化感知训练:训练阶段就模拟"被压成整数"的损失,让模型学会补偿。

GRU / Gated Recurrent Unit / 门控循环单元:一种比 LSTM 简单的"会记住过去"的网络模块。

量化 / quantization:把神经网络里的 32 位小数压成 8 位整数。空间少 4 倍、运算快 5-10 倍。

bfloat16:16 位小数格式,介于 32 位精度和 8 位整数之间。

算法延迟 vs 硬件延迟:前者是"模型设计上必须等多久",后者是"芯片实际算多久"。两者都得低于 10 毫秒。

所以这一节是想说:这些词以后还会反复出现,先建一个小词典。


它有什么搞不定的

  • 没人说话时还在烧电。安静的图书馆里戴 6 小时,电池没必要烧成这样——其实可以加个"没人说话就让 AI 睡觉"的开关,但论文没做。
  • 只在 GAP9 一颗芯片上验证过。换一家厂商的芯片能不能直接用,未知。
  • 训练数据全是合成的。地铁里、强风海边、教堂大堂这些极端声学环境没测,可能掉链子。
  • 只用了 1 个麦克风。其实硬件有 3 个麦克风,但模型只用了 1 个。意味着"声源在左在右"的空间信息完全没用上。
  • 没针对听损人群个性化。志愿者里没区分听力正常 vs 听损者,所以这更像"健康人降噪耳塞",不是真正意义的"医疗助听器"。
  • 没有 ANC(主动降噪)。AirPods Pro 那种"产生反向声波抵消噪声"的功能,本作没做。
  • 形状还是 BTE(耳后挂)助听器,不是耳塞。现在的 5 块 PCB 叠起来挂在耳后,不能戴它去跑步。

所以这一节是想说:能跑起来,但还有不少明显的留白,每条都是"未来工作"的候选。


它和别的几篇是什么关系

可以画一张"听觉智能"的时间线:

ClearBuds (CHI 2022)        ← 同组,耳机收音 + 手机算
  ↓
Semantic Hearing (UIST 2023)  ← 同组,选择性听类别(按"听这个类型的声音"过滤)
  ↓
Look Once to Hear (CHI 2024)  ← 同组,选择性听某个人
  ↓
Sound Bubbles (Nature Electronics 2024)  ← 同组,按距离过滤
  ↓
NeuralAids (本文)            ← 第一篇全程耳机内、不依赖手机

集合关系:

  • 这是 13 篇阅读清单里唯一一篇研究"边缘 AI 部署"的工程论文
  • 和那些跑在大显卡集群上的视觉机器人模型形成对比:当算力不是问题时关心"模型能做多复杂",当算力极度受限时关心"模型怎么压"。
  • 方法论"模型压缩 + 硬件协同"的思路,和把大模型部署到机器人本体的工作是相通的。

所以这一节是想说:在听觉智能这条线上,这篇是"硬件落地"那一段;在更宏观的具身 AI 里,它代表了"如何把模型塞进真实物理设备"。


我建议这样读这篇

  1. 先看 Abstract 和 Fig. 2 的耳机照片——1 分钟知道是什么东西、解决什么实际问题。
  2. 跳到 Table 3 的成绩单——四列数字(降噪效果 / 模型大小 / 推理时间 / 功耗)。能看懂"为啥直接压成 int8 是 -1.70 dB"就抓住了核心动机。
  3. 回头读 §2.2.2 神经网络架构——配合 Fig. 3C 看双路径是怎么从 TF-GridNet 改过来的。重点记"频率压扁"和"GRU 替代 LSTM"两件事。
  4. 读 §2.3.4 QAT 部分——这是论文真正的方法贡献。看懂"为啥混合精度还不够还要加 QAT"。
  5. 跳读 §3.2 用户研究——看 Fig. 8 的两组柱状图。重点是 TinyDenoiser 整体打分反而下降这个反例。
  6. 跳过 §2.1 硬件细节(除非你做嵌入式硬件)——五块 PCB 怎么连这种工程细节零基础读了用不上。

所以这一节是想说:先看结果再回头看方法,最快理解论文的价值。


一些好奇心问答(FAQ)

Q1: 这个模型有多大?我家的 RTX 4070 跑得动吗?

压缩后模型只有 299 KB,比一张照片还小。你的 4070 当然跑得动,但官方推理代码是给那颗特殊小芯片 GAP9 写的,没有适配显卡的版本。训练阶段需要一张普通显卡(RTX 3090 / 4070 都够)。

Q2: 训练数据从哪来?

全是合成出来的。具体配方:

  • 干净人声:LibriSpeech(公开免费的有声书数据集,360 小时)
  • 房间回声:4 个公开"双耳房间冲激响应"数据集
  • 背景噪音:WHAM!(58 小时咖啡馆/餐厅/公园等真实噪声)
  • 把它们叠在一起当作训练样本

房间冲激响应(Room Impulse Response):在某个房间里"啪"地拍一下手,麦克风录到的衰减+反射波形。把它和干净人声做卷积可以模拟"在那个房间里说话"的效果。

Q3: 我能跑代码吗?官方开源了吗?

截至 2026-05,论文发表时还没公开代码。同组前几篇的代码在 github.com/uw-x,可以参考。GAP9 的推理框架在 github.com/GreenWaves-Technologies。

Q4: 训练一次要烧多少卡时?

第一阶段大约 5500 小时音频处理量,单张 RTX 3090 估计要 3-7 天。QAT 阶段短得多,约 12-24 小时。总共单卡 5-10 天,集群可以压到 1-2 天。

Q5: 为什么不用更简单的方法,比如传统数字滤波?

传统数字滤波(频率均衡、谱减法)只能处理"稳定的背景噪声",对人说话、瓷器碰撞、突然的笑声这种"非平稳噪声"无能为力。神经网络的优势是它能学到"什么是人声的统计特征"——这是死规则写不出来的。

Q6: GAP9 开发板哪里买?贵吗?

GreenWaves 官网(greenwaves-technologies.com),评估板大约几百欧元。但要完全复现这套助听器还需要自己设计 5 块 PCB——这部分论文没开源。

Q7: 它能识别说话内容吗?比如做语音转文字?

不能。它只做降噪,不做识别。识别需要再叠一个语音识别模型,那是另一个研究方向。

Q8: 戴它能去跑步吗?

不行。现在的形状是"耳后挂"助听器,5 块 PCB 叠起来比耳塞大 3-4 倍。论文说下一步会做成耳塞形状。

所以这一节是想说:实操问题先一次性回答清楚,不留困惑。


如果你想再深入

前传 / 必读基础

  1. TinyDenoiser——本文最强对比基线。理解它就理解了"小耳机降噪"最基础的做法。
  2. TF-GridNet——本文神经网络的起点,双路径范式的代表。
  3. Wang et al. STFT-domain neural speech enhancement with very low algorithmic latency——双窗口设计的思想出处。

同组续作 / 兄弟工作

  1. Look Once to Hear (CHI 2024)——同组前作,做"只听某个特定人的声音"。
  2. Sound Bubbles (Nature Electronics 2024)——同组前作,做"按距离过滤声音"。
  3. TF-MLPNet (Clarity Challenge 2025)——同作者的更小更快后续,可能是 NeuralAid 下一代候选模型。

量化技术

  1. Esser et al. Learned Step-Size Quantization——让"压缩比例"也变成可学习参数的论文。
  2. Cohen et al. Fully Quantized NN for Audio Source Separation——全量化语音分离的近邻工作。

所以这一节是想说:想沿着任何一条线深挖都有现成的入口。

引用本笔记 / Cite this note
BibTeX
@online{eai_neuralaids_2026,
  title       = {(readable note) NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/neuralaids/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim