NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
一句话讲什么(TL;DR)
在咖啡馆听不清对面说话?让助听器自己降噪,不连手机、不连云。
所以这一节是想说:这是一篇"把聪明的耳机做小做省电"的论文。
这是个什么场景
周末下午的星巴克,你和朋友约在窗边那张桌子。
隔壁桌大声讨论项目、咖啡机"咔咔"打奶泡、背景音乐里有人在唱英文,全都叠在一起糊成一锅声音粥。你戴着 AirPods Pro 想听清朋友说"你昨天那个 PR 改完了吗"——结果只听到"你昨天那个……改完了吗",中间那段被噪声盖住了。
把场景换到 70 岁的爷爷戴助听器,问题被放大十倍——他听对面孙子说话基本靠猜。

现在市面上"AI 助听器"主要有两种做法:
- 把麦克风录到的声音偷偷传到手机上,让手机算完再传回来。问题是:网络一抖、信号一断,回声就乱了。
- 在助听器自己里面跑一个超精简的小程序。问题是:噪音确实小了,但孙子的声音也跟着变得像在水底下说话。
这篇论文要解决的就是这个尴尬:
能不能让助听器自己就把这件事做好,不依赖任何外部设备?
但工程上这是个"听起来不可能"的任务,因为同时要满足三件事:
- 小:助听器电池只有几百毫安时(mAh,电量单位),相当于一节纽扣电池。
- 快:声音从耳朵进、被处理完、再播给你听,整个过程必须在 10 毫秒(千分之一秒)以内。慢一点就会出现"自己说话像在山洞里回响"的诡异感。
- 像云端那么聪明:得跟手机/电脑里的大模型一样能干净地降噪。
助听器(hearing aid):戴在耳朵上、把声音放大让听障人士听得清的小设备。 mAh(毫安时):电量单位,数字越大电池能撑越久。
所以这一节是想说:这论文想做一个"耳朵戴的小电脑",自己就能听清吵闹里的人话。

之前的人怎么做的,为什么不够好
- 方案 A:把声音传到手机算。像点外卖叫云端帮你做菜。结果就是网络一卡饭就凉,对话延迟超过 10 毫秒就会让你不舒服。
- 方案 B:在耳机里跑一个超精简模型(叫 TinyDenoiser)。像让一个小学生帮你做高考题。能写但效果差——降噪同时把人声也"咬碎"了。
- 方案 C:商业产品(AirPods Pro 等)。其实它们也没完全在耳机里算,至少把一部分计算扔回手机。
- 方案 D:Phonak 一款 2024 年底的助听器号称做到了。但它是商业秘密,不公开怎么做的。
这篇论文说:我们用一套完全公开的、能复制的方法,把这件事做出来。
所以这一节是想说:要么慢、要么糊、要么商业秘密。这篇要做一份开源的"全程在耳朵里算"的样本。
这篇论文的新想法
硬件 + 神经网络 + 数字压缩,三层一起设计,让一个原本要跑在显卡上的大模型,缩小 100 倍后仍然听得清。
所以这一节是想说:单独优化哪一层都不够,要三层联手。
它分几步做的(方法)
整篇论文做的事可以拆成三大块:搭硬件、改神经网络、做数字压缩。
1. 搭一个"五层蛋糕"硬件
类比:像麦当劳的巨无霸——五层叠在一起,每一层各司其职:上面那片管面包、中间那片管菜、最下面那片管肉。每层换一种功能,但合在一起才是一个完整汉堡。
它在干什么:作者把五块小电路板叠在一起塞进耳后助听器壳里。每一块板各管一件事——充电、蓝牙、AI 计算、外围、麦克风。
最关键的那块叫 AI 板,里面装了一颗叫 GAP9 的特制芯片。
PCB(Printed Circuit Board,印刷电路板):电路用铜线印在塑料板上做成的硬件载体。你能看到的所有电子产品里都有它。 芯片:装在板子上的小黑方块,里面有几十亿个微型开关,负责"思考"。 GAP9:一颗专门为小耳机设计的低功耗 AI 芯片。可以把它想成"耳机里的小型显卡,但只擅长做整数加减乘"。 神经网络(Neural Network):一种由很多个"乘加运算"层叠出来的程序,灵感来自人脑神经元。它通过看大量例子学会做某件事——比如"区分人声和噪声"。
为什么这步有用:把原来需要手机帮忙的算力,挪到耳机本身。这样不再依赖外部设备。
所以这一节是想说:先把"小电脑"装进耳后这块塑料壳里。
2. 改造一个能听人声的神经网络
类比:像你在嘈杂酒吧听音乐时,耳朵其实同时在做两件事——
- 一件是跟着鼓点走(时间维度:何时出现)
- 一件是分辨这是吉他还是钢琴(频率维度:声音的高低)
作者就用两条通道分别处理这两件事。
它在干什么:
- 先把一段 6 毫秒的小音频切成"时间-频率"二维小方格。
- 一条通道专门看频率维度(低音 / 中音 / 高音 之间的关系)。
- 另一条通道专门看时间维度(前后几帧的连贯)。
- 两条通道的结果合并,还原成干净人声。
STFT(Short-Time Fourier Transform,短时傅里叶变换):把一段声音按小窗口切开,每个窗口变成一张"频率分布图"。物理课上讲过钢琴 do 的频率是 261 Hz——STFT 就是把声音里这种"哪个频率有多响"画出来。 dual-path(双路径)网络:两条独立的神经网络通道,一条管时间、一条管频率。 TF-GridNet:2023 年别人发表的一个 SOTA(State-Of-The-Art,目前最强水平)双路径网络,本文从这个起点开始改。
但 TF-GridNet 直接搬过来跑不起来——太大太慢,硬件吃不消。所以作者做了三处魔改:
魔改 a:把频率"压扁"
类比:原来要逐个数完一本书所有的字才告诉你这本书写啥。现在改成先把书横着压扁四倍,再快速扫一遍。
它在干什么:原本网络要按 257 个频率点一个一个顺序处理,慢得离谱。作者先用一种叫"步长卷积"的操作把 257 压成 64,再处理。
卷积(convolution):一种"小窗口在数据上滑过、每滑一步算一次乘加"的操作。可以把它当成"用一把小刷子在画上反复涂、每涂一下记下涂的结果"。 步长卷积:让小刷子每次跳几步而不是一步,这样输出比输入短,等于做了"压缩"。 GRU(Gated Recurrent Unit,门控循环单元) 和 LSTM(Long Short-Term Memory,长短期记忆网络):两种"会记住过去"的神经网络模块。GRU 比 LSTM 简单一点,速度快约 1.3 倍,效果差不多。作者把网络里的 LSTM 都换成 GRU。
为什么这步有用:少做 75% 的计算量,速度立刻提上来,效果几乎不掉。
魔改 b:双窗口拼接,省掉一段等待

类比:原来切香肠要左切右切再粘起来,邻片得等下一片切完才能拼。现在用两把不一样大的刀,错开切,邻片不用等下一片就能拼好。
它在干什么:作者用两个不同大小的窗函数——分析时用大窗口(看得多)、合成时用小窗口(不依赖未来)。这样不需要等下一帧的数据就能拼好当前帧。
算法延迟(algorithmic latency):模型本身设计上"必须等多久才能输出"。 硬件延迟(hardware latency):芯片实际算这一帧花多久。 窗函数:在切音频时给每段加一个"两边轻、中间重"的权重曲线。物理上类似"渐入渐出"。
关键数字:算法延迟从 25 毫秒(之前的 TinyDenoiser)降到 10 毫秒。人耳对 10 毫秒以下的延迟基本不敏感,所以这是落地的关键门槛。
魔改 c:留底汤——把上一帧的中间结果存下来
类比:做一锅汤,每天倒掉太浪费。把昨天的底汤留着,今天接着用。
它在干什么:神经网络每来一个新音频块,很多中间计算其实和上一块共用。作者维护四个小缓存(约 30 KB),把这些中间结果存起来下次直接用。
为什么这步有用:避免重复算,速度再上一个台阶。
所以这一节是想说:作者把一个聪明但太重的网络瘦身了三道,让它能在小芯片上跑起来。
3. 把"小数"压成"整数",再训练让模型适应
类比:考试前复习时,提前用"被压缩成更粗糙精度"的草稿纸练,让自己习惯那种粗糙——真正考试就不慌了。
它在干什么:
原本神经网络里的每个数字用 32 位的小数(叫 float32)存——精度高但占空间。作者把它们压成 8 位的整数(叫 int8)——空间少 4 倍、整数加减乘比小数快 5-10 倍。
但直接压会出问题。论文实测:直接压完,降噪指标从 8.65 dB 掉到 -1.70 dB——也就是说降完比不降还差,模型彻底坏了。
作者的两步解法:
解法 1:混合精度
类比:像考试时你把粗略思路写在普通纸上,但关键步骤写在格子纸上保证清晰。
第一层和最后一层(最敏感的两层)用 16 位的精度,中间层全压成 8 位整数。
bfloat16:16 位的小数格式,精度比 float32 低、比 int8 高。 int8:8 位整数,能表示 -128 到 127 之间的值。
解法 2:QAT(量化感知训练)
类比:考试前先用真考试的卷子练,而不是用印得清楚的练习卷。
量化(quantization):把高精度的小数压成低精度整数的过程。 QAT(Quantization-Aware Training):在训练阶段就把"压缩"这一步加进去,让模型一边学一边适应"压完会损失精度"这件事。
普通做法是先训练好再压(PTQ,Post-Training Quantization)。作者的做法是边训练边压,让模型学会补偿压缩带来的损失。
关键术语解释:
训练(training):让模型看大量例子(输入 + 正确答案),自动调整自己的内部数字直到它能给出接近正确的答案。 Loss(扣分总和):模型每次回答都和"标准答案"比一下,差得越远扣分越多。Loss 就是把所有题的扣分加起来——越小说明模型答得越好。模型学习的目标就是想办法降这个分。 梯度下降(gradient descent):调整模型参数的方法。像下山找最低点:每一步往最陡的下坡方向迈一小步,直到走到山谷底部(也就是 Loss 最低的地方)。 epoch(训练轮):把整个训练数据集完整看一遍叫一个 epoch。
关键数字:用了混合精度 + QAT 之后,性能从 0.90 dB 拉回到 8.19 dB——只比原始浮点版(8.65 dB)低 0.57 dB。
所以这一节是想说:模型不能直接压,得边压边训练让它学会适应粗糙精度。

关键数字(What works)

每个数字后面加一句"这意味着什么"。
1. 处理一帧只要 5.54 毫秒
- 原文数据:每收到一段 6 毫秒的新音频,模型在 5.54 毫秒内就处理完。
- 对比基准:TinyDenoiser(之前的小模型)只要 0.58 毫秒——更快,但算法延迟 25 毫秒抵消了硬件优势,体验仍然差。
- 生活语言:就像考试 6 分钟一道题,本作 5.54 分钟交卷,留 0.46 分钟缓冲;TinyDenoiser 30 秒交卷但答案乱写。
2. 功耗只有 71.64 毫瓦
- 原文数据:芯片本身约 71.64 mW,加上蓝牙麦克风等总共约 82 mW。
- 对比基准:手机端跑同类模型轻松上百毫瓦。
- 生活语言:一节助听器小电池(约 1.155 Wh)按这个功耗能撑约 14 小时——一天通勤足够。
mW(毫瓦):功率单位,相当于"每秒消耗多少能量"。 Wh(瓦时):能量单位。1 Wh 能让 1 W 的设备跑 1 小时。
3. 模型只有 299 KB
- 原文数据:压缩后模型大小 299 KB(约 0.3 MB)。
- 对比基准:你手机上一张照片就有几 MB;GPT-3 有 700 GB。
- 生活语言:比一张高清照片还小,但能听清咖啡馆里的人话。
4. 降噪能力 SISDRi 8.19 dB
- 原文数据:本作 8.19 dB;TinyDenoiser 同条件 5.97 dB;浮点版理想上限 8.65 dB。
- 对比基准:比 TinyDenoiser 高 2.22 dB;只比理想浮点低 0.57 dB。
- 生活语言:从"中等清晰度"提到"高清晰度",跨过了一个明显感受上的门槛。
dB(分贝):声音强度的对数单位。两个声音差 10 dB 大约是"响度感觉差一倍"。 SISDRi(Scale-Invariant Signal-to-Distortion Ratio improvement):一个客观打分,衡量"降噪后人声比原来干净了多少"。数字越大越好。
5. 28 人主观打分
- 原文数据:28 个志愿者在 15 个真实场景里盲听三种模式(不开 AI / 旧的 TinyDenoiser / 本作),打 1~5 分。
- 对比基准:本作整体打分 3.38;不开 AI 是 2.96;TinyDenoiser 反而掉到 1.96。
- 生活语言:TinyDenoiser 是"为了减肥把肌肉一起减掉"——降噪同时把人声也弄糊了。本作两件事同时做到。
MOS(Mean Opinion Score,主观平均评分):让真人听完打 1~5 分,取平均。类比"豆瓣评分"。
6. 量化前后差距:从 7.86 dB 缩到 0.57 dB
- 原文数据:直接压(PTQ)时差距 7.86 dB;用 QAT 后差距压到 0.57 dB。
- 对比基准:14 倍的差距压缩。
- 生活语言:不用 QAT 就是"模型崩了",用了 QAT 就是"几乎不掉点"。这两个技术每一个都不能省。
所以这一节是想说:又快又小又省电又好听,四件事一起做到了。
你应该懂的几个新词
GAP9 / GreenWaves Application Processor 9:一颗专门为低功耗 AI 设计的小芯片。像"耳机里的小型显卡"。
STFT / Short-Time Fourier Transform / 短时傅里叶变换:把一段声音切成小窗口,每个窗口画成"频率分布图"。
dual-path / 双路径网络:神经网络的一种结构,一条通道处理时间维度、一条处理频率维度。
TF-GridNet:2023 年发表的双路径语音降噪网络,本文的起点。
SISDRi / Scale-Invariant Signal-to-Distortion Ratio improvement:客观降噪打分,单位 dB,数字越大越好。
MOS / Mean Opinion Score:真人主观打分 1~5 分的平均值,类似"豆瓣评分"。
PTQ / Post-Training Quantization / 训练后量化:训练完再压成整数。简单但效果差。
QAT / Quantization-Aware Training / 量化感知训练:训练阶段就模拟"被压成整数"的损失,让模型学会补偿。
GRU / Gated Recurrent Unit / 门控循环单元:一种比 LSTM 简单的"会记住过去"的网络模块。
量化 / quantization:把神经网络里的 32 位小数压成 8 位整数。空间少 4 倍、运算快 5-10 倍。
bfloat16:16 位小数格式,介于 32 位精度和 8 位整数之间。
算法延迟 vs 硬件延迟:前者是"模型设计上必须等多久",后者是"芯片实际算多久"。两者都得低于 10 毫秒。
所以这一节是想说:这些词以后还会反复出现,先建一个小词典。
它有什么搞不定的
- 没人说话时还在烧电。安静的图书馆里戴 6 小时,电池没必要烧成这样——其实可以加个"没人说话就让 AI 睡觉"的开关,但论文没做。
- 只在 GAP9 一颗芯片上验证过。换一家厂商的芯片能不能直接用,未知。
- 训练数据全是合成的。地铁里、强风海边、教堂大堂这些极端声学环境没测,可能掉链子。
- 只用了 1 个麦克风。其实硬件有 3 个麦克风,但模型只用了 1 个。意味着"声源在左在右"的空间信息完全没用上。
- 没针对听损人群个性化。志愿者里没区分听力正常 vs 听损者,所以这更像"健康人降噪耳塞",不是真正意义的"医疗助听器"。
- 没有 ANC(主动降噪)。AirPods Pro 那种"产生反向声波抵消噪声"的功能,本作没做。
- 形状还是 BTE(耳后挂)助听器,不是耳塞。现在的 5 块 PCB 叠起来挂在耳后,不能戴它去跑步。
所以这一节是想说:能跑起来,但还有不少明显的留白,每条都是"未来工作"的候选。
它和别的几篇是什么关系
可以画一张"听觉智能"的时间线:
ClearBuds (CHI 2022) ← 同组,耳机收音 + 手机算
↓
Semantic Hearing (UIST 2023) ← 同组,选择性听类别(按"听这个类型的声音"过滤)
↓
Look Once to Hear (CHI 2024) ← 同组,选择性听某个人
↓
Sound Bubbles (Nature Electronics 2024) ← 同组,按距离过滤
↓
NeuralAids (本文) ← 第一篇全程耳机内、不依赖手机
集合关系:
- 这是 13 篇阅读清单里唯一一篇研究"边缘 AI 部署"的工程论文。
- 和那些跑在大显卡集群上的视觉机器人模型形成对比:当算力不是问题时关心"模型能做多复杂",当算力极度受限时关心"模型怎么压"。
- 方法论"模型压缩 + 硬件协同"的思路,和把大模型部署到机器人本体的工作是相通的。
所以这一节是想说:在听觉智能这条线上,这篇是"硬件落地"那一段;在更宏观的具身 AI 里,它代表了"如何把模型塞进真实物理设备"。
我建议这样读这篇
- 先看 Abstract 和 Fig. 2 的耳机照片——1 分钟知道是什么东西、解决什么实际问题。
- 跳到 Table 3 的成绩单——四列数字(降噪效果 / 模型大小 / 推理时间 / 功耗)。能看懂"为啥直接压成 int8 是 -1.70 dB"就抓住了核心动机。
- 回头读 §2.2.2 神经网络架构——配合 Fig. 3C 看双路径是怎么从 TF-GridNet 改过来的。重点记"频率压扁"和"GRU 替代 LSTM"两件事。
- 读 §2.3.4 QAT 部分——这是论文真正的方法贡献。看懂"为啥混合精度还不够还要加 QAT"。
- 跳读 §3.2 用户研究——看 Fig. 8 的两组柱状图。重点是 TinyDenoiser 整体打分反而下降这个反例。
- 跳过 §2.1 硬件细节(除非你做嵌入式硬件)——五块 PCB 怎么连这种工程细节零基础读了用不上。
所以这一节是想说:先看结果再回头看方法,最快理解论文的价值。
一些好奇心问答(FAQ)
Q1: 这个模型有多大?我家的 RTX 4070 跑得动吗?
压缩后模型只有 299 KB,比一张照片还小。你的 4070 当然跑得动,但官方推理代码是给那颗特殊小芯片 GAP9 写的,没有适配显卡的版本。训练阶段需要一张普通显卡(RTX 3090 / 4070 都够)。
Q2: 训练数据从哪来?
全是合成出来的。具体配方:
- 干净人声:LibriSpeech(公开免费的有声书数据集,360 小时)
- 房间回声:4 个公开"双耳房间冲激响应"数据集
- 背景噪音:WHAM!(58 小时咖啡馆/餐厅/公园等真实噪声)
- 把它们叠在一起当作训练样本
房间冲激响应(Room Impulse Response):在某个房间里"啪"地拍一下手,麦克风录到的衰减+反射波形。把它和干净人声做卷积可以模拟"在那个房间里说话"的效果。
Q3: 我能跑代码吗?官方开源了吗?
截至 2026-05,论文发表时还没公开代码。同组前几篇的代码在 github.com/uw-x,可以参考。GAP9 的推理框架在 github.com/GreenWaves-Technologies。
Q4: 训练一次要烧多少卡时?
第一阶段大约 5500 小时音频处理量,单张 RTX 3090 估计要 3-7 天。QAT 阶段短得多,约 12-24 小时。总共单卡 5-10 天,集群可以压到 1-2 天。
Q5: 为什么不用更简单的方法,比如传统数字滤波?
传统数字滤波(频率均衡、谱减法)只能处理"稳定的背景噪声",对人说话、瓷器碰撞、突然的笑声这种"非平稳噪声"无能为力。神经网络的优势是它能学到"什么是人声的统计特征"——这是死规则写不出来的。
Q6: GAP9 开发板哪里买?贵吗?
GreenWaves 官网(greenwaves-technologies.com),评估板大约几百欧元。但要完全复现这套助听器还需要自己设计 5 块 PCB——这部分论文没开源。
Q7: 它能识别说话内容吗?比如做语音转文字?
不能。它只做降噪,不做识别。识别需要再叠一个语音识别模型,那是另一个研究方向。
Q8: 戴它能去跑步吗?
不行。现在的形状是"耳后挂"助听器,5 块 PCB 叠起来比耳塞大 3-4 倍。论文说下一步会做成耳塞形状。
所以这一节是想说:实操问题先一次性回答清楚,不留困惑。
如果你想再深入
前传 / 必读基础:
- TinyDenoiser——本文最强对比基线。理解它就理解了"小耳机降噪"最基础的做法。
- TF-GridNet——本文神经网络的起点,双路径范式的代表。
- Wang et al. STFT-domain neural speech enhancement with very low algorithmic latency——双窗口设计的思想出处。
同组续作 / 兄弟工作:
- Look Once to Hear (CHI 2024)——同组前作,做"只听某个特定人的声音"。
- Sound Bubbles (Nature Electronics 2024)——同组前作,做"按距离过滤声音"。
- TF-MLPNet (Clarity Challenge 2025)——同作者的更小更快后续,可能是 NeuralAid 下一代候选模型。
量化技术:
- Esser et al. Learned Step-Size Quantization——让"压缩比例"也变成可学习参数的论文。
- Cohen et al. Fully Quantized NN for Audio Source Separation——全量化语音分离的近邻工作。
所以这一节是想说:想沿着任何一条线深挖都有现成的入口。
◼
引用本笔记 / Cite this note
@online{eai_neuralaids_2026,
title = {(readable note) NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2024 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/neuralaids/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim