Auditory & Acoustic · Plate Nº 12

NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators

16 min read · 5527 字 · ⭐⭐⭐ · auto 摘要

#audio-speech

一句话讲什么（TL;DR）

在咖啡馆听不清对面说话？让助听器自己降噪，不连手机、不连云。

所以这一节是想说：这是一篇"把聪明的耳机做小做省电"的论文。

这是个什么场景

周末下午的星巴克，你和朋友约在窗边那张桌子。

隔壁桌大声讨论项目、咖啡机"咔咔"打奶泡、背景音乐里有人在唱英文，全都叠在一起糊成一锅声音粥。你戴着 AirPods Pro 想听清朋友说"你昨天那个 PR 改完了吗"——结果只听到"你昨天那个……改完了吗"，中间那段被噪声盖住了。

把场景换到 70 岁的爷爷戴助听器，问题被放大十倍——他听对面孙子说话基本靠猜。

现在市面上"AI 助听器"主要有两种做法：

把麦克风录到的声音偷偷传到手机上，让手机算完再传回来。问题是：网络一抖、信号一断，回声就乱了。
在助听器自己里面跑一个超精简的小程序。问题是：噪音确实小了，但孙子的声音也跟着变得像在水底下说话。

这篇论文要解决的就是这个尴尬：

能不能让助听器自己就把这件事做好，不依赖任何外部设备？

但工程上这是个"听起来不可能"的任务，因为同时要满足三件事：

小：助听器电池只有几百毫安时（mAh，电量单位），相当于一节纽扣电池。
快：声音从耳朵进、被处理完、再播给你听，整个过程必须在 10 毫秒（千分之一秒）以内。慢一点就会出现"自己说话像在山洞里回响"的诡异感。
像云端那么聪明：得跟手机/电脑里的大模型一样能干净地降噪。

助听器（hearing aid）：戴在耳朵上、把声音放大让听障人士听得清的小设备。 mAh（毫安时）：电量单位，数字越大电池能撑越久。

所以这一节是想说：这论文想做一个"耳朵戴的小电脑"，自己就能听清吵闹里的人话。

Plate Nº IINeuralAids — 场景示意：这论文要解决的现实问题

之前的人怎么做的，为什么不够好

方案 A：把声音传到手机算。像点外卖叫云端帮你做菜。结果就是网络一卡饭就凉，对话延迟超过 10 毫秒就会让你不舒服。
方案 B：在耳机里跑一个超精简模型（叫 TinyDenoiser）。像让一个小学生帮你做高考题。能写但效果差——降噪同时把人声也"咬碎"了。
方案 C：商业产品（AirPods Pro 等）。其实它们也没完全在耳机里算，至少把一部分计算扔回手机。
方案 D：Phonak 一款 2024 年底的助听器号称做到了。但它是商业秘密，不公开怎么做的。

这篇论文说：我们用一套完全公开的、能复制的方法，把这件事做出来。

所以这一节是想说：要么慢、要么糊、要么商业秘密。这篇要做一份开源的"全程在耳朵里算"的样本。

这篇论文的新想法

硬件 + 神经网络 + 数字压缩，三层一起设计，让一个原本要跑在显卡上的大模型，缩小 100 倍后仍然听得清。

所以这一节是想说：单独优化哪一层都不够，要三层联手。

它分几步做的（方法）

整篇论文做的事可以拆成三大块：搭硬件、改神经网络、做数字压缩。

1. 搭一个"五层蛋糕"硬件

类比：像麦当劳的巨无霸——五层叠在一起，每一层各司其职：上面那片管面包、中间那片管菜、最下面那片管肉。每层换一种功能，但合在一起才是一个完整汉堡。

它在干什么：作者把五块小电路板叠在一起塞进耳后助听器壳里。每一块板各管一件事——充电、蓝牙、AI 计算、外围、麦克风。

最关键的那块叫 AI 板，里面装了一颗叫 GAP9 的特制芯片。

PCB（Printed Circuit Board，印刷电路板）：电路用铜线印在塑料板上做成的硬件载体。你能看到的所有电子产品里都有它。芯片：装在板子上的小黑方块，里面有几十亿个微型开关，负责"思考"。 GAP9：一颗专门为小耳机设计的低功耗 AI 芯片。可以把它想成"耳机里的小型显卡，但只擅长做整数加减乘"。 神经网络（Neural Network）：一种由很多个"乘加运算"层叠出来的程序，灵感来自人脑神经元。它通过看大量例子学会做某件事——比如"区分人声和噪声"。

为什么这步有用：把原来需要手机帮忙的算力，挪到耳机本身。这样不再依赖外部设备。

所以这一节是想说：先把"小电脑"装进耳后这块塑料壳里。

2. 改造一个能听人声的神经网络

类比：像你在嘈杂酒吧听音乐时，耳朵其实同时在做两件事——

一件是跟着鼓点走（时间维度：何时出现）
一件是分辨这是吉他还是钢琴（频率维度：声音的高低）

作者就用两条通道分别处理这两件事。

它在干什么：

先把一段 6 毫秒的小音频切成"时间-频率"二维小方格。
一条通道专门看频率维度（低音 / 中音 / 高音之间的关系）。
另一条通道专门看时间维度（前后几帧的连贯）。
两条通道的结果合并，还原成干净人声。

STFT（Short-Time Fourier Transform，短时傅里叶变换）：把一段声音按小窗口切开，每个窗口变成一张"频率分布图"。物理课上讲过钢琴 do 的频率是 261 Hz——STFT 就是把声音里这种"哪个频率有多响"画出来。 dual-path（双路径）网络：两条独立的神经网络通道，一条管时间、一条管频率。 TF-GridNet：2023 年别人发表的一个 SOTA（State-Of-The-Art，目前最强水平）双路径网络，本文从这个起点开始改。

但 TF-GridNet 直接搬过来跑不起来——太大太慢，硬件吃不消。所以作者做了三处魔改：

魔改 a：把频率"压扁"

类比：原来要逐个数完一本书所有的字才告诉你这本书写啥。现在改成先把书横着压扁四倍，再快速扫一遍。

它在干什么：原本网络要按 257 个频率点一个一个顺序处理，慢得离谱。作者先用一种叫"步长卷积"的操作把 257 压成 64，再处理。

卷积（convolution）：一种"小窗口在数据上滑过、每滑一步算一次乘加"的操作。可以把它当成"用一把小刷子在画上反复涂、每涂一下记下涂的结果"。 步长卷积：让小刷子每次跳几步而不是一步，这样输出比输入短，等于做了"压缩"。 GRU（Gated Recurrent Unit，门控循环单元） 和 LSTM（Long Short-Term Memory，长短期记忆网络）：两种"会记住过去"的神经网络模块。GRU 比 LSTM 简单一点，速度快约 1.3 倍，效果差不多。作者把网络里的 LSTM 都换成 GRU。

为什么这步有用：少做 75% 的计算量，速度立刻提上来，效果几乎不掉。

魔改 b：双窗口拼接，省掉一段等待

类比：原来切香肠要左切右切再粘起来，邻片得等下一片切完才能拼。现在用两把不一样大的刀，错开切，邻片不用等下一片就能拼好。

它在干什么：作者用两个不同大小的窗函数——分析时用大窗口（看得多）、合成时用小窗口（不依赖未来）。这样不需要等下一帧的数据就能拼好当前帧。

算法延迟（algorithmic latency）：模型本身设计上"必须等多久才能输出"。 硬件延迟（hardware latency）：芯片实际算这一帧花多久。 窗函数：在切音频时给每段加一个"两边轻、中间重"的权重曲线。物理上类似"渐入渐出"。

关键数字：算法延迟从 25 毫秒（之前的 TinyDenoiser）降到 10 毫秒。人耳对 10 毫秒以下的延迟基本不敏感，所以这是落地的关键门槛。

魔改 c：留底汤——把上一帧的中间结果存下来

类比：做一锅汤，每天倒掉太浪费。把昨天的底汤留着，今天接着用。

它在干什么：神经网络每来一个新音频块，很多中间计算其实和上一块共用。作者维护四个小缓存（约 30 KB），把这些中间结果存起来下次直接用。

为什么这步有用：避免重复算，速度再上一个台阶。

所以这一节是想说：作者把一个聪明但太重的网络瘦身了三道，让它能在小芯片上跑起来。

3. 把"小数"压成"整数"，再训练让模型适应

类比：考试前复习时，提前用"被压缩成更粗糙精度"的草稿纸练，让自己习惯那种粗糙——真正考试就不慌了。

它在干什么：

原本神经网络里的每个数字用 32 位的小数（叫 float32）存——精度高但占空间。作者把它们压成 8 位的整数（叫 int8）——空间少 4 倍、整数加减乘比小数快 5-10 倍。

但直接压会出问题。论文实测：直接压完，降噪指标从 8.65 dB 掉到 -1.70 dB——也就是说降完比不降还差，模型彻底坏了。

作者的两步解法：

解法 1：混合精度

类比：像考试时你把粗略思路写在普通纸上，但关键步骤写在格子纸上保证清晰。

第一层和最后一层（最敏感的两层）用 16 位的精度，中间层全压成 8 位整数。

bfloat16：16 位的小数格式，精度比 float32 低、比 int8 高。 int8：8 位整数，能表示 -128 到 127 之间的值。

解法 2：QAT（量化感知训练）

类比：考试前先用真考试的卷子练，而不是用印得清楚的练习卷。

量化（quantization）：把高精度的小数压成低精度整数的过程。 QAT（Quantization-Aware Training）：在训练阶段就把"压缩"这一步加进去，让模型一边学一边适应"压完会损失精度"这件事。

普通做法是先训练好再压（PTQ，Post-Training Quantization）。作者的做法是边训练边压，让模型学会补偿压缩带来的损失。

关键术语解释：

训练（training）：让模型看大量例子（输入 + 正确答案），自动调整自己的内部数字直到它能给出接近正确的答案。 Loss（扣分总和）：模型每次回答都和"标准答案"比一下，差得越远扣分越多。Loss 就是把所有题的扣分加起来——越小说明模型答得越好。模型学习的目标就是想办法降这个分。 梯度下降（gradient descent）：调整模型参数的方法。像下山找最低点：每一步往最陡的下坡方向迈一小步，直到走到山谷底部（也就是 Loss 最低的地方）。 epoch（训练轮）：把整个训练数据集完整看一遍叫一个 epoch。

关键数字：用了混合精度 + QAT 之后，性能从 0.90 dB 拉回到 8.19 dB——只比原始浮点版（8.65 dB）低 0.57 dB。

所以这一节是想说：模型不能直接压，得边压边训练让它学会适应粗糙精度。

Plate Nº IVNeuralAids — 方法示意：核心 pipeline

关键数字（What works）

每个数字后面加一句"这意味着什么"。

1. 处理一帧只要 5.54 毫秒

原文数据：每收到一段 6 毫秒的新音频，模型在 5.54 毫秒内就处理完。
对比基准：TinyDenoiser（之前的小模型）只要 0.58 毫秒——更快，但算法延迟 25 毫秒抵消了硬件优势，体验仍然差。
生活语言：就像考试 6 分钟一道题，本作 5.54 分钟交卷，留 0.46 分钟缓冲；TinyDenoiser 30 秒交卷但答案乱写。

2. 功耗只有 71.64 毫瓦

原文数据：芯片本身约 71.64 mW，加上蓝牙麦克风等总共约 82 mW。
对比基准：手机端跑同类模型轻松上百毫瓦。
生活语言：一节助听器小电池（约 1.155 Wh）按这个功耗能撑约 14 小时——一天通勤足够。

mW（毫瓦）：功率单位，相当于"每秒消耗多少能量"。 Wh（瓦时）：能量单位。1 Wh 能让 1 W 的设备跑 1 小时。

3. 模型只有 299 KB

原文数据：压缩后模型大小 299 KB（约 0.3 MB）。
对比基准：你手机上一张照片就有几 MB；GPT-3 有 700 GB。
生活语言：比一张高清照片还小，但能听清咖啡馆里的人话。

4. 降噪能力 SISDRi 8.19 dB

原文数据：本作 8.19 dB；TinyDenoiser 同条件 5.97 dB；浮点版理想上限 8.65 dB。
对比基准：比 TinyDenoiser 高 2.22 dB；只比理想浮点低 0.57 dB。
生活语言：从"中等清晰度"提到"高清晰度"，跨过了一个明显感受上的门槛。

dB（分贝）：声音强度的对数单位。两个声音差 10 dB 大约是"响度感觉差一倍"。 SISDRi（Scale-Invariant Signal-to-Distortion Ratio improvement）：一个客观打分，衡量"降噪后人声比原来干净了多少"。数字越大越好。

5. 28 人主观打分

原文数据：28 个志愿者在 15 个真实场景里盲听三种模式（不开 AI / 旧的 TinyDenoiser / 本作），打 1~5 分。
对比基准：本作整体打分 3.38；不开 AI 是 2.96；TinyDenoiser 反而掉到 1.96。
生活语言：TinyDenoiser 是"为了减肥把肌肉一起减掉"——降噪同时把人声也弄糊了。本作两件事同时做到。

MOS（Mean Opinion Score，主观平均评分）：让真人听完打 1~5 分，取平均。类比"豆瓣评分"。

6. 量化前后差距：从 7.86 dB 缩到 0.57 dB

原文数据：直接压（PTQ）时差距 7.86 dB；用 QAT 后差距压到 0.57 dB。
对比基准：14 倍的差距压缩。
生活语言：不用 QAT 就是"模型崩了"，用了 QAT 就是"几乎不掉点"。这两个技术每一个都不能省。

所以这一节是想说：又快又小又省电又好听，四件事一起做到了。

你应该懂的几个新词

GAP9 / GreenWaves Application Processor 9：一颗专门为低功耗 AI 设计的小芯片。像"耳机里的小型显卡"。

STFT / Short-Time Fourier Transform / 短时傅里叶变换：把一段声音切成小窗口，每个窗口画成"频率分布图"。

dual-path / 双路径网络：神经网络的一种结构，一条通道处理时间维度、一条处理频率维度。

TF-GridNet：2023 年发表的双路径语音降噪网络，本文的起点。

SISDRi / Scale-Invariant Signal-to-Distortion Ratio improvement：客观降噪打分，单位 dB，数字越大越好。

MOS / Mean Opinion Score：真人主观打分 1~5 分的平均值，类似"豆瓣评分"。

PTQ / Post-Training Quantization / 训练后量化：训练完再压成整数。简单但效果差。

QAT / Quantization-Aware Training / 量化感知训练：训练阶段就模拟"被压成整数"的损失，让模型学会补偿。

GRU / Gated Recurrent Unit / 门控循环单元：一种比 LSTM 简单的"会记住过去"的网络模块。

量化 / quantization：把神经网络里的 32 位小数压成 8 位整数。空间少 4 倍、运算快 5-10 倍。

bfloat16：16 位小数格式，介于 32 位精度和 8 位整数之间。

算法延迟 vs 硬件延迟：前者是"模型设计上必须等多久"，后者是"芯片实际算多久"。两者都得低于 10 毫秒。

所以这一节是想说：这些词以后还会反复出现，先建一个小词典。

它有什么搞不定的

没人说话时还在烧电。安静的图书馆里戴 6 小时，电池没必要烧成这样——其实可以加个"没人说话就让 AI 睡觉"的开关，但论文没做。
只在 GAP9 一颗芯片上验证过。换一家厂商的芯片能不能直接用，未知。
训练数据全是合成的。地铁里、强风海边、教堂大堂这些极端声学环境没测，可能掉链子。
只用了 1 个麦克风。其实硬件有 3 个麦克风，但模型只用了 1 个。意味着"声源在左在右"的空间信息完全没用上。
没针对听损人群个性化。志愿者里没区分听力正常 vs 听损者，所以这更像"健康人降噪耳塞"，不是真正意义的"医疗助听器"。
没有 ANC（主动降噪）。AirPods Pro 那种"产生反向声波抵消噪声"的功能，本作没做。
形状还是 BTE（耳后挂）助听器，不是耳塞。现在的 5 块 PCB 叠起来挂在耳后，不能戴它去跑步。

所以这一节是想说：能跑起来，但还有不少明显的留白，每条都是"未来工作"的候选。

它和别的几篇是什么关系

可以画一张"听觉智能"的时间线：

ClearBuds (CHI 2022)        ← 同组，耳机收音 + 手机算
  ↓
Semantic Hearing (UIST 2023)  ← 同组,选择性听类别（按"听这个类型的声音"过滤）
  ↓
Look Once to Hear (CHI 2024)  ← 同组,选择性听某个人
  ↓
Sound Bubbles (Nature Electronics 2024)  ← 同组,按距离过滤
  ↓
NeuralAids (本文)            ← 第一篇全程耳机内、不依赖手机

集合关系：

这是 13 篇阅读清单里唯一一篇研究"边缘 AI 部署"的工程论文。
和那些跑在大显卡集群上的视觉机器人模型形成对比：当算力不是问题时关心"模型能做多复杂"，当算力极度受限时关心"模型怎么压"。
方法论"模型压缩 + 硬件协同"的思路，和把大模型部署到机器人本体的工作是相通的。

所以这一节是想说：在听觉智能这条线上，这篇是"硬件落地"那一段；在更宏观的具身 AI 里，它代表了"如何把模型塞进真实物理设备"。

我建议这样读这篇

先看 Abstract 和 Fig. 2 的耳机照片——1 分钟知道是什么东西、解决什么实际问题。
跳到 Table 3 的成绩单——四列数字（降噪效果 / 模型大小 / 推理时间 / 功耗）。能看懂"为啥直接压成 int8 是 -1.70 dB"就抓住了核心动机。
回头读 §2.2.2 神经网络架构——配合 Fig. 3C 看双路径是怎么从 TF-GridNet 改过来的。重点记"频率压扁"和"GRU 替代 LSTM"两件事。
读 §2.3.4 QAT 部分——这是论文真正的方法贡献。看懂"为啥混合精度还不够还要加 QAT"。
跳读 §3.2 用户研究——看 Fig. 8 的两组柱状图。重点是 TinyDenoiser 整体打分反而下降这个反例。
跳过 §2.1 硬件细节（除非你做嵌入式硬件）——五块 PCB 怎么连这种工程细节零基础读了用不上。

所以这一节是想说：先看结果再回头看方法，最快理解论文的价值。

一些好奇心问答（FAQ）

Q1: 这个模型有多大？我家的 RTX 4070 跑得动吗？

压缩后模型只有 299 KB，比一张照片还小。你的 4070 当然跑得动，但官方推理代码是给那颗特殊小芯片 GAP9 写的，没有适配显卡的版本。训练阶段需要一张普通显卡（RTX 3090 / 4070 都够）。

Q2: 训练数据从哪来？

全是合成出来的。具体配方：

干净人声：LibriSpeech（公开免费的有声书数据集，360 小时）
房间回声：4 个公开"双耳房间冲激响应"数据集
背景噪音：WHAM!（58 小时咖啡馆/餐厅/公园等真实噪声）
把它们叠在一起当作训练样本

房间冲激响应（Room Impulse Response）：在某个房间里"啪"地拍一下手，麦克风录到的衰减+反射波形。把它和干净人声做卷积可以模拟"在那个房间里说话"的效果。

Q3: 我能跑代码吗？官方开源了吗？

截至 2026-05，论文发表时还没公开代码。同组前几篇的代码在 github.com/uw-x，可以参考。GAP9 的推理框架在 github.com/GreenWaves-Technologies。

Q4: 训练一次要烧多少卡时？

第一阶段大约 5500 小时音频处理量，单张 RTX 3090 估计要 3-7 天。QAT 阶段短得多，约 12-24 小时。总共单卡 5-10 天，集群可以压到 1-2 天。

Q5: 为什么不用更简单的方法，比如传统数字滤波？

传统数字滤波（频率均衡、谱减法）只能处理"稳定的背景噪声"，对人说话、瓷器碰撞、突然的笑声这种"非平稳噪声"无能为力。神经网络的优势是它能学到"什么是人声的统计特征"——这是死规则写不出来的。

Q6: GAP9 开发板哪里买？贵吗？

GreenWaves 官网（greenwaves-technologies.com），评估板大约几百欧元。但要完全复现这套助听器还需要自己设计 5 块 PCB——这部分论文没开源。

Q7: 它能识别说话内容吗？比如做语音转文字？

不能。它只做降噪，不做识别。识别需要再叠一个语音识别模型，那是另一个研究方向。

Q8: 戴它能去跑步吗？

不行。现在的形状是"耳后挂"助听器，5 块 PCB 叠起来比耳塞大 3-4 倍。论文说下一步会做成耳塞形状。

所以这一节是想说：实操问题先一次性回答清楚，不留困惑。

如果你想再深入

前传 / 必读基础：

TinyDenoiser——本文最强对比基线。理解它就理解了"小耳机降噪"最基础的做法。
TF-GridNet——本文神经网络的起点，双路径范式的代表。
Wang et al. STFT-domain neural speech enhancement with very low algorithmic latency——双窗口设计的思想出处。

同组续作 / 兄弟工作：

Look Once to Hear (CHI 2024)——同组前作，做"只听某个特定人的声音"。
Sound Bubbles (Nature Electronics 2024)——同组前作，做"按距离过滤声音"。
TF-MLPNet (Clarity Challenge 2025)——同作者的更小更快后续，可能是 NeuralAid 下一代候选模型。

量化技术：

Esser et al. Learned Step-Size Quantization——让"压缩比例"也变成可学习参数的论文。
Cohen et al. Fully Quantized NN for Audio Source Separation——全量化语音分离的近邻工作。

所以这一节是想说：想沿着任何一条线深挖都有现成的入口。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_neuralaids_2026,
  title       = {(readable note) NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/neuralaids/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)