回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Auditory & Acoustic · Plate Nº 15

SoundStream: An End-to-End Neural Audio Codec

18 min read · 6276 字 · ⭐⭐⭐⭐ · auto 摘要

这是一份给"完全没接触过 AI、也不懂音频信号处理"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。

一句话讲什么(TL;DR)

让 AI 自己学怎么把声音"打包又拆开",3 kbps 的小包听起来反而比传统方案 12 kbps 还清楚。

所以这一节是想说:这篇论文做出了一个"用 AI 压缩声音"的新管道,比工程师手搓几十年的方案还能打。


这是个什么场景

想象你在外地出差,跟家人发微信语音报平安。

  • 你按住录音说了 5 秒话。
  • 这 5 秒"原始声音"如果不处理直接发,相当于一份 3 万字小说(几百 KB 起步,5 秒能到一兆)。地铁里信号一卡,对方半天收不到。
  • 所以微信内部有一个编解码器(codec):发之前先把声音"压扁"成几 KB 的小包,对方手机再"还原"播出来。这就像快递行李——衣服不会摊开寄,得叠好塞进真空袋,到了再抖开。

这件"叠衣服"的活儿,过去 30 年都是通信工程师纯手工设计的——做出了 Opus、EVS 这类经典方案。他们靠对"语音物理学 + 听觉心理学"的理解,硬手搓出一套滤波器、变换、码本。但手搓有上限:码率一压低,音乐和复杂背景音就开始糊。

codec(编解码器):codec = coder + decoder。一对儿东西:编码器把声音变成短数字流;解码器把短数字流还原回声音。

bitrate(码率):每秒钟用多少比特(bit)来表示声音。单位 kbps(千比特每秒)。kbps 越低,文件越小,但越容易听上去糊。微信语音大概 24 kbps,电话级是 8 kbps。

sample rate(采样率):把连续的声波每秒切成多少份。CD 是 44.1 kHz,本论文是 24 kHz,电话是 8 kHz。

SoundStream 想做的事,是把这一整套手搓的工程全部丢给神经网络自己学——给它原始录音和"还原后的录音",让它自己琢磨怎么压最省。

所以这一节是想说:声音也要被压缩,但传统 codec 是工程师手搓的;这篇要让 AI 自己学一套。


SoundStream — 场景示意:这论文要解决的现实问题
Plate Nº ISoundStream — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

  • 方案 A:传统波形编码(Opus) 类比:你打电话时把声音切成几十毫秒一段,每段做"频谱拍照",再用一套精心设计的查表把照片压成几十比特。手工做了 30 年,对语音很厉害,对音乐就开始糊,码率压到 6 kbps 以下基本崩。

  • 方案 B:传统参数化编码(EVS) 类比:假设说话人嘴巴是个发音机器,编码器只传"嘴形参数",解码器照参数合成。对语音强,对音乐和环境音不行——因为音乐不是嘴里发出的。

  • 方案 C:神经网络当解码器(Lyra v1、WaveNet codec) 类比:编码器还是工程师手搓的"梅尔频谱图"(音频图像化),解码器换成 AI。编码器没学,等于一只手绑着干活

  • 方案 D:纯神经端到端(早期尝试) 类比:整个 codec 都用 AI,但每个码率要训一个新模型。想从 6 kbps 切到 12 kbps?再训一遍,模型参数翻一倍。

  • 核心难题:要训"端到端神经 codec"得解决三件事——量化器怎么和神经网络一起反向传播?怎么让一个模型覆盖多个码率?怎么保证还能在手机上实时跑?

所以这一节是想说:要么手搓性能上限低,要么神经版本太贵不灵活;这篇要把三个坑一起填了。


这篇论文的新想法

类比一下:传统压缩像"一刀切咸菜"——一刀下去不管粗细,码率定死。SoundStream 像"用筛子筛三遍"——先筛大块、再筛中块、最后筛细沙,想要多干净自己挑。

正经表述:用一个全卷积的 Encoder-Decoder(编码-解码骨架)加上"残差向量量化器(RVQ)"端到端联合训练;再加一招"量化层 dropout"让同一个模型覆盖所有码率,并用对抗+重建混合损失保证音质。

听上去名字很多,但核心就两句话:

  1. 量化阶梯做成"一层一层往细里抠",而不是一刀量到死。
  2. 训练时故意随机扔掉后面几层,模型就会自动学会"少一半信息也能听"。

所以这一节是想说:把"压缩"任务拆成"逐层抠误差",并训练时故意限流,模型自己学会"伸缩自如"。


它分几步做的(方法)

整套方法分四件事:编/解码骨架、残差量化、量化层 dropout、对抗训练。

1. 编码器和解码器:纯卷积的"声音压缩管"

类比

把一段音频想成一卷一公里长的丝带(每秒 24000 个数字)。Encoder 是一个"压缩机",把丝带不断折叠:折一次长度变一半,折四五次后就只剩 75 个"压缩块"每秒——但每个块上写了一串数字概括这段。Decoder 反过来,把这 75 个块再展开成 24000 个数字。

它在干什么

  • 输入:24 kHz 录音的原始数字流,比如 1 秒就是 24000 个数字。
  • Encoder:一串卷积层,每经过一个 block 就把时长压缩一半(用 stride=2 的卷积),通道数翻倍。论文默认 strides = (2,4,5,8),意味着每 320 个原始样本压成 1 个 embedding。所以 1 秒录音变成 75 个向量,每个向量 256 维。
  • Decoder:和 Encoder 镜像,用转置卷积一步步把时间维度还原回 24000。
  • 关键约束:所有卷积都是 causal(只看过去,不看未来),这样推理时来一段处一段,可以做实时流式。

卷积(convolution):可以理解成"用一个小窗口在长信号上滑动,每次算一个加权和"。AI 里最常见的特征提取套路。

embedding(嵌入向量):一段输入(这里是 13.3 ms 的音频)被压成的一串数字。可以想成"这段声音的 256 维身份证"。

causal(因果卷积):滑窗只看过去的样本,不偷看未来——保证模型可以边说边压,不用等整段录完。

为什么这步有用

  • Encoder 自己会学"该保留什么、该丢什么",比工程师手搓的梅尔频谱适合压缩多了。论文做了对照实验:把 Encoder 换成固定的梅尔频谱,ViSQOL 从 3.96 掉到 3.33——Encoder 是不是可学决定了一半性能
  • 全卷积 + causal 的好处:在 Pixel 4 手机单核 CPU 上能 2.3× 实时跑(即处理 1 秒录音只用 0.43 秒)。

所以这一节是想说:不要用人手搓的频谱当输入特征,让卷积 Encoder 自己学要保留什么,比预设的频谱省一半码率。


2. 残差向量量化器(RVQ):把误差像剥洋葱一样一层层抠

类比

你要把一个"任意小数"压成一个查得到的"整数代号"。比如 3.7。

  • 第 1 层只允许 4 个候选:1、2、3、4。它会选 4(最接近),误差 = 3.7 - 4 = -0.3。
  • 第 2 层来量化"剩下的误差 -0.3",候选 0.5、0、-0.3、-0.5,它选 -0.3,误差 = 0。
  • 你只要传两个代号(4 和 -0.3),对方查表就能还原成 3.7。

这就是残差量化(residual quantization)——每一层只负责"上一层没抠干净的部分"。

vector quantization, VQ(向量量化):给定一组"码本(codebook)"——比如 1024 个候选向量——把任意输入向量替换成码本里最近的那个,并存它的下标。本质是"四舍五入到字典里最近的词"。

codebook(码本):那个候选向量的字典。论文每个 VQ 层有 1024 个候选向量,每个向量 256 维。

bps / kbps:bit per second。每秒花多少 bit。1 个码本下标 = log2(1024) = 10 bit。

它在干什么

  1. Encoder 给出 75 个 256 维向量(每秒)。
  2. 第 1 个 VQ 把每个向量替换成自己 1024 个候选里最近的那个,记下标(10 bit)。
  3. 计算"原向量 - 选中候选" = 残差
  4. 第 2 个 VQ 量化这个残差,记下标。
  5. 重复 Nq 次(默认 8 次)。
  6. 总 bit 预算:每秒 75 帧 × 8 层 × 10 bit = 6000 bit = 6 kbps。

关键公式翻译成人话

原文 Algorithm 1 那几行翻译过来就是:

留一个"还没解释清楚的残差"变量;每一层量化器吃掉它一部分;一层层减下去,直到剩下的几乎为 0。

为什么这步有用

  • 避免码本爆炸:如果想用单个 VQ 表达 80 bit/帧的信息量,码本得有 2^80 ≈ 10^24 个候选向量,根本存不下。RVQ 把它拆成 8 层 × 1024 候选 = 8192 个候选向量就够了。
  • 天然对齐"码率":想要 12 kbps?用前 16 层。3 kbps?用前 4 层。同一个表,按需取用。
  • 对训练友好:每层都用 EMA(指数移动平均)更新候选向量,且会自动替换"长期没人选"的死候选——保证码本不断在用。

所以这一节是想说:把量化做成"误差套娃"——每层只抠剩下的细节,既省码本又能调码率。


3. 量化层 dropout:训练时故意限流,让一个模型适应所有码率

类比

教一个学生做听写。如果你只让他听 100% 清楚的录音,考试给他放杂音录音他就慌。聪明的老师怎么办?训练时随机给他放有杂音的版本,他自然学会了在不同清晰度下都能听写。

SoundStream 的做法:每个 batch 训练时,随机选一个 nq ∈ [1, 8],只用前 nq 层量化器。

dropout:训练时随机"掐掉"模型一部分(比如某些神经元),强制模型学会冗余表达。这里是"掐掉量化层",叫 quantizer dropout。

bitrate scalable(码率可伸缩):一个模型同时支持多个码率。SoundStream 之前的端到端神经 codec 都是"一码率一模型"。

它在干什么

  • 训练时每个样本骰一次:今天用 1 层、3 层、还是 8 层量化?
  • Decoder 必须在所有这些"残缺版"下都能还原出尽量好的声音。
  • 推理时:你想要 3 kbps 就用前 4 层,想要 12 kbps 就用前 16 层(论文里的 nq 编号根据码率不同而不同)。模型参数完全一样

为什么这步有用

  • 论文实验:训练时不用 dropout,推理时强行只用前 4 层 → 质量明显掉。用 dropout → 质量几乎和"专门训 3 kbps 模型"一样好。
  • 一个意外发现:在 9 kbps 和 12 kbps,带 dropout 的模型还略强于专训模型,说明 dropout 顺便起到了正则化作用——和当年 LLaVA 训练时用 dropout 防过拟合是同一个套路。
  • 工程价值:手机上只存一份 ~10 MB 模型,就能从 3 kbps 飙到 18 kbps,省了 6 倍存储。

所以这一节是想说:训练时随机掐掉后几层量化器,模型自动学会"伸缩自如",省掉为每个码率训一遍的麻烦。


4. 对抗+重建混合损失:让还原后的声音"听上去像"而不是"数学上像"

类比

你画一张猫的照片让 AI 模仿。

  • "数学上像":每个像素的颜色对得上 → 但 AI 画出来可能是一片糊涂的灰色平均值。
  • "听上去像":找一个评论员(discriminator),让它分辨"这是真猫照片还是 AI 画的",AI 努力骗过评论员 → 画出来的猫毛会更逼真,虽然单像素不一定对。

声音同理。如果只让 SoundStream 追求"波形点对点对得上",它会输出一段闷糊的低音;如果加一个判别器说"我能听出来你是 AI 解码的",SoundStream 就会被逼得生成更清脆、更像原声的音频。

GAN(生成对抗网络):两个网络互怼。生成器拼命造逼真样本,判别器拼命揪假货,互相推高水平。

discriminator(判别器):负责打分"这是真音频还是假的"的网络。SoundStream 用了两种:waveform 多分辨率(直接看波形,三个尺度)+ STFT-based(看频谱图)。

multi-scale spectral reconstruction loss:用多个时间窗口(64, 128, 256, ..., 2048 样本)算梅尔频谱,逐个比对真假音频,覆盖从粗到细的频率特征。

它在干什么

训练目标是三种损失加权和:

  1. 对抗损失(adversarial):解码器要骗过判别器。
  2. 特征损失(feature):判别器内部各层的激活,真假音频要尽量对齐——相当于"AI 出的画在评论员脑子里激起的反应也要和真画一样"。
  3. 多尺度频谱重建损失:在多个时间窗口上算梅尔频谱图,真假要 L1 + L2 接近。

权重 λ_adv=1, λ_feat=100, λ_rec=1。特征损失的权重最大,是音质的主力。

为什么这步有用

  • 单纯算"波形点对点差"会逼模型输出"平均值"——很糊。加对抗损失让它出"清脆但不精确"的版本——人耳更舒服。
  • 这套损失组合在 MelGAN/HiFiGAN 时代已经验证过对语音合成有效。SoundStream 的贡献是把它搬到了 codec 里。

所以这一节是想说:用 GAN 套路让解码器追求"耳朵觉得对"而不是"数学上对",再加多尺度频谱损失兜底,听感比纯重建损失好很多。


SoundStream — 方法示意:核心 pipeline
Plate Nº IISoundStream — 方法示意:核心 pipeline

关键数字(What works)

数字本身不重要,重要的是它们告诉你哪个设计决定了胜负。

数字 1:3 kbps SoundStream > 12 kbps Opus

  • 怎么算的:MUSHRA 主观评测(人类盲听打分),SoundStream@3 kbps 的分数显著高于 Opus@12 kbps、EVS@5.9 kbps。
  • 对比:要让 EVS 追上 SoundStream@3 kbps,得用到 9.6 kbps;Opus 得用到 12 kbps。
  • 生活语言:相当于 SoundStream 省了 3-4 倍带宽——同样的微信语音流量你能发 3-4 倍长度。

数字 2:换成固定梅尔频谱 → ViSQOL 从 3.96 掉到 3.33

  • 怎么算的:把 Encoder 换成不可学的梅尔频谱(Lyra v1 的做法),其余照旧训练。
  • 对比:3.33(固定特征) vs 3.96(可学 Encoder) vs 3.76(可学 Encoder + 砍一半码率到 3 kbps)。
  • 生活语言:固定频谱用 6 kbps 打不过可学版用 3 kbps——Encoder 必须可学这件事不是细节,是核心。

数字 3:可伸缩模型 vs 码率专训模型,几乎打平

  • 怎么算的:训一个支持 3-18 kbps 的可伸缩模型,对比为每个码率单独训的专训模型。
  • 对比:在 9/12 kbps 上可伸缩反而略强;在 3 kbps 上略弱一点点。
  • 生活语言:一个模型管所有码率,这意味着手机上只存一份——这是 SoundStream 比之前神经 codec 好用的最大工程理由。

数字 4:80 层 1-bit 量化器也能跑

  • 怎么算的:在 6 kbps 预算下尝试不同 (Nq, N) 组合:(8, 1024)、(16, 32)、(80, 2)。
  • 对比:ViSQOL 4.01 / 3.98 / 3.92。
  • 生活语言:哪怕用 80 个超粗糙的"是/否"码本叠起来,也只比 8 个 1024-词码本掉 0.09 分——RVQ 这种结构非常稳,不怕做深。给后续 EnCodec、AudioLM 用更深码本铺了路。

数字 5:手机 CPU 实时跑(RTF 2.4×)

  • 怎么算的:Pixel 4 单核,编码 1 秒音频用 0.42 秒,解码 0.43 秒。
  • 对比:把 channel 从 32 减到 16,RTF 飙到 7×,质量只掉 0.03(4.01 → 3.98)。
  • 生活语言:说明这个模型真的能在你手机上实时压音频,不是只能放在云端。

数字 6:架构延迟仅 13.3 ms

  • 怎么算的:strides=(2,4,5,8),乘起来 320 样本,在 24 kHz 下就是 13.3 ms。
  • 对比:Opus 默认 20-40 ms,EVS 32 ms。
  • 生活语言:实时通话对延迟敏感(>100 ms 就会"两边抢话")。SoundStream 比传统 codec 还少一半延迟

所以这一节是想说:数据告诉我们——可学 Encoder + RVQ + 量化 dropout 这三个组合拳,在质量、灵活性、延迟、手机算力四个维度同时碾压传统方案。


你应该懂的几个新词

codec(编解码器):成对的"压缩 + 解压"工具。微信语音、视频通话、Spotify 都靠它。

bitrate(码率):每秒用多少比特表示信号。kbps 越低 = 文件越小 = 越容易听糊。

waveform(波形):声音作为时间序列的原始数字流。24 kHz 的录音意味着每秒 24000 个浮点数。

convolution(卷积):滑动窗口提特征。这里的 Encoder/Decoder 全靠它堆出来。

causal(因果卷积):只看过去不看未来,保证流式处理。和翻译里的"边读边译"是同一个约束。

VQ(vector quantization, 向量量化):把任意向量替换成"字典里最近的词",存下标省空间。

codebook(码本):VQ 的字典。SoundStream 默认每个 VQ 层 1024 个候选向量。

RVQ(residual vector quantization, 残差向量量化):多层 VQ 串起来,每层只量化"上一层没抠干净的残差"。这篇的核心创新之一。

discriminator(判别器):GAN 里负责打分"真还是假"的网络。SoundStream 用了 STFT 和 multi-scale waveform 两种判别器互补。

adversarial loss(对抗损失):让生成器骗过判别器的损失。让重建出的音频"听起来像"而不是"数学上像"。

MUSHRA:人类听感主观评测协议。多人盲听同一段,打 0-100 分,比 PESQ/POLQA 更接近人耳判断。

ViSQOL:开源的客观音质指标。比 PESQ 限制少,论文里所有消融实验都用它。

token / discrete audio token(离散音频 token):把音频量化后得到的整数下标序列。SoundStream 的副产品,让后来的 AudioLM 把音频当成"文字"来生成成为可能。

所以这一节是想说:上面这十来个词在所有"神经音频"论文里都会反复出现,先把它们挂上生活类比。


它有什么搞不定的

  • 强烈非平稳信号还是会糊:极快的鼓点、爆破音之类信息密集的瞬态,3 kbps 下还是会听出"涂抹感"——毕竟一秒只剩 75 帧 × 80 bit。
  • 训练数据偏向语音:作者用 LibriTTS(英文清音)+ Freesound 噪声 + MagnaTagATune 音乐。别的语种、戏曲、复杂环境音的表现没保证
  • 没做完美的熵编码:论文测了如果再叠一个熵编码(按符号概率重新编),还能再省 7-20% 码率——但他们没做进去,留作以后。

所以这一节是想说:SoundStream 不是声音压缩的终点,强瞬态、跨语种、熵编码三个方向都有空间。


它和别的论文是什么关系

  • 时间线:SoundStream(2021.7)→ 启发 EnCodec(2022.10,Meta 出的更强版)→ 同年 AudioLM(2022.9,把 SoundStream token 接给 Transformer 当语言建模)→ 后来 MusicLM、AudioLM 2、Bark 都建在这种"音频 token"上。
  • 集合关系:SoundStream 是"端到端神经 codec"这个集合 C 的奠基成员。把音频离散化成 token 这件事,让音频终于能像文字一样被语言模型生成——这是后来"文本到语音/音乐"爆发的起点。
  • 和 LLaVA 的对照(本系列已有的 13 篇之一):
    • LLaVA 把图像编码进 LLM 用的是连续向量(CLIP 输出 + 投影);SoundStream 把音频编码成离散 token。两条路在 2023-2024 各自开花:图像主流走连续投影(LLaVA、Qwen-VL),音频主流走离散 token(AudioLM、Bark、Suno)。
    • 共同思想:让通用 Transformer 不动,外面套一个模态适配器。LLaVA 的适配器是投影层 + Vicuna;AudioLM 的适配器就是 SoundStream 的 RVQ token + 大语言模型。
  • 和 VLA / 具身 AI 的关系:RT-2、OpenVLA 这些机器人模型把"动作"也离散成 token 让 Transformer 生成——这条思路最早在视觉里是 VQ-VAE,在音频里是 SoundStream。离散 token 是把任何模态接进 LLM 的通用胶水

所以这一节是想说:SoundStream 的真正贡献不止是"压音频更好",而是给后来"音频生成式 AI"提供了 token 化基建。


我建议这样读这篇

零基础读者不要从头读到尾。建议这样走:

  1. 看 Figure 1 + 摘要(5 分钟):明确"3 kbps 打 12 kbps Opus"这件事有多反直觉。
  2. 看 Figure 2 模型图(2 分钟):记住"Encoder → RVQ → Decoder + 判别器"四件套。
  3. 跳到第 III-C 节"残差向量量化器"(15 分钟):这是最核心的创新。理解 Algorithm 1 的"剥洋葱"循环、量化 dropout 的训练 trick。
  4. 扫第 V-A 主观评测(5 分钟):看 MUSHRA 结果,建立"3 kbps 真的能打"的直觉。
  5. 跳过判别器架构和损失公式细节(除非你想自己实现):知道"GAN 损失 + 多尺度频谱损失"就够了。
  6. 快速扫消融表 I/II/III(5 分钟):看 (Encoder 可学性 / 量化深度 / 步长延迟) 三件事各自的影响。

读完这 6 步大约 40-50 分钟,已经能在和别人讨论"音频 token 化"时报出 SoundStream 的核心思路。

所以这一节是想说:这篇精华全在 RVQ 和量化 dropout,公式和判别器细节可以略读。


一些好奇心问答

Q1:SoundStream 输出的"token"和 LLM 的 token 是一回事吗?

形式上一样——都是整数下标序列。但 LLM 的 token 是"词/子词"(vocabulary 几万到几十万),SoundStream 每帧输出 8 个 token(每个码本 1024 选 1)。所以 1 秒音频 = 75 帧 × 8 = 600 个 token。后来 AudioLM 就把这 600 个 token 当语言模型输入用。

Q2:为什么不用更深的 Transformer 当 Encoder?

论文写的时候(2021.7)Transformer 在低延迟场景还不流行,且全卷积 + causal 在手机上跑得快、显存友好。后来 EnCodec、Descript Audio Codec 等延续了同样的卷积骨架。

Q3:3 kbps 为什么能赢 12 kbps Opus?这是不是某种"作弊"?

不是作弊,但有前提:SoundStream 在音质感知层面赢了——人耳听起来更舒服。如果你测"波形点对点 SNR",传统 codec 在低码率反而能赢。但人耳本来就是模糊的接收器,在听感上赢就是赢——这正是引入 GAN 损失的目的。

Q4:能用它压缩任何声音吗?比如黑胶噪音、密语?

理论上可以,但训练数据决定了它"擅长什么"。论文训练集是清音 + 噪音 + 音乐,所以这三类表现最稳。压缩黑胶电流声、心跳、机器轰鸣这种没在训练集出现过的信号,可能会被当成噪声"美化"掉。

Q5:模型多大?我能跑吗?

默认 Cenc=Cdec=32 → 8.4 M 参数(约 30 MB),手机能跑。砍到 Cenc=Cdec=16 → 2.4 M(约 10 MB),质量只掉 0.03 ViSQOL。消费级硬件完全 OK

Q6:它能边压缩边降噪吗?

能。论文的 III-F 加了一个 FiLM 条件层:你给一个开关 (denoise=true/false),模型实时切换"原样压"或"去噪压"。不增加任何延迟,这是做联合任务的工程优势。

Q7:为什么 SoundStream 之后还有 EnCodec、Descript Audio Codec 这些?

后续工作各有改进:EnCodec 加了 LSTM 提升时序建模、用了 Transformer-based 熵编码;Descript Audio Codec 用了改进的 RVQ + 因子分解码本。但架构骨架基本就是 SoundStream 那一套——所以 SoundStream 的"founder 论文"地位很稳。

Q8:这篇论文给具身 AI 有什么启发?

两个:(1) 把传感器流(不止音频,也可以是触觉、力矩)量化成离散 token,让大模型当语言来生成;(2) RVQ 这种"层层抠误差"的结构在动作压缩、世界模型 token 化里都被沿用。

所以这一节是想说:实操问题(多大、多贵、能不能跑、怎么扩展)作者都想到了,门槛远比你预期低。


如果你想再深入

按"奠基/同期/续作/衍生"四类排序:

  1. 奠基:VQ-VAE(2017, van den Oord et al.) — 最早把"向量量化 + 神经网络"端到端训起来的工作。SoundStream 的 RVQ 直接继承自它,只是把单个 VQ 升级成多层。
  2. 同期对手:Lyra v1(2021, Google) — Encoder 用固定梅尔频谱、Decoder 用 WaveGRU。SoundStream 在 3 kbps 主观评测上赢过 Lyra——这是同一组人证明"Encoder 必须可学"。
  3. 续作:EnCodec(2022, Meta) — 加 LSTM、改进损失、加了 Transformer 熵编码。现在做音频生成更常用的是 EnCodec,SoundStream 主要是历史地位。
  4. 续作:AudioLM(2022, Google) — SoundStream 的真正"杀手级应用"。把 RVQ token 当成"音频文字",用大语言模型生成连贯几十秒的语音/音乐。这条路通向后来的 MusicLM、Bark、Suno。
  5. 衍生:HiFi-GAN / MelGAN(2020-2021) — 不是 codec,但 SoundStream 的 GAN 损失和多尺度判别器直接借自这两篇。读它们能搞清楚为什么 SoundStream 用了这套损失组合。

所以这一节是想说:把 VQ-VAE → SoundStream → AudioLM 这三篇连起来读,你就能看清"音频 token 化 + 生成式音频"这条主线在 2017-2023 是怎么长出来的。


最后一个画面

想象 2030 年某天,你戴着 AR 眼镜在地铁上跟朋友视频。你这边的麦克风录音被 SoundStream 的某个曾孙模型实时压成 3 kbps,地铁的钢轨噪声被 FiLM 条件层一键去掉,到对面手机解码后你的声音清晰得像在他对面。这套流水线的祖先就是这篇论文。

更远一步:你让 AI 助手用你的声音念一段古诗——它从来没听你录过这段,但它学过你 5 分钟的语音 token 序列,于是用 AudioLM 的方式把"古诗的文本 token"接成"你的声音 token 序列",再交给 SoundStream 解码器变成波形。这一切的离散化基建,都是从这 12 页论文里长出来的。

所以最后一节是想说:SoundStream 不只是把音频压得更小一点,它给"音频可以像文字一样被语言模型操纵"埋下了第一颗种子。

引用本笔记 / Cite this note
BibTeX
@online{eai_soundstream_2026,
  title       = {(readable note) SoundStream: An End-to-End Neural Audio Codec},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2022 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/soundstream/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim