Auditory & Acoustic · Plate Nº 16

AudioLM

9 min read · 2976 字 · ⭐⭐⭐⭐ · 短摘要

#transformer #language #audio-speech

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

把声音切成两种"音频字"——一种管说啥、一种管音色，模型像写句子一样续写，给 3 秒就能接出像本人的语音。

这是个什么场景 — 日常类比

想象你给朋友发了条 3 秒语音"今天天气真不错——"，发到一半信号断了。能不能让手机自动帮你把后半句接出来，并且：

还是你的嗓音，不是陌生人；
语调自然，不是导航播报那种机械腔；
内容在意思上接得上，不会冒出"香蕉去火星"这种话。

以前的做法像传话游戏：先用语音识别（ASR）把声音转成字，再让 ChatGPT 续写字，最后用 TTS 把字读出来。绕了一圈"声音 → 字 → 字 → 声音"，路上丢掉很多东西：你的音色、笑声、犹豫、呼吸、背景钢琴声。

AudioLM 想跳过"字"这个中介，让模型直接在声音里学规律，就像 GPT 直接在文字里学规律一样。类比一下：以前是把你哼的小调先翻译成乐谱、让模型续写乐谱、再请人演奏；AudioLM 是直接让模型听着你的哼声接下去哼。

之前的人怎么做的 — 3-5 bullet

WaveNet / SampleRNN：直接在原始波形（每秒 1.6 万个样本点）上做自回归。问题：上下文太短，模型只能记得几十毫秒，没法保持几秒级别的连贯性。
Tacotron / FastSpeech 等 TTS：质量不错，但严重依赖文本输入和大量配对数据，不能"无文本"地建模一段录音的延续。
VQ-VAE + 自回归先验（Jukebox 这条线）：用离散 token 压缩音频，再用 Transformer 建模。方向对，但单层 token 很难同时兼顾"语义连贯"和"音色细节"——压得太狠丢音质，留得太多丢长程结构。
SoundStream / EnCodec 等神经音频编解码器：把音频压成低比特率的离散码，重建质量很高，但当时主要用于压缩，没和大模型生成直接结合。
wav2vec 2.0 / w2v-BERT 等自监督语音表征：擅长抽取"说了什么"的语义信息，但目标是判别（识别/分类），不是生成。

AudioLM 的关键观察：这些工作要么擅长语义、要么擅长音质，没人把两者拼起来用作生成。

这篇论文的关键想法

把核心想法当成两条厨房守则记：

"声音也是一门语言"：就像把汉字切成一个个字再写句子，把声音也切成一个个"音频字"（离散 token）后，GPT 那套"看前文猜下一个字"的本事就能直接搬过来用。
"说啥"和"像谁"要分两摞 token 装：一摞 token 既装不下"这句话讲了啥"又装不下"听起来像谁"——就像一个抽屉塞不下毛衣又塞不下袜子。AudioLM 干脆用两个抽屉：
- Semantic tokens（语义 token）：来自 w2v-BERT，码率低、变化慢，装"说什么"（发音、词汇、句法、长程一致性）。
- Acoustic tokens（声学 token）：来自 SoundStream 这种神经编解码器，码率高、变化快，装"怎么响"（音色、韵律、录音环境细节）。

生成时也分两步：先让模型把"说什么"那一摞 token 接下去（保证内容连贯），再拿这串当提示去生成"怎么响"那一摞（把内容渲染成具体声音）。长程结构归便宜的语义流管，音质细节归声学流管，互不抢戏。

它怎么做的（方法）— 3-4 段

第一步：把音频拆成两套"音频字"。像把一段录音同时拍两张不同分辨率的照片——一张抓神情（语义），一张抓皮肤纹理（音色）。一条通道进 w2v-BERT（一个语音自监督模型），抽中间层向量再用 k-means 聚类成离散 ID，得到 semantic tokens，码率大概几十 Hz 量级。另一条通道进 SoundStream（一个 RVQ 神经音频编解码器），输出多层 acoustic tokens（每个时间步有多个 codebook ID 叠加表达细节），码率比 semantic 高一个数量级。具体码率和层数需读原文。

等等，先慢一拍——RVQ（残差向量量化）是什么？想象你画一个人脸：第一笔先画大轮廓，画完发现不够像，第二笔再补一些细节，第三笔再补更细的。RVQ 就是这样一层层补，每一层用一个小 codebook 存一些"差在哪里"，叠几层就能用很小的码率把声音还原得很像。所以一个时间步会有好几个 token，而不是一个。

第二步：像写小说那样分阶段往下接。打个比方：先打提纲（说什么）、再写正文骨架（粗音色）、最后润色细节（清晰度）。AudioLM 训三个 Transformer（或一个共享但分阶段调用的 decoder），按顺序工作：

Semantic modeling：在 semantic token 序列上做 next-token prediction，学"内容怎么往下走"。
Coarse acoustic modeling：以全部 semantic tokens 为条件，预测 acoustic 中"粗粒度"那几层 codebook（管整体音色、说话人、韵律）。
Fine acoustic modeling：以 semantic + 粗 acoustic 为条件，补出"细粒度"那几层 codebook（管高频细节、清晰度）。

为什么非要这么切？因为如果一上来就让模型同时吐所有 acoustic 层，序列会长到爆（每秒几百到上千 token），算力扛不住，而且粗粒度的"说什么"信号会被淹没。分阶段相当于"先勾轮廓再上色"，每一段只解决一类问题。

第三步：用的时候给个开头就行。像跟人玩"接龙"——你哼前 3 秒，它接后半段。比如丢给它 3 秒钢琴片段，先编码出 semantic + acoustic token 的前缀，让模型从 semantic 阶段开始续写 token 流，逐阶段生成完所有 acoustic tokens 后再用 SoundStream 解码器还原回波形。全程不需要任何文字标签，纯无监督。

第四步：拿什么数据喂它。语音用大规模英文朗读 / 对话数据，钢琴用 YouTube 钢琴片段集。具体数据量需读原文。模型规模是中等 Transformer（几亿参数级别），不是 LLM 那种百亿规模——这也是它能在 2022-2023 年硬件上跑起来的关键。

实验在做什么

论文从两个域验证"音频语言建模"思路：

语音续写（speech continuation）：给 3 秒提示，让模型续生成数秒。评估三件事：(a) 语义连贯性 —— 续写内容像不像同一个人在自然说话；(b) 说话人一致性 —— 续写的音色和提示是不是同一个人，用说话人识别模型打分；(c) 音质 —— 主观打分（MOS）和客观指标。论文报告 AudioLM 在这三项上都显著好于纯 acoustic-only 基线，证明 semantic token 那一层确实在帮长程结构。
钢琴续写：换一个完全不同的领域（音乐而不是语音），验证方法是不是通用。给一段钢琴提示，续生成的旋律在节奏和调性上保持一致。这一组实验的意义是说明 AudioLM 不靠"语音先验"，而是真的在做通用音频建模。
消融：去掉 semantic token 那一层会怎样？答案是长程结构崩坏，说话人音色还行但说的内容变得颠三倒四。这个对照很关键，直接支撑了"两层 token 各司其职"的核心 claim。

具体数字（MOS、说话人一致率、SI-SNR 等）需读原文。

你应该懂的几个新词 — 4-6 个

离散音频 token（discrete audio tokens）：把连续波形量化成有限词表里的整数 ID，类比汉字之于汉语。一旦音频被 tokenize，所有 NLP 大模型那套技术（Transformer、causal mask、KV cache）就能照搬。
RVQ（Residual Vector Quantization，残差向量量化）：SoundStream / EnCodec 用的核心技巧。一层 codebook 量化完，把残差再交给下一层 codebook 量化，叠几层就能用很小的码率达到很好的重建。每个时间步因此有多个 token 而不是一个。
Semantic token vs Acoustic token：前者来自语音自监督模型的中层表征聚类，慢变、低码率、装"说什么"；后者来自神经编解码器，快变、高码率、装"怎么响"。这是 AudioLM 的灵魂。
w2v-BERT：语音版的 BERT，结合对比学习和掩码预测在大规模无标注语音上训练，中间层向量被广泛认为携带语言学语义。
自回归生成（autoregressive generation）：模型按顺序一个 token 一个 token 地预测，每次条件化在已生成的所有前文上。GPT 文本续写、AudioLM 音频续写本质同源。
MOS（Mean Opinion Score）：让一群人主观打分（通常 1-5）取平均，是音频/语音质量评估的金标准之一，缺点是贵且不能完全自动化。

它和其他论文什么关系

上游：站在 w2v-BERT（语义表征）和 SoundStream（声学 token）的肩膀上，自己不重新发明 tokenizer。这种"模块组合"风格在 2022-2023 年的多模态生成里很常见。
横向同期：和 Jukebox（OpenAI，2020）共享"VQ + 自回归 Transformer 生成音频"的大方向，但 Jukebox 是单流多分辨率层级，AudioLM 明确分语义/声学两类语义不同的 token。AudioGen（Meta，2022）走的是文本 → 音效，依赖文本条件；AudioLM 强调无文本。
下游：直接催生了 SoundStorm（同组并行解码加速）、MusicLM（同思路做文本到音乐）、VALL-E（微软，把这套用于零样本 TTS，把 AudioLM 的 acoustic 阶段改成文本+音色提示条件生成）。可以说 AudioLM 是 2023 年那一波"音频也是 LLM"浪潮的起点。
对比 TTS 经典系：Tacotron / FastSpeech 需要文本对，AudioLM 不需要；后续 VALL-E / NaturalSpeech 2 等再把文本条件加回来，但骨架仍是 AudioLM 的两层 token 思想。

我建议这样读 — 3-4 步

第一遍只看 Figure 1 + Section 3：搞清楚两类 token 是怎么定义的、三阶段建模的输入输出分别是什么。这是骨架，理解它后面全是细节。
第二遍读 Section 4（实验）和音频 demo：论文官网有大量音频样例，一定要去听——读多少描述都不如听 10 秒"去掉 semantic token 后会怎样"的对比来得直观。
第三遍研究 tokenizer 细节：w2v-BERT 是哪一层、k 取多少、SoundStream 多少层 RVQ、码率配比。这些参数选择决定了能不能跑起来，也是后续工作（VALL-E、MusicLM）改动最多的地方。
可选第四步：跟着读 SoundStorm 和 VALL-E，看 AudioLM 这套架构如何被加速（并行解码替代自回归）和被特化（加文本条件做 zero-shot TTS），形成完整脉络。

为什么值得读

AudioLM 的价值不在某个特定 SOTA 数字，而在它把一种"思考方式"立住了：音频生成 = tokenize + 自回归语言建模 + 语义/声学分层。这套思路之后被反复复用——MusicLM 拿去做文本到音乐，VALL-E 拿去做零样本 TTS，SoundStorm 拿去做加速，再之后多模态 LLM（Gemini、GPT-4o 的语音侧）也都能看到它的影子。

对零基础学习者来说，读 AudioLM 还有两个隐藏收益：

它是理解"为什么 LLM 范式能跨模态扩张"的一个非常干净的样本——比图文多模态简单，因为输入输出都是一维序列；
它清晰展示了"分层抽象"在工程里怎么落地：当一个目标既要管全局结构又要管局部细节时，硬塞进一个 token 流通常崩，分两层各司其职往往就通了。这个直觉在很多别的领域（视频生成、机器人动作生成）也能复用。

如果你只读 5 篇 2023 年的音频/语音论文，AudioLM 应该是其中一篇。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_audiolm_2026,
  title       = {(readable note) AudioLM},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/audiolm/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)