回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Auditory & Acoustic · Plate Nº 16

AudioLM

9 min read · 2976 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

把声音切成两种"音频字"——一种管说啥、一种管音色,模型像写句子一样续写,给 3 秒就能接出像本人的语音。

这是个什么场景 — 日常类比

想象你给朋友发了条 3 秒语音"今天天气真不错——",发到一半信号断了。能不能让手机自动帮你把后半句接出来,并且:

  • 还是你的嗓音,不是陌生人;
  • 语调自然,不是导航播报那种机械腔;
  • 内容在意思上接得上,不会冒出"香蕉去火星"这种话。

以前的做法像传话游戏:先用语音识别(ASR)把声音转成字,再让 ChatGPT 续写字,最后用 TTS 把字读出来。绕了一圈"声音 → 字 → 字 → 声音",路上丢掉很多东西:你的音色、笑声、犹豫、呼吸、背景钢琴声。

AudioLM 想跳过"字"这个中介,让模型直接在声音里学规律,就像 GPT 直接在文字里学规律一样。类比一下:以前是把你哼的小调先翻译成乐谱、让模型续写乐谱、再请人演奏;AudioLM 是直接让模型听着你的哼声接下去哼

AudioLM — 场景示意:这论文要解决的现实问题
Plate Nº IAudioLM — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • WaveNet / SampleRNN:直接在原始波形(每秒 1.6 万个样本点)上做自回归。问题:上下文太短,模型只能记得几十毫秒,没法保持几秒级别的连贯性。
  • Tacotron / FastSpeech 等 TTS:质量不错,但严重依赖文本输入和大量配对数据,不能"无文本"地建模一段录音的延续。
  • VQ-VAE + 自回归先验(Jukebox 这条线):用离散 token 压缩音频,再用 Transformer 建模。方向对,但单层 token 很难同时兼顾"语义连贯"和"音色细节"——压得太狠丢音质,留得太多丢长程结构。
  • SoundStream / EnCodec 等神经音频编解码器:把音频压成低比特率的离散码,重建质量很高,但当时主要用于压缩,没和大模型生成直接结合。
  • wav2vec 2.0 / w2v-BERT 等自监督语音表征:擅长抽取"说了什么"的语义信息,但目标是判别(识别/分类),不是生成。

AudioLM 的关键观察:这些工作要么擅长语义、要么擅长音质,没人把两者拼起来用作生成

这篇论文的关键想法

把核心想法当成两条厨房守则记:

  1. "声音也是一门语言":就像把汉字切成一个个字再写句子,把声音也切成一个个"音频字"(离散 token)后,GPT 那套"看前文猜下一个字"的本事就能直接搬过来用。
  2. "说啥"和"像谁"要分两摞 token 装:一摞 token 既装不下"这句话讲了啥"又装不下"听起来像谁"——就像一个抽屉塞不下毛衣又塞不下袜子。AudioLM 干脆用两个抽屉:
    • Semantic tokens(语义 token):来自 w2v-BERT,码率低、变化慢,装"说什么"(发音、词汇、句法、长程一致性)。
    • Acoustic tokens(声学 token):来自 SoundStream 这种神经编解码器,码率高、变化快,装"怎么响"(音色、韵律、录音环境细节)。

生成时也分两步:先让模型把"说什么"那一摞 token 接下去(保证内容连贯),再拿这串当提示去生成"怎么响"那一摞(把内容渲染成具体声音)。长程结构归便宜的语义流管,音质细节归声学流管,互不抢戏。

AudioLM — 方法示意:核心 pipeline
Plate Nº IIAudioLM — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

第一步:把音频拆成两套"音频字"。像把一段录音同时拍两张不同分辨率的照片——一张抓神情(语义),一张抓皮肤纹理(音色)。一条通道进 w2v-BERT(一个语音自监督模型),抽中间层向量再用 k-means 聚类成离散 ID,得到 semantic tokens,码率大概几十 Hz 量级。另一条通道进 SoundStream(一个 RVQ 神经音频编解码器),输出多层 acoustic tokens(每个时间步有多个 codebook ID 叠加表达细节),码率比 semantic 高一个数量级。具体码率和层数需读原文。

等等,先慢一拍——RVQ(残差向量量化)是什么?想象你画一个人脸:第一笔先画大轮廓,画完发现不够像,第二笔再补一些细节,第三笔再补更细的。RVQ 就是这样一层层补,每一层用一个小 codebook 存一些"差在哪里",叠几层就能用很小的码率把声音还原得很像。所以一个时间步会有好几个 token,而不是一个。

第二步:像写小说那样分阶段往下接。打个比方:先打提纲(说什么)、再写正文骨架(粗音色)、最后润色细节(清晰度)。AudioLM 训三个 Transformer(或一个共享但分阶段调用的 decoder),按顺序工作:

  • Semantic modeling:在 semantic token 序列上做 next-token prediction,学"内容怎么往下走"。
  • Coarse acoustic modeling:以全部 semantic tokens 为条件,预测 acoustic 中"粗粒度"那几层 codebook(管整体音色、说话人、韵律)。
  • Fine acoustic modeling:以 semantic + 粗 acoustic 为条件,补出"细粒度"那几层 codebook(管高频细节、清晰度)。

为什么非要这么切?因为如果一上来就让模型同时吐所有 acoustic 层,序列会长到爆(每秒几百到上千 token),算力扛不住,而且粗粒度的"说什么"信号会被淹没。分阶段相当于"先勾轮廓再上色",每一段只解决一类问题。

第三步:用的时候给个开头就行。像跟人玩"接龙"——你哼前 3 秒,它接后半段。比如丢给它 3 秒钢琴片段,先编码出 semantic + acoustic token 的前缀,让模型从 semantic 阶段开始续写 token 流,逐阶段生成完所有 acoustic tokens 后再用 SoundStream 解码器还原回波形。全程不需要任何文字标签,纯无监督。

第四步:拿什么数据喂它。语音用大规模英文朗读 / 对话数据,钢琴用 YouTube 钢琴片段集。具体数据量需读原文。模型规模是中等 Transformer(几亿参数级别),不是 LLM 那种百亿规模——这也是它能在 2022-2023 年硬件上跑起来的关键。

实验在做什么

论文从两个域验证"音频语言建模"思路:

  • 语音续写(speech continuation):给 3 秒提示,让模型续生成数秒。评估三件事:(a) 语义连贯性 —— 续写内容像不像同一个人在自然说话;(b) 说话人一致性 —— 续写的音色和提示是不是同一个人,用说话人识别模型打分;(c) 音质 —— 主观打分(MOS)和客观指标。论文报告 AudioLM 在这三项上都显著好于纯 acoustic-only 基线,证明 semantic token 那一层确实在帮长程结构。
  • 钢琴续写:换一个完全不同的领域(音乐而不是语音),验证方法是不是通用。给一段钢琴提示,续生成的旋律在节奏和调性上保持一致。这一组实验的意义是说明 AudioLM 不靠"语音先验",而是真的在做通用音频建模。
  • 消融:去掉 semantic token 那一层会怎样?答案是长程结构崩坏,说话人音色还行但说的内容变得颠三倒四。这个对照很关键,直接支撑了"两层 token 各司其职"的核心 claim。

具体数字(MOS、说话人一致率、SI-SNR 等)需读原文。

你应该懂的几个新词 — 4-6 个

  • 离散音频 token(discrete audio tokens):把连续波形量化成有限词表里的整数 ID,类比汉字之于汉语。一旦音频被 tokenize,所有 NLP 大模型那套技术(Transformer、causal mask、KV cache)就能照搬。
  • RVQ(Residual Vector Quantization,残差向量量化):SoundStream / EnCodec 用的核心技巧。一层 codebook 量化完,把残差再交给下一层 codebook 量化,叠几层就能用很小的码率达到很好的重建。每个时间步因此有多个 token 而不是一个。
  • Semantic token vs Acoustic token:前者来自语音自监督模型的中层表征聚类,慢变、低码率、装"说什么";后者来自神经编解码器,快变、高码率、装"怎么响"。这是 AudioLM 的灵魂。
  • w2v-BERT:语音版的 BERT,结合对比学习和掩码预测在大规模无标注语音上训练,中间层向量被广泛认为携带语言学语义。
  • 自回归生成(autoregressive generation):模型按顺序一个 token 一个 token 地预测,每次条件化在已生成的所有前文上。GPT 文本续写、AudioLM 音频续写本质同源。
  • MOS(Mean Opinion Score):让一群人主观打分(通常 1-5)取平均,是音频/语音质量评估的金标准之一,缺点是贵且不能完全自动化。

它和其他论文什么关系

  • 上游:站在 w2v-BERT(语义表征)和 SoundStream(声学 token)的肩膀上,自己不重新发明 tokenizer。这种"模块组合"风格在 2022-2023 年的多模态生成里很常见。
  • 横向同期:和 Jukebox(OpenAI,2020)共享"VQ + 自回归 Transformer 生成音频"的大方向,但 Jukebox 是单流多分辨率层级,AudioLM 明确分语义/声学两类语义不同的 token。AudioGen(Meta,2022)走的是文本 → 音效,依赖文本条件;AudioLM 强调无文本。
  • 下游:直接催生了 SoundStorm(同组并行解码加速)、MusicLM(同思路做文本到音乐)、VALL-E(微软,把这套用于零样本 TTS,把 AudioLM 的 acoustic 阶段改成文本+音色提示条件生成)。可以说 AudioLM 是 2023 年那一波"音频也是 LLM"浪潮的起点。
  • 对比 TTS 经典系:Tacotron / FastSpeech 需要文本对,AudioLM 不需要;后续 VALL-E / NaturalSpeech 2 等再把文本条件加回来,但骨架仍是 AudioLM 的两层 token 思想。

我建议这样读 — 3-4 步

  1. 第一遍只看 Figure 1 + Section 3:搞清楚两类 token 是怎么定义的、三阶段建模的输入输出分别是什么。这是骨架,理解它后面全是细节。
  2. 第二遍读 Section 4(实验)和音频 demo:论文官网有大量音频样例,一定要去听——读多少描述都不如听 10 秒"去掉 semantic token 后会怎样"的对比来得直观。
  3. 第三遍研究 tokenizer 细节:w2v-BERT 是哪一层、k 取多少、SoundStream 多少层 RVQ、码率配比。这些参数选择决定了能不能跑起来,也是后续工作(VALL-E、MusicLM)改动最多的地方。
  4. 可选第四步:跟着读 SoundStorm 和 VALL-E,看 AudioLM 这套架构如何被加速(并行解码替代自回归)和被特化(加文本条件做 zero-shot TTS),形成完整脉络。

为什么值得读

AudioLM 的价值不在某个特定 SOTA 数字,而在它把一种"思考方式"立住了:音频生成 = tokenize + 自回归语言建模 + 语义/声学分层。这套思路之后被反复复用——MusicLM 拿去做文本到音乐,VALL-E 拿去做零样本 TTS,SoundStorm 拿去做加速,再之后多模态 LLM(Gemini、GPT-4o 的语音侧)也都能看到它的影子。

对零基础学习者来说,读 AudioLM 还有两个隐藏收益:

  • 它是理解"为什么 LLM 范式能跨模态扩张"的一个非常干净的样本——比图文多模态简单,因为输入输出都是一维序列;
  • 它清晰展示了"分层抽象"在工程里怎么落地:当一个目标既要管全局结构又要管局部细节时,硬塞进一个 token 流通常崩,分两层各司其职往往就通了。这个直觉在很多别的领域(视频生成、机器人动作生成)也能复用。

如果你只读 5 篇 2023 年的音频/语音论文,AudioLM 应该是其中一篇。

引用本笔记 / Cite this note
BibTeX
@online{eai_audiolm_2026,
  title       = {(readable note) AudioLM},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/audiolm/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim