回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Auditory & Acoustic · Plate Nº 19

EnCodec

8 min read · 2701 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

EnCodec 把声音压成一串很小的数字再还原回来;既比老办法省流量,又因为是数字,AI 可以像写字一样"写"出声音。

这是个什么场景 — 日常类比

你在地铁里发了一条 60 秒微信语音,对方信号很差却几乎秒收——这背后就是"音频编解码器"在帮你把声音压扁、再还原。

  • 传统压缩(MP3、Opus)像老厨师写的菜谱:几十年里工程师对着人耳听觉特性,手工写下"哪几味重、哪几味可以省"的规则。规则是死的,遇到没下过厨的新菜(比如混着音乐+人声+环境音)就不一定压得好。
  • EnCodec 更像一个听过几百万小时音频的学徒:你不教它规则,让它自己听,最后总结出"声音里最关键的那几张图卡(codeword)是哪几张"。压缩时它只写下"用了 3 号卡 + 17 号卡 + 88 号卡"这串编号;解压时照着编号去卡牌册里翻出来、拼回波形。
  • 区别在哪?学徒能在很低的比特率(1.5 kbps,差不多一秒钟只传一条短信那么大的数据)下还原出听得清的声音,老菜谱做不到。
  • 还有个隐藏好处:这串编号本身就是一串整数,跟文字 token 长得一模一样,可以直接丢给 Transformer 当"音频版 GPT"的输入——这才是后来 MusicGen / VALL-E 能起飞的关键前提。
EnCodec — 场景示意:这论文要解决的现实问题
Plate Nº IEnCodec — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 传统信号处理编解码器(Opus、AAC、EVS、MP3):手工设计感知模型 + 量化 + 熵编码;几十年积累,低延迟好,但低比特率下质量崩。
  • 早期神经编解码器:WaveNet / SampleRNN 这类生成式模型当解码器,质量好但自回归慢,不能实时。
  • SoundStream(Google,2021,Interspeech):EnCodec 的直接前辈,第一个把 encoder-quantizer-decoder 端到端学出来的神经 codec,引入了 RVQ(残差矢量量化)这个核心组件。EnCodec 基本上是在 SoundStream 框架上做工程加强 + 通用化。
  • VQ-VAE 系列:把音频离散化的早期尝试,但目标主要是表征学习(representation),不是把比特率打到极限。
  • 痛点共性:神经方法要么太慢、要么质量不稳定、要么只在语音上 work、不能同时处理音乐+语音+环境声。

这篇论文的关键想法

一句话:用一个 streaming 卷积 encoder + 残差矢量量化(RVQ)+ 卷积 decoder 端到端训出来,再加一个判别器(GAN)保质感

拆开看:

  • 离散化是必须的:连续的隐向量不能压缩成 bit;只有把 encoder 输出量化成"码本里的第几个 codeword",才有真正的"几 kbps"可言。
  • 单次量化不够:一个码本只能表达有限信息。EnCodec 用 RVQ——量化一次,记下残差,再量化残差,再记残差……堆 8 层左右的码本,每层 1024 个 codeword。比特率随用了几层而变,一次训练多比特率可用(这点很重要,部署友好)。
  • 判别器保真:单纯 L1/L2 重建损失训出来声音"糊"。加上 multi-scale STFT 判别器,让 GAN 推动 decoder 输出的频谱细节像真实音频。
  • 流式设计:所有卷积都用因果卷积(causal convolution),让模型只看过去不看未来,可以一边收音频一边输出 token,端到端延迟做到接近实时(具体延迟数字需读原文)。
EnCodec — 方法示意:核心 pipeline
Plate Nº IIEnCodec — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

第一段 — encoder/decoder 主干。像翻译员:encoder 把"声音原文"翻成一串短小密码,decoder 再把密码翻回声音。具体上,encoder 是一串带步长(stride)的 1D 卷积,把 24 kHz 的波形(也就是每秒 24000 个采样点)下采样到大约 75 Hz 的隐表示(每秒 75 帧 latent,相当于把信息压扁了 320 倍)。Decoder 镜像对称:转置卷积一路上采样回波形。中间塞了 LSTM 让模型有一点时序记忆能力。整个网络参数量不大(千万级,具体数字需读原文),CPU 也能实时跑——这是论文重点强调的工程价值。

第二段 — RVQ 量化层。像画素描:先用一笔粗线把人脸轮廓画出来,看看还差什么再补一笔,再补一笔……越补越像。Encoder 出来的每帧 latent 进入一组级联的码本:第一个码本量化得到 q1(粗线),残差 r1 = z - q1 再被第二个码本量化得到 q2(补线),再算残差……最终重建用 q1+q2+...+qN。

等等,先慢一拍 — "码本"是什么?想成一本卡牌册,里面预先存了 1024 张"声音卡";量化就是从这本册子里挑一张最像当前声音的卡,记下编号。RVQ 就是允许你叠 8 张卡,每张补上一点上一张漏掉的细节。

每层码本通过 EMA(exponential moving average,指数滑动平均)更新,相当于一个边训练边自调整的 k-means。比特率 = 帧率 × 层数 × log2(每层 codeword 数)。EnCodec 训练时随机选层数,所以一个模型能在 1.5 / 3 / 6 / 12 / 24 kbps 多档之间切换,不用为每档训一个模型。

第三段 — 损失与判别器。像老师批改作业:光看分数(重建误差)容易让学生学会糊弄;再加一个"挑刺评委"专门盯细节,作业才会写得有质感。损失由几部分加权和组成:时域 L1、多尺度梅尔频谱 L1、对抗损失(adversarial loss)+ 特征匹配损失(feature matching loss),以及 RVQ 的 commit loss(让 encoder 输出贴近码本中心)。判别器用 multi-scale STFT discriminator——在不同 STFT 窗口大小上判真伪,覆盖从短瞬变(鼓点)到长持续音(人声)。

第四段 — 可选熵编码。像压缩 zip:编号已经记下来了,再做一道无损压缩还能再省一点。码本编号本身可以再用一个小型 Transformer 语言模型建模分布,做算术编码进一步压缩比特率(能压掉 25-40%,具体数字需读原文)。这部分在很多下游应用里被省略——因为下游本身就是用语言模型预测这些 token,没必要再编码一次。

实验在做什么

  • 比特率扫描:在 1.5 / 3 / 6 / 12 / 24 kbps 各档跟 Opus、EVS、Lyra v2 比 MUSHRA 主观听感分。低比特率(1.5 / 3 kbps)下 EnCodec 优势最明显;高比特率(24 kbps)大家都能听不出区别。
  • 数据多样性:训练数据混合语音(DNS、Common Voice)+ 音乐(Jamendo)+ 通用音频。这是 EnCodec 比 SoundStream 更通用的来源——SoundStream 早期主要针对语音。
  • 流式 vs 非流式:因果版本质量略低于非因果版本(合理),但延迟达标。具体延迟与质量 tradeoff 数字需读原文。
  • 消融:判别器、RVQ 层数、有无熵编码、不同 mel loss 权重,逐项扫。
  • 下游任务:作者本人没怎么强调,但发表后一年内 AudioLM / MusicGen / VALL-E 全部用 EnCodec token 做语言模型——这才是实验之外的真正影响力。

你应该懂的几个新词 — 4-6 个

  • VQ(Vector Quantization)矢量量化:把连续向量映射到离散码本里"最近的那个",输出是个整数 ID。神经 codec 的核心机制。
  • RVQ(Residual VQ)残差矢量量化:量化一次 → 算残差 → 再量化残差 → ……级联多层。比特率随层数线性增长,质量也随之提升,部署灵活。
  • MUSHRA:一种音频质量主观评估协议,参与者听样本打 0-100 分,结果比 MOS 更细。神经 codec 论文标配。
  • causal convolution 因果卷积:第 t 帧的输出只依赖 ≤ t 的输入,让卷积模型可流式跑,不用等未来帧。
  • STFT(Short-Time Fourier Transform)短时傅立叶变换:把波形切窗做 FFT,得到时频图(spectrogram);判别器在这个域上判真伪比直接看波形更有效。
  • codebook 码本:VQ 维护的 N 个固定向量,量化时找最近邻。EMA 更新让码本随训练慢慢移动。

它和其他论文什么关系

  • 直接前辈:SoundStream(Google, 2021)。EnCodec 的架构、RVQ、对抗训练几乎照抄 SoundStream,主要做了通用化(语音+音乐+环境声)和工程优化(CPU 实时、流式延迟)。
  • 同代:Lyra v2(Google)也是神经语音 codec,专攻超低比特率语音;EnCodec 更通用。
  • 后辈应用
    • AudioLM(Google, 2022):用 SoundStream/类似 token 做"音频 GPT",预测 token 序列再解码回波形。
    • MusicGen(Meta, 2023):直接用 EnCodec 的 32 kHz 版本 token 训文本到音乐 LM。
    • VALL-E(Microsoft, 2023):用 EnCodec token 做 zero-shot TTS。
    • Bark / SpeechGen / 各种 audio LM:基本都站在 EnCodec/SoundStream 的肩膀上。
  • 更远的亲戚:和 VQ-VAE-2、Jukebox(OpenAI)一脉相承——都是"先离散化、再用语言模型在离散 token 上建模"的思路。
  • 替代品:DAC(Descript Audio Codec, 2023)和 SNAC、Mimi(Moshi 用的)等后续 codec 在质量和压缩率上做了进一步优化,但 EnCodec 因为时间早 + Meta 开源齐全,仍是研究社区的事实基线。

我建议这样读 — 3-4 步

  1. 先读 abstract + Figure 1 架构图:搞清 encoder → RVQ → decoder 这三块的关系,以及流式版与非流式版的差异。
  2. 重点啃第 3 节的 RVQ:这是整篇论文最值得吃透的机制——理解为什么残差量化能用一次训练支持多比特率,以及码本更新(EMA)如何避免 codebook collapse(码本里大部分 codeword 没被用上)。
  3. 跳到实验图表对照 SoundStream:看 EnCodec 在哪些方面赢、赢多少;理解什么时候选神经 codec、什么时候传统 codec 还够用。
  4. (可选)配合读 SoundStream 论文 + MusicGen 论文:前者是 EnCodec 的"祖先",后者是 EnCodec 的"用法示范"。三篇连读你就能完整理解"音频离散化 → 音频 LM"这条链。

为什么值得读

  • 音频离散化的事实标准:2023-2025 年所有 audio LM、音乐生成、零样本 TTS 的工作,绝大多数 token 词表要么是 EnCodec、要么是它的直接变体。不读这篇,后面 MusicGen / VALL-E / AudioLM 的 token 维度("为什么是 8 个码本、每帧 8 个整数?")你看不懂。
  • 方法本身漂亮:RVQ + 多尺度 STFT 判别器 + 流式因果卷积,三个组件都有独立学习价值,组合起来又恰好解决一个端到端问题。是"神经压缩"领域的经典教科书案例。
  • Meta 开源齐全:代码、预训练权重、推理 demo 都在 GitHub(facebookresearch/encodec),可以直接跑、直接改,对零基础学习者非常友好。
  • 跟 embodied / 多模态有关:身体智能的"听觉"通道几乎都要把声音变成离散 token 才能和 LLM 对齐——EnCodec 就是这个对齐的入口。

引用本笔记 / Cite this note
BibTeX
@online{eai_encodec_2026,
  title       = {(readable note) EnCodec},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/encodec/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim