EnCodec
本笔记基于摘要 + 公开资料,未读全文。
一句话讲什么(TL;DR)
EnCodec 把声音压成一串很小的数字再还原回来;既比老办法省流量,又因为是数字,AI 可以像写字一样"写"出声音。
这是个什么场景 — 日常类比
你在地铁里发了一条 60 秒微信语音,对方信号很差却几乎秒收——这背后就是"音频编解码器"在帮你把声音压扁、再还原。
- 传统压缩(MP3、Opus)像老厨师写的菜谱:几十年里工程师对着人耳听觉特性,手工写下"哪几味重、哪几味可以省"的规则。规则是死的,遇到没下过厨的新菜(比如混着音乐+人声+环境音)就不一定压得好。
- EnCodec 更像一个听过几百万小时音频的学徒:你不教它规则,让它自己听,最后总结出"声音里最关键的那几张图卡(codeword)是哪几张"。压缩时它只写下"用了 3 号卡 + 17 号卡 + 88 号卡"这串编号;解压时照着编号去卡牌册里翻出来、拼回波形。
- 区别在哪?学徒能在很低的比特率(1.5 kbps,差不多一秒钟只传一条短信那么大的数据)下还原出听得清的声音,老菜谱做不到。
- 还有个隐藏好处:这串编号本身就是一串整数,跟文字 token 长得一模一样,可以直接丢给 Transformer 当"音频版 GPT"的输入——这才是后来 MusicGen / VALL-E 能起飞的关键前提。

之前的人怎么做的 — 3-5 bullet
- 传统信号处理编解码器(Opus、AAC、EVS、MP3):手工设计感知模型 + 量化 + 熵编码;几十年积累,低延迟好,但低比特率下质量崩。
- 早期神经编解码器:WaveNet / SampleRNN 这类生成式模型当解码器,质量好但自回归慢,不能实时。
- SoundStream(Google,2021,Interspeech):EnCodec 的直接前辈,第一个把 encoder-quantizer-decoder 端到端学出来的神经 codec,引入了 RVQ(残差矢量量化)这个核心组件。EnCodec 基本上是在 SoundStream 框架上做工程加强 + 通用化。
- VQ-VAE 系列:把音频离散化的早期尝试,但目标主要是表征学习(representation),不是把比特率打到极限。
- 痛点共性:神经方法要么太慢、要么质量不稳定、要么只在语音上 work、不能同时处理音乐+语音+环境声。
这篇论文的关键想法
一句话:用一个 streaming 卷积 encoder + 残差矢量量化(RVQ)+ 卷积 decoder 端到端训出来,再加一个判别器(GAN)保质感。
拆开看:
- 离散化是必须的:连续的隐向量不能压缩成 bit;只有把 encoder 输出量化成"码本里的第几个 codeword",才有真正的"几 kbps"可言。
- 单次量化不够:一个码本只能表达有限信息。EnCodec 用 RVQ——量化一次,记下残差,再量化残差,再记残差……堆 8 层左右的码本,每层 1024 个 codeword。比特率随用了几层而变,一次训练多比特率可用(这点很重要,部署友好)。
- 判别器保真:单纯 L1/L2 重建损失训出来声音"糊"。加上 multi-scale STFT 判别器,让 GAN 推动 decoder 输出的频谱细节像真实音频。
- 流式设计:所有卷积都用因果卷积(causal convolution),让模型只看过去不看未来,可以一边收音频一边输出 token,端到端延迟做到接近实时(具体延迟数字需读原文)。

它怎么做的(方法)— 3-4 段
第一段 — encoder/decoder 主干。像翻译员:encoder 把"声音原文"翻成一串短小密码,decoder 再把密码翻回声音。具体上,encoder 是一串带步长(stride)的 1D 卷积,把 24 kHz 的波形(也就是每秒 24000 个采样点)下采样到大约 75 Hz 的隐表示(每秒 75 帧 latent,相当于把信息压扁了 320 倍)。Decoder 镜像对称:转置卷积一路上采样回波形。中间塞了 LSTM 让模型有一点时序记忆能力。整个网络参数量不大(千万级,具体数字需读原文),CPU 也能实时跑——这是论文重点强调的工程价值。
第二段 — RVQ 量化层。像画素描:先用一笔粗线把人脸轮廓画出来,看看还差什么再补一笔,再补一笔……越补越像。Encoder 出来的每帧 latent 进入一组级联的码本:第一个码本量化得到 q1(粗线),残差 r1 = z - q1 再被第二个码本量化得到 q2(补线),再算残差……最终重建用 q1+q2+...+qN。
等等,先慢一拍 — "码本"是什么?想成一本卡牌册,里面预先存了 1024 张"声音卡";量化就是从这本册子里挑一张最像当前声音的卡,记下编号。RVQ 就是允许你叠 8 张卡,每张补上一点上一张漏掉的细节。
每层码本通过 EMA(exponential moving average,指数滑动平均)更新,相当于一个边训练边自调整的 k-means。比特率 = 帧率 × 层数 × log2(每层 codeword 数)。EnCodec 训练时随机选层数,所以一个模型能在 1.5 / 3 / 6 / 12 / 24 kbps 多档之间切换,不用为每档训一个模型。
第三段 — 损失与判别器。像老师批改作业:光看分数(重建误差)容易让学生学会糊弄;再加一个"挑刺评委"专门盯细节,作业才会写得有质感。损失由几部分加权和组成:时域 L1、多尺度梅尔频谱 L1、对抗损失(adversarial loss)+ 特征匹配损失(feature matching loss),以及 RVQ 的 commit loss(让 encoder 输出贴近码本中心)。判别器用 multi-scale STFT discriminator——在不同 STFT 窗口大小上判真伪,覆盖从短瞬变(鼓点)到长持续音(人声)。
第四段 — 可选熵编码。像压缩 zip:编号已经记下来了,再做一道无损压缩还能再省一点。码本编号本身可以再用一个小型 Transformer 语言模型建模分布,做算术编码进一步压缩比特率(能压掉 25-40%,具体数字需读原文)。这部分在很多下游应用里被省略——因为下游本身就是用语言模型预测这些 token,没必要再编码一次。
实验在做什么
- 比特率扫描:在 1.5 / 3 / 6 / 12 / 24 kbps 各档跟 Opus、EVS、Lyra v2 比 MUSHRA 主观听感分。低比特率(1.5 / 3 kbps)下 EnCodec 优势最明显;高比特率(24 kbps)大家都能听不出区别。
- 数据多样性:训练数据混合语音(DNS、Common Voice)+ 音乐(Jamendo)+ 通用音频。这是 EnCodec 比 SoundStream 更通用的来源——SoundStream 早期主要针对语音。
- 流式 vs 非流式:因果版本质量略低于非因果版本(合理),但延迟达标。具体延迟与质量 tradeoff 数字需读原文。
- 消融:判别器、RVQ 层数、有无熵编码、不同 mel loss 权重,逐项扫。
- 下游任务:作者本人没怎么强调,但发表后一年内 AudioLM / MusicGen / VALL-E 全部用 EnCodec token 做语言模型——这才是实验之外的真正影响力。
你应该懂的几个新词 — 4-6 个
- VQ(Vector Quantization)矢量量化:把连续向量映射到离散码本里"最近的那个",输出是个整数 ID。神经 codec 的核心机制。
- RVQ(Residual VQ)残差矢量量化:量化一次 → 算残差 → 再量化残差 → ……级联多层。比特率随层数线性增长,质量也随之提升,部署灵活。
- MUSHRA:一种音频质量主观评估协议,参与者听样本打 0-100 分,结果比 MOS 更细。神经 codec 论文标配。
- causal convolution 因果卷积:第 t 帧的输出只依赖 ≤ t 的输入,让卷积模型可流式跑,不用等未来帧。
- STFT(Short-Time Fourier Transform)短时傅立叶变换:把波形切窗做 FFT,得到时频图(spectrogram);判别器在这个域上判真伪比直接看波形更有效。
- codebook 码本:VQ 维护的 N 个固定向量,量化时找最近邻。EMA 更新让码本随训练慢慢移动。
它和其他论文什么关系
- 直接前辈:SoundStream(Google, 2021)。EnCodec 的架构、RVQ、对抗训练几乎照抄 SoundStream,主要做了通用化(语音+音乐+环境声)和工程优化(CPU 实时、流式延迟)。
- 同代:Lyra v2(Google)也是神经语音 codec,专攻超低比特率语音;EnCodec 更通用。
- 后辈应用:
- AudioLM(Google, 2022):用 SoundStream/类似 token 做"音频 GPT",预测 token 序列再解码回波形。
- MusicGen(Meta, 2023):直接用 EnCodec 的 32 kHz 版本 token 训文本到音乐 LM。
- VALL-E(Microsoft, 2023):用 EnCodec token 做 zero-shot TTS。
- Bark / SpeechGen / 各种 audio LM:基本都站在 EnCodec/SoundStream 的肩膀上。
- 更远的亲戚:和 VQ-VAE-2、Jukebox(OpenAI)一脉相承——都是"先离散化、再用语言模型在离散 token 上建模"的思路。
- 替代品:DAC(Descript Audio Codec, 2023)和 SNAC、Mimi(Moshi 用的)等后续 codec 在质量和压缩率上做了进一步优化,但 EnCodec 因为时间早 + Meta 开源齐全,仍是研究社区的事实基线。
我建议这样读 — 3-4 步
- 先读 abstract + Figure 1 架构图:搞清 encoder → RVQ → decoder 这三块的关系,以及流式版与非流式版的差异。
- 重点啃第 3 节的 RVQ:这是整篇论文最值得吃透的机制——理解为什么残差量化能用一次训练支持多比特率,以及码本更新(EMA)如何避免 codebook collapse(码本里大部分 codeword 没被用上)。
- 跳到实验图表对照 SoundStream:看 EnCodec 在哪些方面赢、赢多少;理解什么时候选神经 codec、什么时候传统 codec 还够用。
- (可选)配合读 SoundStream 论文 + MusicGen 论文:前者是 EnCodec 的"祖先",后者是 EnCodec 的"用法示范"。三篇连读你就能完整理解"音频离散化 → 音频 LM"这条链。
为什么值得读
- 音频离散化的事实标准:2023-2025 年所有 audio LM、音乐生成、零样本 TTS 的工作,绝大多数 token 词表要么是 EnCodec、要么是它的直接变体。不读这篇,后面 MusicGen / VALL-E / AudioLM 的 token 维度("为什么是 8 个码本、每帧 8 个整数?")你看不懂。
- 方法本身漂亮:RVQ + 多尺度 STFT 判别器 + 流式因果卷积,三个组件都有独立学习价值,组合起来又恰好解决一个端到端问题。是"神经压缩"领域的经典教科书案例。
- Meta 开源齐全:代码、预训练权重、推理 demo 都在 GitHub(facebookresearch/encodec),可以直接跑、直接改,对零基础学习者非常友好。
- 跟 embodied / 多模态有关:身体智能的"听觉"通道几乎都要把声音变成离散 token 才能和 LLM 对齐——EnCodec 就是这个对齐的入口。
◼
引用本笔记 / Cite this note
@online{eai_encodec_2026,
title = {(readable note) EnCodec},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2023 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/encodec/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim