Auditory & Acoustic · Plate Nº 14

Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation

20 min read · 6834 字 · ⭐⭐⭐ · auto 摘要

#audio-speech

这是一份给"完全没接触过 AI"的读者看的精读笔记。语言尽量像聊天，公式全部翻译成人话。

一句话讲什么（TL;DR）

两人同时讲话的混音，喂给一个网络，它能把每个人的声音分别还原。比老方法（看频谱图）更准、更快、更小。

所以这一节是想说：这篇论文做出了一个"端到端听筒"，能从一段嘈杂录音里直接拆出每个人各自的声音。

这是个什么场景

火锅店里你和朋友吃饭，邻桌大叔正高声讲电话，对面的女生在跟服务员点单——三个人的声音全糊在一起冲进你耳朵。神奇的是，你只要把注意力转到朋友身上，就能听清他在说"再来一盘毛肚"，其他声音自动变成背景。人耳天生会"挑声音听"。

但你掏出手机想录段对话留念，回放时就傻眼了：录音里所有人混成一锅粥，谁都听不清。机器不会挑。

这个问题在学术上叫 鸡尾酒会问题（cocktail party problem）——人耳轻松搞定的事，机器搞了几十年都不灵。

落到具体产品上：

助听器：爷爷在饭店听不清孙女讲话，因为周围人声太杂。能不能实时把"孙女那个声音"单独放大？
电话会议：两个人同时抢话时，对方听到的就是一坨。
Siri / 小爱前置：先把背景人声去掉，语音识别才能听清你的指令。

这些场景共通的硬约束是：实时 + 低延迟 + 能塞进小芯片。模型要等好几秒才出结果，或者大到只能跑在 GPU 服务器上，助听器就永远做不出来。

所以这一节是想说：语音分离的最终目标是落在"耳机里、助听器里、手机里"，对延迟、模型大小、准确率都很挑剔。

Plate Nº IConv-TasNet — 场景示意：这论文要解决的现实问题

之前的人怎么做的，为什么不够好

主流做法都是先把声音变成一张"频谱图"，再在频谱图上做分离。

第一步：短时傅立叶变换（STFT）——把声音切成一段段（比如每 32 毫秒一段），每段用数学方法拆成"不同频率成分的强度 + 相位"。结果是一张图：横轴时间、纵轴频率。这就是"频谱图"。
第二步：在频谱图上画 mask（蒙版）——训练一个神经网络，告诉它"这一格频谱属于说话人 A，那一格属于说话人 B"，然后把 mask 乘上去就把两个人分开了。

听上去合理，但这条路有三个绕不过的坑：

相位丢了一半：STFT 输出的频谱包含"幅度（声音多响）"和"相位（波形怎么对齐）"两部分。绝大多数方法只预测幅度，把相位扔掉用混音的相位凑数。结果即使理论上的"完美 mask"也还原不出原始声音——天花板被钉死了。
STFT 不一定是最适合分离的表示：它是一个通用变换，没人说它对"分人声"最优。
延迟太高：要算清频谱，窗口至少 32 毫秒。再加上后续处理，总延迟 50ms 起步——助听器场景里，超过 10ms 用户就会觉得"嘴型对不上"。

STFT（短时傅立叶变换）：把一段声音切成短窗口，每个窗口算出"哪个频率有多强 + 这个频率的相位是多少"。结果是一张时间-频率二维图。

相位（phase）：声波的"对齐时刻"。两个频率相同但相位不同的波叠加起来，可能完全相消（变成静音）也可能加倍。所以相位错了，波形就重建不回来。

mask（蒙版）：一张 0~1 的权重图，乘到频谱上能"留下我想要的那部分，抹掉别的"。

所以这一节是想说：传统做法因为绕了"频谱图"这一道弯，被相位丢失和延迟两件事卡住了上限。

这篇论文的新想法

类比一下：以前做菜，所有人都要先把食材榨成果汁（STFT 频谱图）才开始炒，问题是榨汁过程会丢一半信息（相位）。这篇论文说："别榨了，直接下锅，让网络自己决定怎么切配。"

换成正经描述：别再绕频谱图了——直接让网络自己学一种"适合分离"的表示，从原始波形进、原始波形出。

具体说：用一个简单的卷积层当"编码器"（替代 STFT），用全卷积网络当"分离器"（替代 LSTM），用一个反卷积层当"解码器"（替代 iSTFT）。整套都在时域做，没有相位这回事。

等等，先慢一拍——什么叫"时域"？ 时域就是"声音原本的样子"：一秒采 8000 个数，每个数表示那一瞬间空气压强是多少。频域是把这串数转成"哪个音高有多响"。时域是录音笔录下来的原始数据，频域是把它画成钢琴卷帘那种五线谱式的图。

所以这一节是想说：核心创新是把 STFT 这个"固定的数学变换"换成"网络自己学出来的变换"，让模型从波形直通波形。

它分几步做的（方法）

整个 Conv-TasNet 像一条三段流水线：编码器 → 分离器 → 解码器。

1. 编码器：把波形切碎，每片打个数字标签

类比

想象你有一卷胶卷，剪成 2 毫秒一片。每片胶卷举到光下都有它独特的光斑模式。你给每片胶卷拍一个"光谱指纹"——一串 512 维的数字。

Conv-TasNet 的编码器就是这件事：把混音波形切成长度 L=16 个采样点（在 8kHz 采样率下就是 2 毫秒）的小段，每段过一个 1D 卷积，输出一串 N=512 维的数字。

它在干什么

输入：一段一维波形 x（一长串 -1~1 之间的数）。
切成重叠的小段 x_k，每段 16 个采样点。
每段 × 一个 N×L 的矩阵 U，得到 N=512 维的向量 w。
整段录音变成一个 N×T 的"特征图"——可以理解成一种"自己学出来的频谱图"。

卷积（convolution）：一种"滑动取窗口、每窗加权求和"的运算。一维卷积在波形上就是：从左到右滑一个小窗口，每次把窗口里的数和一组权重相乘相加。

基函数（basis function）：编码器学到的那 N=512 个权重模板。每个模板像一个"频率+相位"的小波纹，输入波形跟它越像，对应的输出数字越大。论文里画图发现这些基函数自动聚集到了低频区，神似人耳的 mel 频率分布。

重叠（overlap）：相邻段共享一半采样点，避免边界处理出"咔嗒"声。

为什么这步有用

不再依赖"先 STFT 再分离"的两段流水线，编码器可以和后面的分离器一起训练，学出来的表示天然适合分离任务。
L=16 (2ms) 比 STFT 的 32ms 窗口短得多，最低延迟降到 1/16。
不显式区分"幅度"和"相位"，相位信息隐式存在 N 维向量里，重建时不会丢。

所以这一节是想说：用一个学得出来的卷积层把波形切片编码，绕开了 STFT 的天花板，还顺便砍了延迟。

2. 分离器：用全卷积（TCN）画两张 mask

这是论文最核心的改动。原版 TasNet 用 LSTM 做分离，Conv-TasNet 把 LSTM 全部换成卷积。

类比

想象你要在一卷长长的乐谱上标注"这部分属于钢琴、这部分属于小提琴"。

旧方法（LSTM）：从乐谱开头一格一格往后看，每看一格都要记住前面所有内容。慢、容易乱、记不远。
新方法（TCN + 空洞卷积）：你有十几把不同长度的尺子，最短的看 3 格，第二把看 6 格，第三把看 12 格，每次翻一倍。所有尺子可以同时量，不用等前一把出结果。

TCN（temporal convolutional network，时序卷积网络）：一个用堆叠卷积层处理时间序列的网络。和 RNN 比，它能并行算，速度快几个数量级。

空洞卷积（dilated convolution）：卷积窗口里"跳格子"取样。第 k 层的窗口跳 2^k 格——这样网络深度每增加一层，能看到的上下文范围就翻一倍，几层之后就能覆盖整段录音。

感受野（receptive field）：网络某个输出位置"看得到多长一段输入"。Conv-TasNet 最强配置感受野约 1.5 秒，刚好覆盖一句话的尺度。

LSTM（long short-term memory）：一种循环神经网络，按时间一格一格地处理序列，每格依赖前一格。准确但慢。

它在干什么

整个分离器是 R 个重复块，每块包含 X 个卷积小模块，dilation 因子 1, 2, 4, ..., 2^(X-1)。最强配置 X=8, R=3，共 24 个卷积块。

每个卷积块的内部结构（图 1C）：

1×1 卷积：把通道数从 B（=128）扩到 H（=512）——叫"升维"。
PReLU 激活 + 归一化：让数值稳定。
D-conv（depthwise 卷积）：每个通道独立做卷积，不混不同通道。这一步就是上面说的"空洞卷积"。
PReLU + 归一化：再来一次。
两个出口：
- 残差路（residual）：加回输入，传给下一个块。
- 跳连路（skip）：所有块的跳连相加，最后变成总输出。

最后一个 1×1 卷积把 N 个通道的总输出变成 C×N 个 mask（C=2 个说话人，每人一份 N 维 mask）。

关键公式翻译成人话

原文：d_i = w ⊙ m_i

人话："第 i 个人的特征 = 编码器输出 × 第 i 个人的 mask"。⊙ 就是逐元素相乘——一个长度为 N 的向量乘上另一个同长度的向量，得到第三个 N 维向量。

depthwise separable 卷积（深度可分离卷积）：把"标准卷积"拆成"D-conv（每通道独立卷）+ 1×1 卷积（混通道）"两步。参数量从 G×H×P 变成 G×P + G×H，模型大小通常砍到原来的 1/3 ~ 1/10。MobileNet 就靠这一招让卷积神经网络能跑在手机上。

为什么这步有用

并行：所有时间步可以同时算，速度比 LSTM 快好几倍。
稳定：LSTM 对"录音从哪一秒开始"很敏感（论文图 4 显示 LSTM-TasNet 移动几个采样点分数能掉好几分），TCN 因为每个位置只看周围有限上下文，偏移几个采样点几乎没影响。
小：用 depthwise separable 卷积后，整个 Conv-TasNet 只有 5.1M 参数，比同期模型小 6~18 倍。

所以这一节是想说：用堆叠空洞卷积代替 LSTM，让分离器又快又稳又小，还能看到 1.5 秒长的上下文。

3. 解码器：把"加 mask 后的特征"反推回波形

类比

回到上面那卷胶卷的比喻：你已经得到"属于说话人 A 的胶卷光斑模式"，现在要把这些光斑还原成胶卷上的画面。

解码器就是"反向编码"——一个 1D 反卷积层（数学上等于另一个矩阵乘法）：

ŝ_i = d_i × V

V 是另一个 N×L 的矩阵，每一行是一个"基函数"。把 N 维特征向量乘上 V，得到 L=16 个采样点的小段波形，相邻段重叠相加，就拼回完整声音。

反卷积（transposed convolution）：可以理解成"卷积反着做"。普通卷积把波形压成特征向量，反卷积把特征向量还原成波形。

重叠相加（overlap-and-add）：相邻段共享一半采样点，相加后边界平滑过渡，避免"咔嗒"声。

为什么这步有用

解码器是纯线性的，不带 ReLU 之类的非线性。这意味着它就是一组学出来的"反向滤波器"，做的事情和"反向 STFT"对应，但模板是网络自己学的。
论文意外发现：编码器输出不必非负、解码器也不必是编码器的逆，让网络自己决定怎么编码/解码反而更好。这点和传统的"自编码器"理论略反直觉。

所以这一节是想说：解码器只是把分离后的特征反推回波形，结构极简，所有秘密都在编码器和分离器里。

4. 训练目标：用 SI-SNR 当指南针

类比

教学徒切土豆丝。怎么打分？传统办法是"和老师切的对比"——但老师手抖一下就全错。SI-SNR 是另一种打分：先把两份土豆丝缩放对齐（不管谁切得粗细绝对值），再比形状有多像。

SI-SNR（scale-invariant signal-to-noise ratio）：一种"对音量缩放免疫"的信噪比。计算方法是先把估计的声音和原始声音都做零均值，再投影对齐，再算"目标分量 vs 残差"的能量比，取 log 乘 10。单位是 dB。值越大越好。

uPIT（utterance-level permutation invariant training）：训练时不知道"哪个输出对应哪个说话人"——可能输出 1 是 A、可能是 B。uPIT 就是"两种可能性都算一遍 loss，取小的那个"，避免被排列顺序坑死。

SDR / SDRi：另一种相关指标。SI-SNRi 和 SDRi 都是"分离后比分离前提升了几 dB"，越大越好。人耳对 1dB 的提升就能听出来。

它在干什么

训练时直接最大化 SI-SNR，loss 就是 -SI-SNR。
训练 100 epoch，每 4 秒一段，Adam 优化器，初始 lr=1e-3。
WSJ0-2mix 数据集（30 小时训练 + 10 小时验证 + 5 小时测试，两个说话人混在一起）。

为什么这步有用

直接对最终评测指标（SDR/SI-SNR）优化，不用借道"先逼近频谱"。
SI-SNR 的"缩放不变"性质让训练对录音音量大小免疫，更稳。

所以这一节是想说：训练就是反复让网络把 SI-SNR 拉高，目标和评测指标完全一致。

Plate Nº IIConv-TasNet — 方法示意：核心 pipeline

关键数字（What works）

数字本身不重要，重要的是它们告诉你"这条路通"。

数字 1：SI-SNRi 15.3 dB（WSJ0-2mix）

怎么算的：在两人混音测试集上，分离后的声音相对原始混音 SI-SNR 提升 15.3 dB。
对比：上一代最强 LSTM-TasNet 13.2 dB；理想比例 mask（IRM，传统天花板）12.2 dB；理想二值 mask（IBM）13.0 dB；维纳 mask（WFM）13.4 dB。
生活语言：第一个把"理想 T-F 幅度 mask"全打败的方法。也就是说，过去十几年大家以为是天花板的东西，被这篇捅破了。

数字 2：模型大小 5.1M 参数

怎么算的：Conv-TasNet 最强配置共 5.1M 参数。
对比：uPIT-BLSTM-ST 92.7M（18 倍）；LSTM-TasNet 23.6M；deep clustering++ 13.6M。
生活语言：性能更好的同时模型砍到 1/5 ~ 1/18——可以塞进手机、助听器。

数字 3：处理一帧 0.4ms（CPU）/ 0.02ms（GPU）

怎么算的：每帧（2ms 长度）的处理时间 TPF（time per frame）。
对比：LSTM-TasNet 是 4.3ms（CPU）/ 0.2ms（GPU）。
生活语言：CPU 上比帧长还短 5 倍——意味着真能实时跑。LSTM 版本在 CPU 上几乎贴着帧长跑，稍微赶不上就掉帧。

数字 4：MOS 主观分 4.03（满分 5）

怎么算的：找 40 个正常听力的人，给分离后的声音打 1-5 分。
对比：理想比例 mask IRM（学术界公认的高质量参照）3.51；干净原音 4.23。
生活语言：人耳听起来比 IRM 还好，逼近"原本就没混过的干净录音"。这一点是 PESQ 这种自动指标看不出来的——PESQ 还反过来给 IRM 打分更高。

数字 5：去掉 ReLU 约束（编码器）也行

怎么算的：不强制编码器输出非负，让它输出任意正负数。
对比：用 ReLU 13.0 → 不用 ReLU 13.1（线性 + Sigmoid mask 配置）。
生活语言：传统直觉是"非负 mask 才能保证可解释"，结果发现完全不必——只要表示足够丰富（"过完备"），网络自己能学出合理结构。这条颠覆了从 ICA 时代传下来的设计教条。

数字 6：滤波器长度 L=16（2ms）最好

怎么算的：扫了 L=40, 32, 16 三档，越短越好。
对比：L=40 是 14.7 dB，L=16 是 15.3 dB。
生活语言：编码器的窗口越短分越高。LSTM 时代做不到这一点（窗口短意味着序列变长，LSTM 训练就崩了）；TCN 没这个问题，于是把整个分辨率往上拉。

所以这一节是想说：数据告诉我们——并行卷积 + 短窗口 + 学得出来的表示，三件套合起来彻底翻了一个时代的天花板。

你应该懂的几个新词

语音分离（speech separation）：从一段多个人同时讲话的混音里把每个人的声音分开。鸡尾酒会问题的工程版。

STFT（短时傅立叶变换）：把声音切成小窗口，每窗口算"频率成分 + 相位"。是传统语音处理的基础。

频谱图（spectrogram）：STFT 的可视化结果，一张时间-频率二维热图。

mask（蒙版）：一张权重图，乘到频谱或特征上做"过滤"。把"想保留的乘 1、想抹掉的乘 0"。

理想 mask（IBM/IRM/WFM）：用真实分离前的纯净声音算出来的"作弊版" mask，在频谱域曾被视作上限。Conv-TasNet 在波形域的分数把它们都超过了。

TCN（temporal convolutional network）：用堆叠卷积层处理时间序列的网络，可并行、可看长上下文，常用来替代 RNN。

空洞卷积（dilated convolution）：卷积窗口跳格采样，每深一层视野翻倍。让 TCN 能看到长上下文。

深度可分离卷积（depthwise separable conv）：把卷积拆成"逐通道 + 逐位置"两步，参数量大幅缩减。MobileNet 同款。

PReLU：一种激活函数。普通 ReLU 把负数直接抹零，PReLU 给负数留一个可学习的小斜率 α，避免"神经元死掉"。

gLN / cLN（global / cumulative layer normalization）：两种归一化方法。gLN 看整段录音的均值方差（非因果，离线用）；cLN 只看到当前及之前的帧（因果，实时用）。

SI-SNR（scale-invariant SNR）：对音量缩放免疫的信噪比，单位 dB，越高越好。本论文的训练目标和评测指标。

uPIT（utterance-level permutation invariant training）：训练时对说话人顺序做"两种排列都试一下取最优"，绕开 label 顺序问题。

WSJ0-2mix / 3mix：标准两人 / 三人混音测试集，从《华尔街日报》朗读语料 WSJ0 拼出来。社区公认的 benchmark。

所以这一节是想说：上面这些词在 2019 年之后所有语音分离论文里反复出现，先把它们和生活类比挂钩。

它有什么搞不定的

论文最后一节自己列了几条短板：

长时跟踪人会掉链子：网络感受野固定 1.5 秒。如果一个人停顿超过这个时长再开口，模型可能把他归到另一个输出通道上，造成"同一个人被切成两段不同身份"。
混响和噪声没测：训练数据是干净拼接的，没加混响。真实房间里墙壁反射会让一个声音"拖尾"，时域方法对这种拖尾比频域方法更敏感，泛化效果未知。
三人以上还是难：WSJ0-3mix 上分数从 15.3 掉到 12.7，说话人越多越吃力。再加一两人就需要多麦克风（多通道）方案。

所以这一节是想说：Conv-TasNet 在干净两人场景里封顶，但混响、超过三人、长跟踪三件事还要后续工作来补。

它和别的论文是什么关系

同一系列：LSTM-TasNet → Conv-TasNet → DPRNN / SepFormer。Conv-TasNet 把 LSTM-TasNet 里的 LSTM 换成 TCN，是 TasNet 系列的二代。后续 DPRNN、SepFormer 在分离器架构上继续迭代（双路径 RNN、Transformer），但编码器-分离器-解码器三段流水线不变——这套范式由本篇定型。
和 LLaVA 的对照：本笔记 11 篇里的 LLaVA（多模态 VLM）也是"先用一个简单接口接两个模块，把劲使在数据/任务上"——LLaVA 的接口是一层投影矩阵，Conv-TasNet 的接口是一层卷积编码器。**两篇都示范了"接口故意做简单，性能提升来自端到端训练"**这条设计哲学。
和 WaveNet 的关系：WaveNet（同 author 们引用的 [38]）是把空洞卷积用在波形生成上的开山之作，Conv-TasNet 把同样的工具搬到了"波形分离"。两者证明了**"在原始波形上做端到端深度学习"是可行的**，不必绕道频谱图。
被引扩散到何处：后续语音增强（speech enhancement）、音乐分离（source separation for music）、目标说话人提取（target speaker extraction）等几乎都从 Conv-TasNet 改的。在具身 AI 里，机器人感知模块要从环境噪声中分出"主人指令"也常用 TasNet 系列。

所以这一节是想说：Conv-TasNet 是 2019 年语音分离的范式转折点，把整个领域从"频谱域"拉到了"时域端到端"。

我建议这样读这篇

零基础读者不要从头读到尾。建议这样走：

看摘要 + Introduction 第一段（5 分钟）：明确这篇要解决"STFT 三大缺陷（相位丢、表示不优、延迟高）"。
看 Figure 1 三张图（3 分钟）：A 是整体三段流水线，B 是 TCN 内部，C 是单个卷积块。一眼记住"编码器 → TCN → 解码器"这个骨架。
跳到 Section II.B 编码器-解码器（10 分钟）：看清"切段 → 矩阵乘 U → mask → 矩阵乘 V"这一组核心运算。公式只是矩阵乘法，别被吓到。
读 Section II.D 卷积分离器（15 分钟）：搞清楚 dilation 怎么从 1 翻倍到 128、感受野怎么算到 1.5 秒。这部分是论文真正的创新点。
扫 Table II / III / IV（10 分钟）：看消融——哪些超参对分数贡献最大。你会发现"短窗口 L=16"和"深网络（X=8, R=3）"是关键。
跳过实验细节（除非你要复现）：训练超参、PESQ 对比、人类主观打分实验，这些是验证性的，不读不影响理解。

读完这 6 步大约 40-60 分钟，已经能在和别人讨论语音分离时报出 Conv-TasNet 的核心思路。

所以这一节是想说：精华全在 Section II（方法）和 Table II（消融），公式和实验细节可以略读。

一些好奇心问答

Q1：为什么放弃 STFT 这么好用的工具？

STFT 是一种"通用"变换，不是为分离设计的。它把信号拆成幅度+相位，但分离任务里相位极难预测，丢了相位就丢了上限。让网络自己学一种只服务于分离的变换，反而能突破上限。

Q2：编码器学出来的东西像不像 STFT？

很像但更聚焦。论文 Section IV.G 画了所有基函数的频率响应，发现：超过 60% 的滤波器集中在 1kHz 以下，恰好对应人声基频范围。这个分布像 mel 频率（人耳的非线性频率感知），但是网络自动学到的，没有任何人为设定。

Q3：TCN 比 LSTM 强在哪？

三件事：(1) 并行——所有时间步同时算；(2) 稳定——感受野固定，对录音起始点偏移不敏感；(3) 小——参数量比 deep LSTM 少很多。代价是理论上 TCN 看不到无限远的过去，但实际语音任务用 1.5 秒上下文足够。

Q4：因果版和非因果版差多少？

因果版（cLN，只看过去）SI-SNRi 10.6 dB，非因果版（gLN，看整段）15.3 dB——差 4.7 dB。这是实时 vs 离线的代价。助听器场景必须用因果版，电话会议后期可以用非因果版。

Q5：5.1M 参数到底有多小？

折算下来大约 20MB 模型文件。骁龙 855 这种几年前的手机芯片就能跑实时（CPU TPF 0.4ms < 帧长 2ms）。理论上助听器的微控制器加点优化后也能跑，这是这篇论文真正"接地气"的地方。

Q6：为什么 PESQ 给 IRM 打分高，MOS 给 Conv-TasNet 打分高？

PESQ 是基于幅度频谱设计的自动指标——它"喜欢"频谱看起来干净的方法。Conv-TasNet 在时域工作，频谱可能不那么"漂亮"但听起来更自然。人耳投票才是金标准，论文专门做了 40 人主观实验来证明这一点。

Q7：LSTM-TasNet 对起始点为什么那么敏感？

LSTM 状态会一帧一帧累积。如果第一帧错了，错误会顺着 cell state 传播下去，越攒越多。Conv-TasNet 每个时间位置只依赖局部上下文，错了就错了，不会污染后续帧。这是论文 Figure 4 想说的最重要的事。

Q8：之后该看什么？

DPRNN（2020）：把 TCN 换成"双路径 RNN"，分数继续涨。
SepFormer（2021）：把 TCN 换成 Transformer，目前 WSJ0-2mix 的 SOTA。
Demucs / Hybrid-Demucs（2021-2022）：把 Conv-TasNet 思路搬到音乐分离，能把人声/鼓/贝斯/其它四轨拆开。

整个 TasNet 家族在 2020 年后都用 Conv-TasNet 当 baseline 比较——它是这个领域的"GPT-2 时刻"。

所以这一节是想说：实操问题（多大、多快、能不能实时、怎么对照）作者都给了答案，门槛比看起来低很多。

如果你想再深入

按"前传 → 同期对手 → 续作 → 衍生方向"四类排序：

前传：LSTM-TasNet（2018） — 同一组人。Conv-TasNet 之前的 v1，把分离从频域搬到时域，但用 LSTM 做分离器。读完它能清楚看到"为什么必须换 TCN"。
同期对手：Wave-U-Net（2018） — 把 U-Net 架构搬到时域音频分离，多用于音乐。和 Conv-TasNet 比能看出"U-Net 风格 vs 编码器-分离器-解码器风格"两条流派。
续作：DPRNN（2020） — 双路径 RNN，把长序列拆成"段内 + 段间"两次循环，进一步提升长上下文建模能力。SI-SNRi 比 Conv-TasNet 再涨 3 dB 左右。
续作：SepFormer（2021） — 用 Transformer 替换 TCN/RNN，是当前 WSJ0-2mix SOTA。如果你看完 Conv-TasNet 直接跳过 DPRNN 也能读，但 SepFormer 比 Conv-TasNet 大 10 倍以上，回到了"靠模型大取胜"的路上。
衍生：Demucs / Hybrid-Demucs（2021-2022） — Facebook 把 Conv-TasNet 思路套到音乐源分离上，最终和频域方法做了混合（两路并联）。这条线说明：纯时域不是终点，时域+频域混合可能是更好的方向。

所以这一节是想说：把 Conv-TasNet → DPRNN → SepFormer 三篇连起来读，就能看到 2018-2021 年端到端语音分离的演化全貌。

最后一个画面

闭上眼睛想象：你站在一个嘈杂的火锅店里，邻桌两个人同时大声说话——以前的麦克风录下来是一团糊，需要先转成"频谱图"再用各种 mask 凑活。Conv-TasNet 出现之后，录音直接喂进去、两个人的声音分别还原出来，过程中没有任何"频率"或"相位"的概念，只是一串卷积运算。

这是端到端深度学习又攻下一座堡垒的瞬间——和图像识别、语音识别、机器翻译一样，"先做信号处理再上神经网络"的两段流水线，被一个"波形进、波形出"的单一网络替代。

所以最后一节是想说：Conv-TasNet 不只是分数好看，而是把整个语音分离领域从"频谱域思维"拉进了"端到端时域思维"——这是 2019 年语音 AI 的一个标志性瞬间。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_conv_tasnet_2026,
  title       = {(readable note) Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2019 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/conv-tasnet/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)