Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
这是一份给"完全没接触过 AI"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。
一句话讲什么(TL;DR)
两人同时讲话的混音,喂给一个网络,它能把每个人的声音分别还原。比老方法(看频谱图)更准、更快、更小。
所以这一节是想说:这篇论文做出了一个"端到端听筒",能从一段嘈杂录音里直接拆出每个人各自的声音。
这是个什么场景
火锅店里你和朋友吃饭,邻桌大叔正高声讲电话,对面的女生在跟服务员点单——三个人的声音全糊在一起冲进你耳朵。神奇的是,你只要把注意力转到朋友身上,就能听清他在说"再来一盘毛肚",其他声音自动变成背景。人耳天生会"挑声音听"。
但你掏出手机想录段对话留念,回放时就傻眼了:录音里所有人混成一锅粥,谁都听不清。机器不会挑。
这个问题在学术上叫 鸡尾酒会问题(cocktail party problem)——人耳轻松搞定的事,机器搞了几十年都不灵。
落到具体产品上:
- 助听器:爷爷在饭店听不清孙女讲话,因为周围人声太杂。能不能实时把"孙女那个声音"单独放大?
- 电话会议:两个人同时抢话时,对方听到的就是一坨。
- Siri / 小爱前置:先把背景人声去掉,语音识别才能听清你的指令。
这些场景共通的硬约束是:实时 + 低延迟 + 能塞进小芯片。模型要等好几秒才出结果,或者大到只能跑在 GPU 服务器上,助听器就永远做不出来。
所以这一节是想说:语音分离的最终目标是落在"耳机里、助听器里、手机里",对延迟、模型大小、准确率都很挑剔。

之前的人怎么做的,为什么不够好
主流做法都是先把声音变成一张"频谱图",再在频谱图上做分离。
第一步:短时傅立叶变换(STFT)——把声音切成一段段(比如每 32 毫秒一段),每段用数学方法拆成"不同频率成分的强度 + 相位"。结果是一张图:横轴时间、纵轴频率。这就是"频谱图"。
第二步:在频谱图上画 mask(蒙版)——训练一个神经网络,告诉它"这一格频谱属于说话人 A,那一格属于说话人 B",然后把 mask 乘上去就把两个人分开了。
听上去合理,但这条路有三个绕不过的坑:
- 相位丢了一半:STFT 输出的频谱包含"幅度(声音多响)"和"相位(波形怎么对齐)"两部分。绝大多数方法只预测幅度,把相位扔掉用混音的相位凑数。结果即使理论上的"完美 mask"也还原不出原始声音——天花板被钉死了。
- STFT 不一定是最适合分离的表示:它是一个通用变换,没人说它对"分人声"最优。
- 延迟太高:要算清频谱,窗口至少 32 毫秒。再加上后续处理,总延迟 50ms 起步——助听器场景里,超过 10ms 用户就会觉得"嘴型对不上"。
STFT(短时傅立叶变换):把一段声音切成短窗口,每个窗口算出"哪个频率有多强 + 这个频率的相位是多少"。结果是一张时间-频率二维图。
相位(phase):声波的"对齐时刻"。两个频率相同但相位不同的波叠加起来,可能完全相消(变成静音)也可能加倍。所以相位错了,波形就重建不回来。
mask(蒙版):一张 0~1 的权重图,乘到频谱上能"留下我想要的那部分,抹掉别的"。
所以这一节是想说:传统做法因为绕了"频谱图"这一道弯,被相位丢失和延迟两件事卡住了上限。
这篇论文的新想法
类比一下:以前做菜,所有人都要先把食材榨成果汁(STFT 频谱图)才开始炒,问题是榨汁过程会丢一半信息(相位)。这篇论文说:"别榨了,直接下锅,让网络自己决定怎么切配。"
换成正经描述:别再绕频谱图了——直接让网络自己学一种"适合分离"的表示,从原始波形进、原始波形出。
具体说:用一个简单的卷积层当"编码器"(替代 STFT),用全卷积网络当"分离器"(替代 LSTM),用一个反卷积层当"解码器"(替代 iSTFT)。整套都在时域做,没有相位这回事。
等等,先慢一拍——什么叫"时域"? 时域就是"声音原本的样子":一秒采 8000 个数,每个数表示那一瞬间空气压强是多少。频域是把这串数转成"哪个音高有多响"。时域是录音笔录下来的原始数据,频域是把它画成钢琴卷帘那种五线谱式的图。
所以这一节是想说:核心创新是把 STFT 这个"固定的数学变换"换成"网络自己学出来的变换",让模型从波形直通波形。
它分几步做的(方法)
整个 Conv-TasNet 像一条三段流水线:编码器 → 分离器 → 解码器。
1. 编码器:把波形切碎,每片打个数字标签
类比
想象你有一卷胶卷,剪成 2 毫秒一片。每片胶卷举到光下都有它独特的光斑模式。你给每片胶卷拍一个"光谱指纹"——一串 512 维的数字。
Conv-TasNet 的编码器就是这件事:把混音波形切成长度 L=16 个采样点(在 8kHz 采样率下就是 2 毫秒)的小段,每段过一个 1D 卷积,输出一串 N=512 维的数字。
它在干什么
- 输入:一段一维波形 x(一长串 -1~1 之间的数)。
- 切成重叠的小段 x_k,每段 16 个采样点。
- 每段 × 一个 N×L 的矩阵 U,得到 N=512 维的向量 w。
- 整段录音变成一个 N×T 的"特征图"——可以理解成一种"自己学出来的频谱图"。
卷积(convolution):一种"滑动取窗口、每窗加权求和"的运算。一维卷积在波形上就是:从左到右滑一个小窗口,每次把窗口里的数和一组权重相乘相加。
基函数(basis function):编码器学到的那 N=512 个权重模板。每个模板像一个"频率+相位"的小波纹,输入波形跟它越像,对应的输出数字越大。论文里画图发现这些基函数自动聚集到了低频区,神似人耳的 mel 频率分布。
重叠(overlap):相邻段共享一半采样点,避免边界处理出"咔嗒"声。
为什么这步有用
- 不再依赖"先 STFT 再分离"的两段流水线,编码器可以和后面的分离器一起训练,学出来的表示天然适合分离任务。
- L=16 (2ms) 比 STFT 的 32ms 窗口短得多,最低延迟降到 1/16。
- 不显式区分"幅度"和"相位",相位信息隐式存在 N 维向量里,重建时不会丢。
所以这一节是想说:用一个学得出来的卷积层把波形切片编码,绕开了 STFT 的天花板,还顺便砍了延迟。
2. 分离器:用全卷积(TCN)画两张 mask
这是论文最核心的改动。原版 TasNet 用 LSTM 做分离,Conv-TasNet 把 LSTM 全部换成卷积。
类比
想象你要在一卷长长的乐谱上标注"这部分属于钢琴、这部分属于小提琴"。
- 旧方法(LSTM):从乐谱开头一格一格往后看,每看一格都要记住前面所有内容。慢、容易乱、记不远。
- 新方法(TCN + 空洞卷积):你有十几把不同长度的尺子,最短的看 3 格,第二把看 6 格,第三把看 12 格,每次翻一倍。所有尺子可以同时量,不用等前一把出结果。
TCN(temporal convolutional network,时序卷积网络):一个用堆叠卷积层处理时间序列的网络。和 RNN 比,它能并行算,速度快几个数量级。
空洞卷积(dilated convolution):卷积窗口里"跳格子"取样。第 k 层的窗口跳 2^k 格——这样网络深度每增加一层,能看到的上下文范围就翻一倍,几层之后就能覆盖整段录音。
感受野(receptive field):网络某个输出位置"看得到多长一段输入"。Conv-TasNet 最强配置感受野约 1.5 秒,刚好覆盖一句话的尺度。
LSTM(long short-term memory):一种循环神经网络,按时间一格一格地处理序列,每格依赖前一格。准确但慢。
它在干什么
整个分离器是 R 个重复块,每块包含 X 个卷积小模块,dilation 因子 1, 2, 4, ..., 2^(X-1)。最强配置 X=8, R=3,共 24 个卷积块。
每个卷积块的内部结构(图 1C):
- 1×1 卷积:把通道数从 B(=128)扩到 H(=512)——叫"升维"。
- PReLU 激活 + 归一化:让数值稳定。
- D-conv(depthwise 卷积):每个通道独立做卷积,不混不同通道。这一步就是上面说的"空洞卷积"。
- PReLU + 归一化:再来一次。
- 两个出口:
- 残差路(residual):加回输入,传给下一个块。
- 跳连路(skip):所有块的跳连相加,最后变成总输出。
最后一个 1×1 卷积把 N 个通道的总输出变成 C×N 个 mask(C=2 个说话人,每人一份 N 维 mask)。
关键公式翻译成人话
原文:d_i = w ⊙ m_i
人话:"第 i 个人的特征 = 编码器输出 × 第 i 个人的 mask"。⊙ 就是逐元素相乘——一个长度为 N 的向量乘上另一个同长度的向量,得到第三个 N 维向量。
depthwise separable 卷积(深度可分离卷积):把"标准卷积"拆成"D-conv(每通道独立卷)+ 1×1 卷积(混通道)"两步。参数量从 G×H×P 变成 G×P + G×H,模型大小通常砍到原来的 1/3 ~ 1/10。MobileNet 就靠这一招让卷积神经网络能跑在手机上。
为什么这步有用
- 并行:所有时间步可以同时算,速度比 LSTM 快好几倍。
- 稳定:LSTM 对"录音从哪一秒开始"很敏感(论文图 4 显示 LSTM-TasNet 移动几个采样点分数能掉好几分),TCN 因为每个位置只看周围有限上下文,偏移几个采样点几乎没影响。
- 小:用 depthwise separable 卷积后,整个 Conv-TasNet 只有 5.1M 参数,比同期模型小 6~18 倍。
所以这一节是想说:用堆叠空洞卷积代替 LSTM,让分离器又快又稳又小,还能看到 1.5 秒长的上下文。
3. 解码器:把"加 mask 后的特征"反推回波形
类比
回到上面那卷胶卷的比喻:你已经得到"属于说话人 A 的胶卷光斑模式",现在要把这些光斑还原成胶卷上的画面。
解码器就是"反向编码"——一个 1D 反卷积层(数学上等于另一个矩阵乘法):
ŝ_i = d_i × V
V 是另一个 N×L 的矩阵,每一行是一个"基函数"。把 N 维特征向量乘上 V,得到 L=16 个采样点的小段波形,相邻段重叠相加,就拼回完整声音。
反卷积(transposed convolution):可以理解成"卷积反着做"。普通卷积把波形压成特征向量,反卷积把特征向量还原成波形。
重叠相加(overlap-and-add):相邻段共享一半采样点,相加后边界平滑过渡,避免"咔嗒"声。
为什么这步有用
- 解码器是纯线性的,不带 ReLU 之类的非线性。这意味着它就是一组学出来的"反向滤波器",做的事情和"反向 STFT"对应,但模板是网络自己学的。
- 论文意外发现:编码器输出不必非负、解码器也不必是编码器的逆,让网络自己决定怎么编码/解码反而更好。这点和传统的"自编码器"理论略反直觉。
所以这一节是想说:解码器只是把分离后的特征反推回波形,结构极简,所有秘密都在编码器和分离器里。
4. 训练目标:用 SI-SNR 当指南针
类比
教学徒切土豆丝。怎么打分?传统办法是"和老师切的对比"——但老师手抖一下就全错。SI-SNR 是另一种打分:先把两份土豆丝缩放对齐(不管谁切得粗细绝对值),再比形状有多像。
SI-SNR(scale-invariant signal-to-noise ratio):一种"对音量缩放免疫"的信噪比。计算方法是先把估计的声音和原始声音都做零均值,再投影对齐,再算"目标分量 vs 残差"的能量比,取 log 乘 10。单位是 dB。值越大越好。
uPIT(utterance-level permutation invariant training):训练时不知道"哪个输出对应哪个说话人"——可能输出 1 是 A、可能是 B。uPIT 就是"两种可能性都算一遍 loss,取小的那个",避免被排列顺序坑死。
SDR / SDRi:另一种相关指标。SI-SNRi 和 SDRi 都是"分离后比分离前提升了几 dB",越大越好。人耳对 1dB 的提升就能听出来。
它在干什么
- 训练时直接最大化 SI-SNR,loss 就是 -SI-SNR。
- 训练 100 epoch,每 4 秒一段,Adam 优化器,初始 lr=1e-3。
- WSJ0-2mix 数据集(30 小时训练 + 10 小时验证 + 5 小时测试,两个说话人混在一起)。
为什么这步有用
- 直接对最终评测指标(SDR/SI-SNR)优化,不用借道"先逼近频谱"。
- SI-SNR 的"缩放不变"性质让训练对录音音量大小免疫,更稳。
所以这一节是想说:训练就是反复让网络把 SI-SNR 拉高,目标和评测指标完全一致。

关键数字(What works)
数字本身不重要,重要的是它们告诉你"这条路通"。
数字 1:SI-SNRi 15.3 dB(WSJ0-2mix)
- 怎么算的:在两人混音测试集上,分离后的声音相对原始混音 SI-SNR 提升 15.3 dB。
- 对比:上一代最强 LSTM-TasNet 13.2 dB;理想比例 mask(IRM,传统天花板)12.2 dB;理想二值 mask(IBM)13.0 dB;维纳 mask(WFM)13.4 dB。
- 生活语言:第一个把"理想 T-F 幅度 mask"全打败的方法。也就是说,过去十几年大家以为是天花板的东西,被这篇捅破了。
数字 2:模型大小 5.1M 参数
- 怎么算的:Conv-TasNet 最强配置共 5.1M 参数。
- 对比:uPIT-BLSTM-ST 92.7M(18 倍);LSTM-TasNet 23.6M;deep clustering++ 13.6M。
- 生活语言:性能更好的同时模型砍到 1/5 ~ 1/18——可以塞进手机、助听器。
数字 3:处理一帧 0.4ms(CPU)/ 0.02ms(GPU)
- 怎么算的:每帧(2ms 长度)的处理时间 TPF(time per frame)。
- 对比:LSTM-TasNet 是 4.3ms(CPU)/ 0.2ms(GPU)。
- 生活语言:CPU 上比帧长还短 5 倍——意味着真能实时跑。LSTM 版本在 CPU 上几乎贴着帧长跑,稍微赶不上就掉帧。
数字 4:MOS 主观分 4.03(满分 5)
- 怎么算的:找 40 个正常听力的人,给分离后的声音打 1-5 分。
- 对比:理想比例 mask IRM(学术界公认的高质量参照)3.51;干净原音 4.23。
- 生活语言:人耳听起来比 IRM 还好,逼近"原本就没混过的干净录音"。这一点是 PESQ 这种自动指标看不出来的——PESQ 还反过来给 IRM 打分更高。
数字 5:去掉 ReLU 约束(编码器)也行
- 怎么算的:不强制编码器输出非负,让它输出任意正负数。
- 对比:用 ReLU 13.0 → 不用 ReLU 13.1(线性 + Sigmoid mask 配置)。
- 生活语言:传统直觉是"非负 mask 才能保证可解释",结果发现完全不必——只要表示足够丰富("过完备"),网络自己能学出合理结构。这条颠覆了从 ICA 时代传下来的设计教条。
数字 6:滤波器长度 L=16(2ms)最好
- 怎么算的:扫了 L=40, 32, 16 三档,越短越好。
- 对比:L=40 是 14.7 dB,L=16 是 15.3 dB。
- 生活语言:编码器的窗口越短分越高。LSTM 时代做不到这一点(窗口短意味着序列变长,LSTM 训练就崩了);TCN 没这个问题,于是把整个分辨率往上拉。
所以这一节是想说:数据告诉我们——并行卷积 + 短窗口 + 学得出来的表示,三件套合起来彻底翻了一个时代的天花板。
你应该懂的几个新词
语音分离(speech separation):从一段多个人同时讲话的混音里把每个人的声音分开。鸡尾酒会问题的工程版。
STFT(短时傅立叶变换):把声音切成小窗口,每窗口算"频率成分 + 相位"。是传统语音处理的基础。
频谱图(spectrogram):STFT 的可视化结果,一张时间-频率二维热图。
mask(蒙版):一张权重图,乘到频谱或特征上做"过滤"。把"想保留的乘 1、想抹掉的乘 0"。
理想 mask(IBM/IRM/WFM):用真实分离前的纯净声音算出来的"作弊版" mask,在频谱域曾被视作上限。Conv-TasNet 在波形域的分数把它们都超过了。
TCN(temporal convolutional network):用堆叠卷积层处理时间序列的网络,可并行、可看长上下文,常用来替代 RNN。
空洞卷积(dilated convolution):卷积窗口跳格采样,每深一层视野翻倍。让 TCN 能看到长上下文。
深度可分离卷积(depthwise separable conv):把卷积拆成"逐通道 + 逐位置"两步,参数量大幅缩减。MobileNet 同款。
PReLU:一种激活函数。普通 ReLU 把负数直接抹零,PReLU 给负数留一个可学习的小斜率 α,避免"神经元死掉"。
gLN / cLN(global / cumulative layer normalization):两种归一化方法。gLN 看整段录音的均值方差(非因果,离线用);cLN 只看到当前及之前的帧(因果,实时用)。
SI-SNR(scale-invariant SNR):对音量缩放免疫的信噪比,单位 dB,越高越好。本论文的训练目标和评测指标。
uPIT(utterance-level permutation invariant training):训练时对说话人顺序做"两种排列都试一下取最优",绕开 label 顺序问题。
WSJ0-2mix / 3mix:标准两人 / 三人混音测试集,从《华尔街日报》朗读语料 WSJ0 拼出来。社区公认的 benchmark。
所以这一节是想说:上面这些词在 2019 年之后所有语音分离论文里反复出现,先把它们和生活类比挂钩。
它有什么搞不定的
论文最后一节自己列了几条短板:
- 长时跟踪人会掉链子:网络感受野固定 1.5 秒。如果一个人停顿超过这个时长再开口,模型可能把他归到另一个输出通道上,造成"同一个人被切成两段不同身份"。
- 混响和噪声没测:训练数据是干净拼接的,没加混响。真实房间里墙壁反射会让一个声音"拖尾",时域方法对这种拖尾比频域方法更敏感,泛化效果未知。
- 三人以上还是难:WSJ0-3mix 上分数从 15.3 掉到 12.7,说话人越多越吃力。再加一两人就需要多麦克风(多通道)方案。
所以这一节是想说:Conv-TasNet 在干净两人场景里封顶,但混响、超过三人、长跟踪三件事还要后续工作来补。
它和别的论文是什么关系
- 同一系列:LSTM-TasNet → Conv-TasNet → DPRNN / SepFormer。Conv-TasNet 把 LSTM-TasNet 里的 LSTM 换成 TCN,是 TasNet 系列的二代。后续 DPRNN、SepFormer 在分离器架构上继续迭代(双路径 RNN、Transformer),但编码器-分离器-解码器三段流水线不变——这套范式由本篇定型。
- 和 LLaVA 的对照:本笔记 11 篇里的 LLaVA(多模态 VLM)也是"先用一个简单接口接两个模块,把劲使在数据/任务上"——LLaVA 的接口是一层投影矩阵,Conv-TasNet 的接口是一层卷积编码器。**两篇都示范了"接口故意做简单,性能提升来自端到端训练"**这条设计哲学。
- 和 WaveNet 的关系:WaveNet(同 author 们引用的 [38])是把空洞卷积用在波形生成上的开山之作,Conv-TasNet 把同样的工具搬到了"波形分离"。两者证明了**"在原始波形上做端到端深度学习"是可行的**,不必绕道频谱图。
- 被引扩散到何处:后续语音增强(speech enhancement)、音乐分离(source separation for music)、目标说话人提取(target speaker extraction)等几乎都从 Conv-TasNet 改的。在具身 AI 里,机器人感知模块要从环境噪声中分出"主人指令"也常用 TasNet 系列。
所以这一节是想说:Conv-TasNet 是 2019 年语音分离的范式转折点,把整个领域从"频谱域"拉到了"时域端到端"。
我建议这样读这篇
零基础读者不要从头读到尾。建议这样走:
- 看摘要 + Introduction 第一段(5 分钟):明确这篇要解决"STFT 三大缺陷(相位丢、表示不优、延迟高)"。
- 看 Figure 1 三张图(3 分钟):A 是整体三段流水线,B 是 TCN 内部,C 是单个卷积块。一眼记住"编码器 → TCN → 解码器"这个骨架。
- 跳到 Section II.B 编码器-解码器(10 分钟):看清"切段 → 矩阵乘 U → mask → 矩阵乘 V"这一组核心运算。公式只是矩阵乘法,别被吓到。
- 读 Section II.D 卷积分离器(15 分钟):搞清楚 dilation 怎么从 1 翻倍到 128、感受野怎么算到 1.5 秒。这部分是论文真正的创新点。
- 扫 Table II / III / IV(10 分钟):看消融——哪些超参对分数贡献最大。你会发现"短窗口 L=16"和"深网络(X=8, R=3)"是关键。
- 跳过实验细节(除非你要复现):训练超参、PESQ 对比、人类主观打分实验,这些是验证性的,不读不影响理解。
读完这 6 步大约 40-60 分钟,已经能在和别人讨论语音分离时报出 Conv-TasNet 的核心思路。
所以这一节是想说:精华全在 Section II(方法)和 Table II(消融),公式和实验细节可以略读。
一些好奇心问答
Q1:为什么放弃 STFT 这么好用的工具?
STFT 是一种"通用"变换,不是为分离设计的。它把信号拆成幅度+相位,但分离任务里相位极难预测,丢了相位就丢了上限。让网络自己学一种只服务于分离的变换,反而能突破上限。
Q2:编码器学出来的东西像不像 STFT?
很像但更聚焦。论文 Section IV.G 画了所有基函数的频率响应,发现:超过 60% 的滤波器集中在 1kHz 以下,恰好对应人声基频范围。这个分布像 mel 频率(人耳的非线性频率感知),但是网络自动学到的,没有任何人为设定。
Q3:TCN 比 LSTM 强在哪?
三件事:(1) 并行——所有时间步同时算;(2) 稳定——感受野固定,对录音起始点偏移不敏感;(3) 小——参数量比 deep LSTM 少很多。代价是理论上 TCN 看不到无限远的过去,但实际语音任务用 1.5 秒上下文足够。
Q4:因果版和非因果版差多少?
因果版(cLN,只看过去)SI-SNRi 10.6 dB,非因果版(gLN,看整段)15.3 dB——差 4.7 dB。这是实时 vs 离线的代价。助听器场景必须用因果版,电话会议后期可以用非因果版。
Q5:5.1M 参数到底有多小?
折算下来大约 20MB 模型文件。骁龙 855 这种几年前的手机芯片就能跑实时(CPU TPF 0.4ms < 帧长 2ms)。理论上助听器的微控制器加点优化后也能跑,这是这篇论文真正"接地气"的地方。
Q6:为什么 PESQ 给 IRM 打分高,MOS 给 Conv-TasNet 打分高?
PESQ 是基于幅度频谱设计的自动指标——它"喜欢"频谱看起来干净的方法。Conv-TasNet 在时域工作,频谱可能不那么"漂亮"但听起来更自然。人耳投票才是金标准,论文专门做了 40 人主观实验来证明这一点。
Q7:LSTM-TasNet 对起始点为什么那么敏感?
LSTM 状态会一帧一帧累积。如果第一帧错了,错误会顺着 cell state 传播下去,越攒越多。Conv-TasNet 每个时间位置只依赖局部上下文,错了就错了,不会污染后续帧。这是论文 Figure 4 想说的最重要的事。
Q8:之后该看什么?
- DPRNN(2020):把 TCN 换成"双路径 RNN",分数继续涨。
- SepFormer(2021):把 TCN 换成 Transformer,目前 WSJ0-2mix 的 SOTA。
- Demucs / Hybrid-Demucs(2021-2022):把 Conv-TasNet 思路搬到音乐分离,能把人声/鼓/贝斯/其它四轨拆开。
整个 TasNet 家族在 2020 年后都用 Conv-TasNet 当 baseline 比较——它是这个领域的"GPT-2 时刻"。
所以这一节是想说:实操问题(多大、多快、能不能实时、怎么对照)作者都给了答案,门槛比看起来低很多。
如果你想再深入
按"前传 → 同期对手 → 续作 → 衍生方向"四类排序:
- 前传:LSTM-TasNet(2018) — 同一组人。Conv-TasNet 之前的 v1,把分离从频域搬到时域,但用 LSTM 做分离器。读完它能清楚看到"为什么必须换 TCN"。
- 同期对手:Wave-U-Net(2018) — 把 U-Net 架构搬到时域音频分离,多用于音乐。和 Conv-TasNet 比能看出"U-Net 风格 vs 编码器-分离器-解码器风格"两条流派。
- 续作:DPRNN(2020) — 双路径 RNN,把长序列拆成"段内 + 段间"两次循环,进一步提升长上下文建模能力。SI-SNRi 比 Conv-TasNet 再涨 3 dB 左右。
- 续作:SepFormer(2021) — 用 Transformer 替换 TCN/RNN,是当前 WSJ0-2mix SOTA。如果你看完 Conv-TasNet 直接跳过 DPRNN 也能读,但 SepFormer 比 Conv-TasNet 大 10 倍以上,回到了"靠模型大取胜"的路上。
- 衍生:Demucs / Hybrid-Demucs(2021-2022) — Facebook 把 Conv-TasNet 思路套到音乐源分离上,最终和频域方法做了混合(两路并联)。这条线说明:纯时域不是终点,时域+频域混合可能是更好的方向。
所以这一节是想说:把 Conv-TasNet → DPRNN → SepFormer 三篇连起来读,就能看到 2018-2021 年端到端语音分离的演化全貌。
最后一个画面
闭上眼睛想象:你站在一个嘈杂的火锅店里,邻桌两个人同时大声说话——以前的麦克风录下来是一团糊,需要先转成"频谱图"再用各种 mask 凑活。Conv-TasNet 出现之后,录音直接喂进去、两个人的声音分别还原出来,过程中没有任何"频率"或"相位"的概念,只是一串卷积运算。
这是端到端深度学习又攻下一座堡垒的瞬间——和图像识别、语音识别、机器翻译一样,"先做信号处理再上神经网络"的两段流水线,被一个"波形进、波形出"的单一网络替代。
所以最后一节是想说:Conv-TasNet 不只是分数好看,而是把整个语音分离领域从"频谱域思维"拉进了"端到端时域思维"——这是 2019 年语音 AI 的一个标志性瞬间。
◼
引用本笔记 / Cite this note
@online{eai_conv_tasnet_2026,
title = {(readable note) Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2019 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/conv-tasnet/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim