回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Auditory & Acoustic · Plate Nº 25

Universal Source Separation with Weakly Labelled Data

7 min read · 2366 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

给电脑一段嘈杂录音,告诉它"我只要狗叫",它就把狗叫从混音里抠出来。一个模型覆盖 527 类日常声音。

这是个什么场景 — 日常类比

你周末在咖啡馆给朋友拍了段 vlog,回家一看素材傻了:咖啡机嘶嘶响、隔壁桌大声八卦、店里放着背景音乐、门口铃铛叮叮当当。你只想留下朋友说话那部分,把别的全删掉——这件事就叫源分离(source separation),把一锅"声音浓汤"重新分成几碗清汤。

按老办法做这件事,像开一家专业录音棚:先花大钱录一万段"只有咖啡机"的纯净样本、再录一万段"只有人声"的,然后用人工把它们叠在一起当作业,喂给模型学。问题有两个:纯净样本极难收集(现实世界哪有真空环境只录咖啡机),而且每多一种新声音都要重头录一轮。

这篇论文换了个思路——既然 YouTube 上已经有几百万段视频,每段都贴了"含狗叫/含钢琴/含警笛"的标签,那就直接用这种没拆开、只贴了标签的脏数据(AudioSet)来训。模型从来没听过"纯净狗叫",但它能从大量"含狗叫的混音"里慢慢猜出狗叫长什么样,最后学会拆 527 类声音。

Universal Source Separation with Weakly Labelled Data — 场景示意:这论文要解决的现实问题
Plate Nº IUniversal Source Separation with Weakly Labelled Data — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 音乐源分离(MSS)专用模型:Spleeter / Demucs / Open-Unmix,只拆人声/鼓/贝斯/其他四轨,需要 MUSDB 这种成对干净轨数据。
  • 语音增强(speech enhancement):只针对"语音 vs 噪声"两类,模型不通用。
  • PIT(permutation invariant training)类方法:能盲分离 N 个说话人,但类别不可控,且 N 固定。
  • Sound event detection (SED) + masking:先检测有什么类,再用类别条件 mask,但通常类别数 < 50,且依赖强标注(带时间戳的标签)。
  • 共同瓶颈:要么类别数有限,要么需要干净源/时间戳标注,难以扩到日常声音的"长尾"。

这篇论文的关键想法

核心赌注:弱标注本身就够用了——只要数据规模够大(AudioSet 200 万段、527 类),可以通过两阶段间接监督让模型学会分离。

关键设计:

  1. 用一个预训练好的 声音事件检测器(sound event detector, SED) 给每段音频打"哪些秒含有 class X"的伪时间戳。
  2. 把含 X 的片段当作"伪干净源",与其他随机片段混合,构造 (混音, query, 目标) 的训练对。
  3. 分离网络以 class embedding(类别向量) 作为条件输入,告诉它"这次抠哪一类"——这样一个模型就能覆盖 527 类,而不是为每类训练一个。

通俗讲:模型从来没见过"纯净的狗叫",但它见过"很可能含狗叫的片段"和"几乎不含狗叫的片段",把两者混起来再让模型还原前者,狗叫的能力就涌现出来了。

Universal Source Separation with Weakly Labelled Data — 方法示意:核心 pipeline
Plate Nº IIUniversal Source Separation with Weakly Labelled Data — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

第一阶段:弱标注 → 伪强标注。 像让一个"声音助教"先把作业批一遍——它不一定全对,但能给后面的主模型省事。具体做法:先在 AudioSet 上训一个 SED 模型(如 PANNs),让它给每段 10 秒音频输出"每一秒里出现哪类声音"的概率。再用一个阈值(比如概率 > 0.5)挑出"这一秒大概率含狗叫"的短片段,把它当作"伪干净狗叫样本"。助教批错几道也没关系,主模型对这点噪声扛得住。

等等,先慢一拍 — SED(sound event detection,声音事件检测)是什么?就是听一段录音,告诉你"第 3 秒到第 5 秒有狗叫,第 7 秒到 8 秒有钢琴"的模型。它只输出"哪一秒有什么",不负责把声音抠出来。这里只是借它来圈出"哪几秒值得拿来当训练素材"。

第二阶段:构造混音并训练分离器。 像老师故意把两份作业卷子叠在一张纸上,然后让学生用红笔只描出 A 同学的字迹。具体做法:随机取两段伪干净片段(一段含 class A,一段含 class B),数学上直接相加得到一段混音。再把"class A 的描述向量"(来自预训练的 audio tagging 模型的 embedding)作为 query(可以理解为"我要 A,不要 B"的提示牌)输给分离网络,让它从混音里还原 A。损失函数(loss)就是"还原结果和原 A 段差多远",用 L1 或 MSE 算。这就是 query-based separation:拿一个提示牌驱动模型抠对应那一类。

网络结构。 主干像图像分割里的 U-Net,但用在频谱图上——叫 ResUNet(频域 U-Net + 残差块),也可以换成时域的 Conv-TasNet。Query 通过 FiLM(feature-wise linear modulation,按通道做缩放和平移的小调制层)一层层注入网络,相当于在每一层告诉网络"记住,要的是 A"。最终输出可以是一张 mask(盖在频谱图上把不要的部分压掉)或直接吐出波形。

推理时的灵活性。 用户给提示牌的方式很自由:可以从 527 类里直接挑一个 class embedding("给我警笛声"),也可以塞一段参考音频("我录了下我家狗的叫声,把视频里类似的全抠出来"),让模型把这段音频编码成 embedding 再驱动分离。后一种就是 few-shot——训练时压根没见过的新声音也能现场学着抠,这才配得上 universal(通用)这个词。

实验在做什么

  • 主指标:SDR(signal-to-distortion ratio)和 SI-SDR(scale-invariant SDR),值越大越好。
  • 对比基线:在 MUSDB18(音乐源分离)、VCTK + DEMAND(语音增强)、ESC-50 / FSDKaggle(通用声音)上和各自专用 SOTA 比,看通用模型能否接近专用。
  • 零样本 / 少样本:用 AudioSet 之外的类(如某种特定鸟叫)作 query,验证泛化。
  • 消融:SED 质量、阈值选择、query embedding 来源、混音策略对最终 SDR 的影响。

具体数字需读原文。普遍预期:通用模型在专用 benchmark 上略逊专用模型 1-3 dB,但能覆盖的类别多出一两个数量级。

你应该懂的几个新词 — 4-6 个

  • Source separation(源分离):把混音拆成多个独立"源"的过程,源可以是说话人、乐器、声音事件。
  • Weakly labelled(弱标注):只给段级标签("这段里有狗叫"),不给时间戳、不给干净源样本。对应"强标注"是带时间戳和干净轨道。
  • AudioSet:Google 发布的 200 万段 YouTube 10 秒切片,527 类层级标签,是声音领域的"ImageNet"。
  • Query-based separation:分离时给模型一个"目标提示"(class id、embedding、参考音频),模型按提示抠出对应源。是 USS 的标准范式。
  • SED(sound event detection):检测音频里何时出现何类声音事件,输出帧级类别概率。
  • PANNs:在 AudioSet 上预训练的 CNN 音频标签模型,常被当作通用声音特征提取器。
  • SI-SDR:尺度不变 SDR,避免单纯放大幅度刷分,是源分离公认指标。

它和其他论文什么关系

  • 上游基础:依赖 AudioSet(Gemmeke 2017)、PANNs(Kong 2020)的弱标注分类与特征。
  • 同代 universal 路线:与 SoundFilter(Gfeller 2021)、CLIPSep(Dong 2023,用 CLIP 文本 query)思路相近,区别在 query 空间和训练数据规模。
  • 音乐源分离邻居:Demucs、HTDemucs 是专攻音乐的强基线,本文的目标是"在不专攻音乐的前提下接近它们"。
  • 下游延伸:可被用作"声音版 SAM"——给一段音频和一个 prompt,输出对应 mask;自然延伸到 text-queried separation(用文本驱动)和 multi-modal 分离(视频 + 音频)。
  • 机器人/具身相关:在 acoustic perception 链路里,USS 可作为前端,把环境混音先拆成"机械声 / 人声 / 物体碰撞",再交给下游策略。是 auditory scene understanding 的关键一环。

我建议这样读 — 3-4 步

  1. 先看 Fig 1 + Sec 3 整体框架图:搞清楚 SED → 伪源 → 混音 → query-based 分离这条流水线,10 分钟能懂主线。
  2. 跳到实验部分扫表:看在 MUSDB / 语音增强 / ESC 各自和专用模型差多少 dB,建立"通用 vs 专用"的代价感。
  3. 回头读 Sec 4 训练细节:阈值怎么选、混音怎么采样、query embedding 来自哪里——这些是工程能否复现的关键。
  4. 最后看消融:SED 质量影响多大?换不同 backbone 差多少?这决定了你想自建系统时该把预算砸在哪一步。

为什么值得读

  • 范式价值:示范了"弱标注大数据 + 间接监督"如何在一个传统上依赖干净配对数据的领域实现通用化,思路可迁移到分割、检测、增强等任务。
  • 工程参考:query-based 条件注入 + FiLM + U-Net 是音频任务的现代标配,本文给了一个端到端的成熟实现。
  • 基础设施:作为机器人 auditory perception 的前端预处理几乎是开箱即用的——下游策略可以假设输入已经按类别拆开。
  • 声音领域的"通用化拐点":在 vision 已经有 SAM、CLIP 之后,audio 一直缺一个对应物。这篇是该方向上扎实的一步,值得了解其设计取舍。

引用本笔记 / Cite this note
BibTeX
@online{eai_uss_weakly_labelled_2026,
  title       = {(readable note) Universal Source Separation with Weakly Labelled Data},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/uss-weakly-labelled/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim