回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
RF Perception & Mapping · Plate Nº 95

Diffusion Model is a Good Pose Estimator from 3D RF-Vision

8 min read · 2894 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

毫米波雷达拍出的人像隔了层毛玻璃。这篇论文让 AI 从噪点里一笔笔擦出人体骨架,比一次猜准稳得多。CVPR 2024 收录。

这是个什么场景

想象凌晨三点,独居老人在卫生间摔倒了。你想做一个"自动报警的看护"——但摄像头放卫生间太尴尬,老人也不愿意贴一身手环。

毫米波雷达就是为这种"不方便用摄像头"的场景准备的:黑灯瞎火、浓烟弥漫、要保护隐私(雷达只看得到形状,看不到脸)的地方都能用。但代价是——雷达拍出来的人像戴了副毛玻璃眼镜

  • 看得到一团晃动的影子(点云:稀疏、低分辨率,整个人只有几十到几百个 3D 点)
  • 影子还在闪、在漂(噪声大、多径干扰)
  • 你脑子里却清楚"人长什么样"(胳膊两节、膝盖不会反弯)

过去的做法是从这团模糊影子一口气猜出骨架坐标——一锤子买卖,错了就错了。mmDiff 换了个思路,更像画家临摹:先在画布上撒一层随机噪声,再对着"模糊影子"一笔一笔擦出人形,每一笔都参考雷达点云。最后画出来的骨架既贴合观测,又符合人体常识。

为什么用扩散模型特别合适?因为雷达观测本身就是"加了噪声的真相"——扩散模型天生就是干"去噪"这件事的,物理结构天然匹配。

Diffusion Model is a Good Pose Estimator from 3D RF-Vision — 场景示意:这论文要解决的现实问题
Plate Nº IDiffusion Model is a Good Pose Estimator from 3D RF-Vision — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 直接回归类(mmMesh、mmPose 等):CNN/PointNet 吃点云,直接输出关节 3D 坐标。问题:点云一稀疏就抖,预测帧间不连续。
  • 时序滤波类:在回归之上加 LSTM/Transformer 平滑帧间预测。问题:能压抖动但压不掉结构错误(比如手臂长度突然变化)。
  • 多模态融合类:雷达 + IMU + 摄像头联合训练。问题:部署时摄像头/IMU 不一定都有,雷达单模态仍然弱。
  • 基于图模型的优化:把人体骨架当图,用图神经网络强制拓扑约束。问题:图先验是硬编码的,对未见过的姿态泛化差。
  • 生成式方法(早期):VAE / GAN 也试过,但模式坍塌或训练不稳定,没成主流。

共同痛点:雷达点云的低分辨率 + 高噪声让"一步预测"很难同时满足"贴合观测"和"解剖学合理"两个目标。

这篇论文的关键想法

核心洞察:姿态估计本质上是一个条件生成问题,不是一个回归问题。

  • 雷达点云不是骨架的精确测量,而是一组强先验提示
  • 真值骨架可以看作"从雷达点云条件分布中采样的一个样本"
  • 那么扩散模型——一个天然擅长条件生成的工具——就该是首选

mmDiff 的具体设计哲学:

  1. 正向过程:把 GT 骨架逐步加噪,变成纯高斯噪声
  2. 反向过程:从随机噪声开始,每一步以雷达点云特征为条件去噪,最终得到骨架
  3. 多重条件注入:不止一个条件,作者加了几路互补的条件信号(局部点云特征、全局上下文、时序信息),分别针对低分辨率/高噪声/帧间一致性这几个具体痛点

这个设计的"巧"在于:扩散模型每一步只解决一个问题(去掉一点点噪声),而不是一锤子干完整个估计。这天然地把困难任务摊成多步,每步都有雷达点云作为锚点。

Diffusion Model is a Good Pose Estimator from 3D RF-Vision — 方法示意:核心 pipeline
Plate Nº IIDiffusion Model is a Good Pose Estimator from 3D RF-Vision — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

第一段:基础扩散框架——像橡皮擦一样反向擦

把骨架想成一张写满 J 个关节坐标的便签。训练时,老师故意往便签上一层一层泼噪声,直到全是雪花点;然后教学生怎么一层一层擦干净。等等,先慢一拍——**扩散模型(diffusion model)**说白了就是这套"先加噪再学着去噪"的把戏。等学生学会了,部署时就反过来:给一张全是雪花的便签,让它一步步擦回干净的骨架。

技术上,骨架被参数化为 $J \times 3$ 的张量(J 个关节,每个 3D 坐标)。前向加噪走标准 DDPM:$x_t = \sqrt{\bar\alpha_t}x_0 + \sqrt{1-\bar\alpha_t}\epsilon$。去噪网络 $\epsilon_\theta(x_t, t, c)$ 学着预测这一步该减掉多少噪声,其中 $c$ 是从雷达点云提取的"提示词"。

第二段:多条件设计——三个助手分工提醒

这是 mmDiff 的核心贡献。光擦不够,还得有人在旁边指点。作者请了三个助手,分别盯不同维度:

  • 全局上下文条件(GCC, Global Context Condition):像导演喊"这场是跳舞还是打架"——从整段点云序列提取一个全局特征,定整体姿态基调,对付雷达太稀疏看不清的问题
  • 局部点云条件(LPC, Local Point Condition):像化妆师凑近看每只手——每个关节附近的局部点云特征,告诉去噪器"这只手周围的点长这样",解决细节定位
  • 时序运动条件(TMC, Temporal Motion Condition):像剪辑师串前后帧——把相邻帧的预测当条件,强制连续性,压住帧间抖动

每个条件名称的英文缩写我不确定,需读原文确认;但多条件分而治之这个思路是这篇区别于通用扩散姿态估计(如 DiffPose)的关键。

第三段:训练 vs 推理

训练时按厨师配菜单——标准 DDPM 损失打底,可能加点辅助约束(骨长一致、左右对称等,具体需读原文)。

推理时从一团高斯噪声出发,跑 T 步反向去噪。为了上设备时不卡,可能用了 DDIM 加速把几百步压到几十步(具体数字需读原文)。

第四段:和点云骨干网络的关系

那"提示词" $c$ 怎么从点云算出来?通常是 PointNet++ 或 PointTransformer 这类骨干网络当翻译官:把一堆 3D 点翻译成"每个点的特征 + 整体特征",再分别送进上面三种条件分支。骨干选哪个对结果影响很大,但不是这篇论文的创新点。

实验在做什么

主要数据集:mmBodymm-Fi(毫米波雷达 + 同步 GT 骨架的公开数据集),具体哪些数据集和指标需读原文确认。

评估指标:

  • MPJPE(Mean Per-Joint Position Error,平均每关节位置误差,单位 mm)—— 越低越好,姿态估计标配
  • PA-MPJPE(Procrustes-aligned MPJPE)—— 去掉全局旋转/平移后的误差,反映纯姿态质量
  • 帧间一致性指标(如关节速度方差)—— 反映抖动

期望看到的对比:

  • vs 直接回归(mmMesh / mmPose):MPJPE 应有显著下降
  • vs 通用扩散姿态估计(DiffPose):证明多条件设计针对雷达的有效性
  • 消融实验:去掉 GCC/LPC/TMC 中任意一种,看性能掉多少——这是判断三种条件是否各自有用的关键

具体数字需读原文。一般 CVPR 接收意味着至少在 1-2 个 benchmark 上 SOTA。

你应该懂的几个新词 — 4-6 个

  • mmWave radar(毫米波雷达):波长 1-10mm 的雷达,常见 60GHz/77GHz。穿透能力好(隐私衣物烟雾),但角分辨率低(点云稀疏,几十到几百个点 per frame)
  • 点云(Point Cloud):一组 3D 点的集合,每个点带坐标和可能的额外属性(多普勒速度、信号强度)。雷达点云 vs LiDAR 点云:雷达点更稀更噪,但能测速度
  • DDPM(Denoising Diffusion Probabilistic Model,去噪扩散概率模型):扩散模型的经典形式。前向加噪、反向去噪,训练目标是预测噪声 $\epsilon$
  • 条件扩散(Conditional Diffusion):去噪过程接受额外输入(文本、图像、点云等)作为条件。Stable Diffusion 是文本条件,mmDiff 是点云条件
  • MPJPE:见上节,姿态估计领域的"准确率"
  • DDIM(Denoising Diffusion Implicit Model):扩散模型的快速采样变体,把几百步压到几十步,部署常用

它和其他论文什么关系

上游(被借鉴)

  • DDPM (Ho 2020):扩散模型基础
  • DiffPose / Diff3DHPE:把扩散用于 RGB/2D-to-3D 姿态估计的先驱,mmDiff 把场景换到 RF
  • mmMesh / mmPose:雷达姿态估计的回归基线,mmDiff 的对比靶子

同期/相关

  • 各类点云骨干(PointNet++, PointTransformer):mmDiff 的特征提取器
  • RF-based human sensing 大方向:本笔记 topic=rf 下的其他论文(如 RF-Pose、Wi-Pose 等)共享"穿墙/隐私感知"动机

下游(可能启发)

  • 任何"传感器观测稀疏 + 需要结构化输出"的场景:超声、热成像、低光相机的姿态估计
  • 多模态扩散:把雷达 + 摄像头 + IMU 同时作为条件
  • 实时化:把扩散步数压到 < 5 步以适配边缘设备

对比 DiffPose 的差异:DiffPose 解决的是 RGB 图像/2D 关键点已经相对可靠,扩散主要在精细化和不确定性建模;mmDiff 面对的是根本性的观测残缺,所以条件设计更激进、更多路。

我建议这样读 — 3-4 步

  1. 先读 §1 引言 + §3 方法的图:搞清楚三个条件(GCC/LPC/TMC 或论文实际命名)分别接到去噪网络的哪里。一张架构图胜过一千字描述。
  2. 读消融实验:直接跳到去掉每个条件的对比表。这告诉你真正起作用的是哪个设计——很多论文的消融会暴露主要贡献集中在 1-2 个组件上。
  3. 如果你做雷达感知:精读条件特征怎么从点云提取,骨干网络的选择,以及训练数据规模/采样步数等部署相关细节。
  4. 如果你做扩散建模:关注损失函数有没有除标准 DDPM 之外的辅助项(骨长、对称性、物理先验),这是把通用扩散落到结构化输出的关键经验。

跳过:具体超参表(除非你要复现)、数据集介绍(看 mmBody/mm-Fi 原论文更全)。

为什么值得读

三个理由:

  1. 范式迁移的好样本:把扩散模型从图像/文本搬到 RF 点云,条件设计针对模态特点改造——这是任何想把生成模型用到新领域的人都该学的方法论
  2. 雷达感知的现状基线:2024 年雷达姿态估计的 SOTA 之一,做相关方向必引
  3. 多条件思想可迁移:GCC/LPC/TMC 这种"全局-局部-时序"三件套对任何稀疏观测 + 时序结构化输出的任务都有借鉴意义(比如 sparse LiDAR 跟踪、稀疏视频帧补全)

不值得读的情况:你只关心 RGB 视觉姿态估计 / 你不感兴趣生成式方法 / 你已经熟悉 DiffPose 这类工作并且不做 RF。

读完应该能回答:

  • 扩散模型相比直接回归在雷达姿态估计上的优势是什么?(答:把困难任务摊成多步,每步用点云锚定,避免一步到位的歧义)
  • 多条件设计解决了雷达点云的哪三个具体问题?
  • 如果换到超声/热成像,这套方法可能怎么改?

引用本笔记 / Cite this note
BibTeX
@online{eai_mmdiff_2026,
  title       = {(readable note) Diffusion Model is a Good Pose Estimator from 3D RF-Vision},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/mmdiff/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim