Diffusion Model is a Good Pose Estimator from 3D RF-Vision
本笔记基于摘要 + 公开资料,未读全文。
一句话讲什么(TL;DR)
毫米波雷达拍出的人像隔了层毛玻璃。这篇论文让 AI 从噪点里一笔笔擦出人体骨架,比一次猜准稳得多。CVPR 2024 收录。
这是个什么场景
想象凌晨三点,独居老人在卫生间摔倒了。你想做一个"自动报警的看护"——但摄像头放卫生间太尴尬,老人也不愿意贴一身手环。
毫米波雷达就是为这种"不方便用摄像头"的场景准备的:黑灯瞎火、浓烟弥漫、要保护隐私(雷达只看得到形状,看不到脸)的地方都能用。但代价是——雷达拍出来的人像戴了副毛玻璃眼镜:
- 看得到一团晃动的影子(点云:稀疏、低分辨率,整个人只有几十到几百个 3D 点)
- 影子还在闪、在漂(噪声大、多径干扰)
- 你脑子里却清楚"人长什么样"(胳膊两节、膝盖不会反弯)
过去的做法是从这团模糊影子一口气猜出骨架坐标——一锤子买卖,错了就错了。mmDiff 换了个思路,更像画家临摹:先在画布上撒一层随机噪声,再对着"模糊影子"一笔一笔擦出人形,每一笔都参考雷达点云。最后画出来的骨架既贴合观测,又符合人体常识。
为什么用扩散模型特别合适?因为雷达观测本身就是"加了噪声的真相"——扩散模型天生就是干"去噪"这件事的,物理结构天然匹配。

之前的人怎么做的 — 3-5 bullet
- 直接回归类(mmMesh、mmPose 等):CNN/PointNet 吃点云,直接输出关节 3D 坐标。问题:点云一稀疏就抖,预测帧间不连续。
- 时序滤波类:在回归之上加 LSTM/Transformer 平滑帧间预测。问题:能压抖动但压不掉结构错误(比如手臂长度突然变化)。
- 多模态融合类:雷达 + IMU + 摄像头联合训练。问题:部署时摄像头/IMU 不一定都有,雷达单模态仍然弱。
- 基于图模型的优化:把人体骨架当图,用图神经网络强制拓扑约束。问题:图先验是硬编码的,对未见过的姿态泛化差。
- 生成式方法(早期):VAE / GAN 也试过,但模式坍塌或训练不稳定,没成主流。
共同痛点:雷达点云的低分辨率 + 高噪声让"一步预测"很难同时满足"贴合观测"和"解剖学合理"两个目标。
这篇论文的关键想法
核心洞察:姿态估计本质上是一个条件生成问题,不是一个回归问题。
- 雷达点云不是骨架的精确测量,而是一组强先验提示
- 真值骨架可以看作"从雷达点云条件分布中采样的一个样本"
- 那么扩散模型——一个天然擅长条件生成的工具——就该是首选
mmDiff 的具体设计哲学:
- 正向过程:把 GT 骨架逐步加噪,变成纯高斯噪声
- 反向过程:从随机噪声开始,每一步以雷达点云特征为条件去噪,最终得到骨架
- 多重条件注入:不止一个条件,作者加了几路互补的条件信号(局部点云特征、全局上下文、时序信息),分别针对低分辨率/高噪声/帧间一致性这几个具体痛点
这个设计的"巧"在于:扩散模型每一步只解决一个小问题(去掉一点点噪声),而不是一锤子干完整个估计。这天然地把困难任务摊成多步,每步都有雷达点云作为锚点。

它怎么做的(方法)— 3-4 段
第一段:基础扩散框架——像橡皮擦一样反向擦
把骨架想成一张写满 J 个关节坐标的便签。训练时,老师故意往便签上一层一层泼噪声,直到全是雪花点;然后教学生怎么一层一层擦干净。等等,先慢一拍——**扩散模型(diffusion model)**说白了就是这套"先加噪再学着去噪"的把戏。等学生学会了,部署时就反过来:给一张全是雪花的便签,让它一步步擦回干净的骨架。
技术上,骨架被参数化为 $J \times 3$ 的张量(J 个关节,每个 3D 坐标)。前向加噪走标准 DDPM:$x_t = \sqrt{\bar\alpha_t}x_0 + \sqrt{1-\bar\alpha_t}\epsilon$。去噪网络 $\epsilon_\theta(x_t, t, c)$ 学着预测这一步该减掉多少噪声,其中 $c$ 是从雷达点云提取的"提示词"。
第二段:多条件设计——三个助手分工提醒
这是 mmDiff 的核心贡献。光擦不够,还得有人在旁边指点。作者请了三个助手,分别盯不同维度:
- 全局上下文条件(GCC, Global Context Condition):像导演喊"这场是跳舞还是打架"——从整段点云序列提取一个全局特征,定整体姿态基调,对付雷达太稀疏看不清的问题
- 局部点云条件(LPC, Local Point Condition):像化妆师凑近看每只手——每个关节附近的局部点云特征,告诉去噪器"这只手周围的点长这样",解决细节定位
- 时序运动条件(TMC, Temporal Motion Condition):像剪辑师串前后帧——把相邻帧的预测当条件,强制连续性,压住帧间抖动
每个条件名称的英文缩写我不确定,需读原文确认;但多条件分而治之这个思路是这篇区别于通用扩散姿态估计(如 DiffPose)的关键。
第三段:训练 vs 推理
训练时按厨师配菜单——标准 DDPM 损失打底,可能加点辅助约束(骨长一致、左右对称等,具体需读原文)。
推理时从一团高斯噪声出发,跑 T 步反向去噪。为了上设备时不卡,可能用了 DDIM 加速把几百步压到几十步(具体数字需读原文)。
第四段:和点云骨干网络的关系
那"提示词" $c$ 怎么从点云算出来?通常是 PointNet++ 或 PointTransformer 这类骨干网络当翻译官:把一堆 3D 点翻译成"每个点的特征 + 整体特征",再分别送进上面三种条件分支。骨干选哪个对结果影响很大,但不是这篇论文的创新点。
实验在做什么
主要数据集:mmBody 和 mm-Fi(毫米波雷达 + 同步 GT 骨架的公开数据集),具体哪些数据集和指标需读原文确认。
评估指标:
- MPJPE(Mean Per-Joint Position Error,平均每关节位置误差,单位 mm)—— 越低越好,姿态估计标配
- PA-MPJPE(Procrustes-aligned MPJPE)—— 去掉全局旋转/平移后的误差,反映纯姿态质量
- 帧间一致性指标(如关节速度方差)—— 反映抖动
期望看到的对比:
- vs 直接回归(mmMesh / mmPose):MPJPE 应有显著下降
- vs 通用扩散姿态估计(DiffPose):证明多条件设计针对雷达的有效性
- 消融实验:去掉 GCC/LPC/TMC 中任意一种,看性能掉多少——这是判断三种条件是否各自有用的关键
具体数字需读原文。一般 CVPR 接收意味着至少在 1-2 个 benchmark 上 SOTA。
你应该懂的几个新词 — 4-6 个
- mmWave radar(毫米波雷达):波长 1-10mm 的雷达,常见 60GHz/77GHz。穿透能力好(隐私衣物烟雾),但角分辨率低(点云稀疏,几十到几百个点 per frame)
- 点云(Point Cloud):一组 3D 点的集合,每个点带坐标和可能的额外属性(多普勒速度、信号强度)。雷达点云 vs LiDAR 点云:雷达点更稀更噪,但能测速度
- DDPM(Denoising Diffusion Probabilistic Model,去噪扩散概率模型):扩散模型的经典形式。前向加噪、反向去噪,训练目标是预测噪声 $\epsilon$
- 条件扩散(Conditional Diffusion):去噪过程接受额外输入(文本、图像、点云等)作为条件。Stable Diffusion 是文本条件,mmDiff 是点云条件
- MPJPE:见上节,姿态估计领域的"准确率"
- DDIM(Denoising Diffusion Implicit Model):扩散模型的快速采样变体,把几百步压到几十步,部署常用
它和其他论文什么关系
上游(被借鉴):
- DDPM (Ho 2020):扩散模型基础
- DiffPose / Diff3DHPE:把扩散用于 RGB/2D-to-3D 姿态估计的先驱,mmDiff 把场景换到 RF
- mmMesh / mmPose:雷达姿态估计的回归基线,mmDiff 的对比靶子
同期/相关:
- 各类点云骨干(PointNet++, PointTransformer):mmDiff 的特征提取器
- RF-based human sensing 大方向:本笔记 topic=rf 下的其他论文(如 RF-Pose、Wi-Pose 等)共享"穿墙/隐私感知"动机
下游(可能启发):
- 任何"传感器观测稀疏 + 需要结构化输出"的场景:超声、热成像、低光相机的姿态估计
- 多模态扩散:把雷达 + 摄像头 + IMU 同时作为条件
- 实时化:把扩散步数压到 < 5 步以适配边缘设备
对比 DiffPose 的差异:DiffPose 解决的是 RGB 图像/2D 关键点已经相对可靠,扩散主要在精细化和不确定性建模;mmDiff 面对的是根本性的观测残缺,所以条件设计更激进、更多路。
我建议这样读 — 3-4 步
- 先读 §1 引言 + §3 方法的图:搞清楚三个条件(GCC/LPC/TMC 或论文实际命名)分别接到去噪网络的哪里。一张架构图胜过一千字描述。
- 读消融实验:直接跳到去掉每个条件的对比表。这告诉你真正起作用的是哪个设计——很多论文的消融会暴露主要贡献集中在 1-2 个组件上。
- 如果你做雷达感知:精读条件特征怎么从点云提取,骨干网络的选择,以及训练数据规模/采样步数等部署相关细节。
- 如果你做扩散建模:关注损失函数有没有除标准 DDPM 之外的辅助项(骨长、对称性、物理先验),这是把通用扩散落到结构化输出的关键经验。
跳过:具体超参表(除非你要复现)、数据集介绍(看 mmBody/mm-Fi 原论文更全)。
为什么值得读
三个理由:
- 范式迁移的好样本:把扩散模型从图像/文本搬到 RF 点云,条件设计针对模态特点改造——这是任何想把生成模型用到新领域的人都该学的方法论
- 雷达感知的现状基线:2024 年雷达姿态估计的 SOTA 之一,做相关方向必引
- 多条件思想可迁移:GCC/LPC/TMC 这种"全局-局部-时序"三件套对任何稀疏观测 + 时序结构化输出的任务都有借鉴意义(比如 sparse LiDAR 跟踪、稀疏视频帧补全)
不值得读的情况:你只关心 RGB 视觉姿态估计 / 你不感兴趣生成式方法 / 你已经熟悉 DiffPose 这类工作并且不做 RF。
读完应该能回答:
- 扩散模型相比直接回归在雷达姿态估计上的优势是什么?(答:把困难任务摊成多步,每步用点云锚定,避免一步到位的歧义)
- 多条件设计解决了雷达点云的哪三个具体问题?
- 如果换到超声/热成像,这套方法可能怎么改?
◼
引用本笔记 / Cite this note
@online{eai_mmdiff_2026,
title = {(readable note) Diffusion Model is a Good Pose Estimator from 3D RF-Vision},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2024 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/mmdiff/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim