回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
RF Perception & Mapping · Plate Nº 93

RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory

7 min read · 2475 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

用雷达回声画出人的姿势:直接学容易乱猜,先把"回声"和"姿势"两边的特征对齐,再画关节,换房间也更稳。

这是个什么场景

把屋子想象成一个"蝙蝠空间"——你蒙着眼,靠对着墙喊一声、听回声,要猜出屋里那个人现在是站着、坐着,还是把手举过头顶。回声听起来全是嗡嗡的杂音,可你要画出他身上 17 个关节的 3D 位置。

这就是这篇论文的处境。把"喊一声听回声"换成射频(RF, Radio Frequency,一种无线电波)发射加接收,你就拿到了 RF 姿态估计。它的吸引力在于:

  • 黑灯瞎火也能用(不靠摄像头)
  • 隔着墙也大致能看(电波能穿薄墙)
  • 不拍人脸,隐私友好(适合养老院、卧室监护)

难的地方在于回声和姿态完全是两种"语言":

  • 回声是一段段电磁波形,姿态是 17 个关节坐标
  • 回声里混着墙、桌子、沙发的反射,人体只是其中一小块
  • 直接训练"听到 A 报 B"的网络,就像让人背单词不教语法——换个房间、换个人,立刻乱套

这篇论文的思路像找一本"回声-姿态对照词典":先把两边的特征摆成同样的形状,再让网络做映射,省得它一边猜词一边猜规则。

RFPose-OT — 场景示意:这论文要解决的现实问题
Plate Nº IRFPose-OT — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • RF-Pose / RF-Pose3D(MIT 2018):直接用 CNN 把 RF 热力图映射到 2D/3D 关节坐标。把 RF 当成"奇怪的图像"硬学,数据集外泛化差。
  • Person-in-WiFi:用商用 WiFi CSI 信号估计人体分割和关节,思路类似——靠大量配对数据 + 端到端回归。
  • mmMesh / mmWave 系列:用毫米波点云做姿态估计,点云比 CSI 稀疏但更接近 3D 几何,依然是直接回归。
  • 共同问题:都把 RF 当成一种"低质量图像"来学,没有显式处理 RF 信号空间和姿态空间的几何结构差异。换房间、换人、换设备就掉点。

这篇论文的关键想法

像翻译:与其让学生死记"听到 A 就说 B",不如先帮他把两本字典的页码对齐,他再翻就轻松了。这篇论文也是把任务拆成两步:

  1. 域对齐(先对页码):RF 特征 → 映射到"假装是姿态"的特征空间。这一步不需要标注答案,只要让两边的"分布形状"看起来差不多。
  2. 姿态回归(再翻字典):对齐过的特征 → 17 个关节坐标。这一步是普通监督学习。

等等,先慢一拍 — "最优传输(OT)"是干嘛的?

  • 想象你有一堆沙子堆成形状 A,要把它推成形状 B,每铲一次都有运费。OT 就是问"怎么推总运费最小"。
  • 这里的"沙子"是一个个特征向量;形状 A 是 RF 特征的分布,形状 B 是姿态特征的分布。
  • 解完得到一张"调度表"(传输矩阵):告诉你 A 的每一粒沙应该往 B 的哪几粒流、流多少。
  • 这就把"两边长得不一样"这件事摆到了明面上算,而不是丢给一个黑盒网络让它自己悟。

具体数字(信号类型、求解器是不是 Sinkhorn、嵌入维度)需读原文。

RFPose-OT — 方法示意:核心 pipeline
Plate Nº IIRFPose-OT — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

信号采集与预处理。像拍俯视图 + 正视图两张照片:把 RF 反射波打到水平面和垂直面上,分别得到一张"从上往下看"和"从前往后看"的强度图(heatmap)。论文用的 RF 设备(具体频段、是 FMCW 雷达还是 CSI 需读原文),这一步沿用 RF-Pose 系列的标准做法,不是创新点。

RF 特征编码 + 姿态特征编码。像两个翻译同时备课:一个看 RF 热力图、记下"看到这种回声该想到什么",得到特征 $f_{RF}$;另一个看真实姿态(17 个关节坐标),记下"骨架是怎么连的",得到特征 $f_{pose}$。两人本来语言不通——一个学的是电磁反射,一个学的是人体骨架。

OT 对齐模块(核心)。像在两个翻译之间放一张"对照表":在每个 mini-batch 里算一遍最优传输方案,得到传输矩阵 $T$,然后用 $T$ 把 $f_{RF}$ 加权重组成 $f_{RF \to pose}$——相当于把每条 RF 特征"运"到姿态空间里它最该坐的位置上。求解一般用 Sinkhorn 迭代(带熵正则的快速近似法,能塞进神经网络一起反向传播),具体实现细节需读原文。

姿态解码 + 损失。像考试打分:对齐后的特征过一个 decoder 输出 3D 关节坐标。损失大概率包含三项:(a) 姿态回归 loss(MSE/L1,关节位置准不准),(b) OT 对齐 loss(运沙子的总成本要小),(c) 可能还有特征一致性 loss(搬过去的 $f_{RF \to pose}$ 要和真值 $f_{pose}$ 长得像)。三项权重需读原文。

实验在做什么

可以推测的实验设置(具体数字需读原文):

  • 数据集:自采 RF + 同步 mocap/相机 ground truth 的数据集,可能跨多个房间、多个被试
  • 基线:RF-Pose / RF-Pose3D 之类的端到端 baseline,证明加 OT 对齐有提升
  • 指标:MPJPE(Mean Per Joint Position Error,毫米级)、PCK(Percentage of Correct Keypoints)
  • 关键消融:去掉 OT 模块退化成普通 encoder-decoder,看掉多少点;换不同 OT 求解器(Sinkhorn vs. 精确解 vs. 学习式 OT)
  • 跨域测试:换房间、换人测,这是 RF 方法最容易翻车的场景,也最能体现 OT 对齐的价值——如果 OT 真的学到了"域无关"的对齐,跨域应该比 baseline 鲁棒得多

你应该懂的几个新词 — 4-6 个

  • 最优传输(Optimal Transport, OT):求"把分布 A 推成分布 B、总搬运代价最小"的那个搬运方案。代价由两点间的距离定义。结果是一个传输矩阵,告诉你 A 中每点该往 B 中哪些点流多少。
  • Sinkhorn 迭代:解 OT 的快速近似算法。在原问题加一个熵正则项,问题变成可微的、可以用矩阵的行/列归一化迭代求解,能塞进神经网络一起训练。
  • 域对齐(Domain Alignment):让两个不同域的特征分布在某个空间里"形状一致"。OT 是众多对齐方法之一,其他还有 MMD、对抗对齐(DANN)等。
  • RF heatmap:把 RF 反射信号沿水平/垂直平面投影成 2D 强度图。一张代表"哪里有东西在反射"的横向视角,另一张代表纵向视角。是 RF-Pose 系列的标准输入。
  • MPJPE:人体姿态估计最常用指标。逐关节算预测和真值的欧氏距离再平均,单位毫米。数字越小越好。
  • 3D human pose estimation:从某种感知输入(图像、点云、RF)估出 17 个左右人体关节的 3D 坐标。是动作识别、人机交互的底层任务。

它和其他论文什么关系

  • 直系前作:RF-Pose(MIT,CVPR 2018)开创了"用 RF 看人"的范式;RF-Pose3D 把它推到 3D;RFPose-OT 在它们的端到端框架上加了 OT 对齐这一层。
  • 平行工作:Person-in-WiFi(CSI)、mmMesh(mmWave 点云)解的是同一个任务,但在信号类型和方法上各自分叉。RFPose-OT 用的是雷达类信号(具体型号需读原文)。
  • 方法论亲戚:把 OT 用进表征学习的工作很多——Wasserstein GAN、OT-based domain adaptation(CORAL/DeepJDOT)、点云配准里的 OT。RFPose-OT 是 OT 在"跨模态域对齐"这个细分场景的应用。
  • 下游影响:之后的 RF 姿态、RF 动作识别工作如果要做跨域泛化,OT 对齐成了一个标配模块。"用 OT 显式对齐结构差异巨大的两个模态"这个套路也被音频-视频、点云-图像等跨模态任务借鉴。

我建议这样读 — 3-4 步

  1. 先看 abstract + 网络结构图。重点看 OT 模块插在哪、输入输出是什么、和 baseline 的差异在哪。如果能看懂图就不用读细节了。
  2. 再看 OT 公式那一节。这是论文的真正贡献。重点:传输矩阵怎么算、loss 怎么定义、怎么反传梯度。如果没接触过 Sinkhorn,可以先单独花 30 分钟看一篇 Sinkhorn 教程再回来。
  3. 跳到实验的消融表。看"去掉 OT" vs. "完整模型"的差距,再看跨域那张表。这两个数字决定这篇论文是不是真的有用。
  4. 可选:复现的话,OT 可以用 POT(Python Optimal Transport)库,几行代码就能上 Sinkhorn。难点不在 OT 求解,在于 RF 数据采集和同步 ground truth。

为什么值得读

  • 方法论上:是把"经典数学工具(OT)"和"端到端深度学习"结合得比较干净的一个例子。不是堆模块,是用 OT 解决了一个真问题——RF 和姿态的几何结构差异。
  • 任务上:RF 姿态估计是无视觉条件下感知人体的关键技术(黑暗、隐私、穿墙)。这条线值得追,RFPose-OT 是这条线上承前启后的一篇。
  • 可迁移性:OT 对齐这个套路你可以搬到任何"两个模态的特征结构差异巨大"的场景——比如触觉-视觉、声音-动作、文本-3D。读这篇等于学会了一个工具。
  • 难度合理:核心思想一句话能讲清,OT 公式细节稍硬但有标准库支持,复现门槛不算高(除了 RF 数据这个硬门槛)。

引用本笔记 / Cite this note
BibTeX
@online{eai_rfpose_ot_2026,
  title       = {(readable note) RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/rfpose-ot/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim