RF Perception & Mapping · Plate Nº 97

Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion

7 min read · 2485 字 · ⭐⭐⭐⭐ · 短摘要

#diffusion #transformer #3D #vision #audio-speech #RF-radar

Featured in Issue Nº VI

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

毫米波信号能穿过纸箱、布帘，Wave-Former 把弹回来的模糊回声拼成藏在背后的杯子、瓶子的完整 3D 形状。

这是个什么场景 — 日常类比

搬家时你蹲在墙角一堆封好的纸箱前，想找出装马克杯的那一箱，但每个都拆开看一遍太麻烦。你想要的是一双"能透过纸箱看里面"的眼睛。

类似的场景到处都是：

仓库里机器人要从堆叠的箱子里挑出某个零件
家用机器人翻柜子找遥控器，柜门是关着的
搜救场景里要看废墟下面有没有人、有什么东西

可选的"看穿"工具有三种：

用眼睛（RGB 摄像头）：看不见，纸箱不透明
用 X 光：能看见但设备贵、有辐射、家里不可能放
用毫米波雷达：信号能穿透纸板、布料、薄木板，弹回来的回波告诉你"里面好像有个圆柱形的东西"

Wave-Former 干的就是第三件事，再多走一步：把雷达回波（一堆稀疏、噪声大、只照到物体半边脸的点）拼成一个完整的、能直接交给机器人手臂去抓的 3D 网格（mesh，由很多三角面拼成的物体外壳模型）。

Plate Nº IWave-Former — 场景示意：这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

毫米波感知不是新事物，但"穿透 + 重建完整 3D 形状"是个新组合：

mmWave 人体姿态/活动识别（如 RF-Pose、Person-in-WiFi）：穿墙看人，但只输出骨架关键点，不做物体形状
mmWave SLAM / 建图（如 milliMap、RF-SLAM）：建房间级别的稀疏地图，分辨率不够还原杯子级别的几何
NLOS（非视距）成像（如 nlos-mmwave）：能看到拐角后的物体，但通常只输出 2D 轮廓或低分辨率体素
视觉点云形状补全（如 PCN、3DShape2VecSet）：很成熟，但前提是输入点云来自 LiDAR/深度相机，遮挡场景下根本拿不到点
直接把毫米波点云丢给视觉补全网络：失败，因为毫米波点云的稀疏度、噪声分布、遮挡边缘畸变和 LiDAR 完全不是一回事

这篇论文的关键想法

两个洞察拼在一起：

毫米波回波不是"乱"，是有物理规律的乱：信号穿透遮挡时会发生折射、衰减、多路径反射，这些都能用电磁传播模型描述。如果让网络从零学这些畸变需要海量数据；但如果把物理模型当先验注入，网络只需要学"残差"——剩下没被物理模型解释清楚的部分
Transformer 形状补全在视觉里已经很强：把它的归纳偏置（attention + 大感受野）借过来，输入换成"经过物理先验校正的毫米波点云"，输出还是完整的 3D 形状

合起来：物理先验做信号清洗 → Transformer 做几何想象。这种"物理 + 学习"的混合架构是近几年 RF 领域的主流路线，Wave-Former 把它推到了"完整物体 mesh 重建"这个粒度。

Plate Nº IIWave-Former — 方法示意：核心 pipeline

它怎么做的（方法）— 3-4 段

第一步：原始信号 → 物理校正点云。 像隔着一层毛玻璃拍照，照片是糊的，但你知道毛玻璃怎么糊的，就能反推清晰图像。毫米波雷达发射 chirp（调频脉冲）信号，回波经过纸箱/布/木板时会因为材料的介电常数差异发生相位偏移和路径延长。Wave-Former 显式建模这些畸变（具体公式需读原文），把"被遮挡材料污染"的回波反算回"如果没有遮挡应该长啥样"的等效点云。这一步是论文标题里 "Wireless" 的关键——它不是把 RF 当成黑盒输入。

等等，先慢一拍 — 介电常数是啥？简单说就是材料对电磁波的"减速程度"：空气是 1，纸板大概 2-4，金属是无穷大（完全弹回去）。毫米波信号穿过纸箱时会被减速，路径就被拉长，看起来像物体往后挪了几厘米。Wave-Former 把这种"系统性偏差"提前算掉。

第二步：稀疏点云编码。 像只拍到正脸的人脸照片，背后什么样得猜。校正后的点云仍然很稀疏（毫米波分辨率比 LiDAR 低一个数量级），用 PointNet 类的编码器或者直接切成 patch 喂进 Transformer。和视觉点云补全的差异是：mmWave 点云只覆盖物体朝向雷达的"近表面"，背面、内凹结构完全是黑的。

第三步：Transformer 形状补全。 像考古学家拿着半块陶器碎片想象整个罐子的样子。Decoder 部分参考 PoinTr / 3DShape2VecSet 这类工作，用 cross-attention 让 query token 去"询问"输入点云的不同区域，逐步生成完整形状。输出形式可能是稠密点云、occupancy field 或者 SDF（具体哪种需读原文，从标题 "Shape Completion" 推测应该是高分辨率几何表示）。

第四步：训练数据合成。 像驾校用模拟器代替真车上路，数据便宜量大。真实"穿遮挡"的成对数据极难大规模采集（每个物体要做 RF 扫描 + 真值 mesh），论文大概率用电磁仿真（如 FDTD 或射线追踪）生成大规模合成 RF 数据，再用少量真实数据 fine-tune。这是 RF 学习类工作的标配套路。

实验在做什么

从摘要和标题推测主要实验维度（具体数字需读原文）：

物体种类：日常物体集合，可能覆盖杯、瓶、碗、盒等抓取常见类别
遮挡材料：至少要测纸箱、布帘，可能加木板、塑料板，对比不同介电常数下的重建质量
指标：Chamfer Distance、F-Score、IoU 这类标准 3D 重建指标；可能还会有下游任务指标，比如"重建出的 mesh 给抓取规划器用，成功率是多少"
消融：去掉物理先验 vs 保留；纯视觉补全网络在 mmWave 输入下的表现；不同 Transformer 容量
泛化：训练时见过的物体类别 vs 没见过的；训练时见过的遮挡材料 vs 没见过的

关键看点是"穿透不同材料的退化曲线"——如果纸箱很好但木板就崩了，说明物理先验的覆盖范围有限。

你应该懂的几个新词 — 4-6 个

mmWave（毫米波）：30-300 GHz 频段的电磁波，波长毫米级。能穿透很多非金属材料（纸、布、薄木、干墙），分辨率比 WiFi 高、比 LiDAR 低。商用雷达芯片（TI IWR 系列）便宜易得
Shape Completion（形状补全）：给一个不完整的 3D 输入（残缺点云、单视角深度图），预测完整的 3D 形状。视觉领域代表作 PCN、PoinTr
物理先验（Physical Prior）：把已知的物理规律（这里是电磁传播方程）显式写进模型结构或损失函数，让网络不用从零学这些规律。和"纯数据驱动"对立
介电常数（Dielectric Constant）：描述材料对电磁波"减速"程度的物理量。空气 ≈ 1，纸板 ≈ 2-4，金属 = ∞（完全反射）。决定了 mmWave 能不能穿、穿多少
NLOS（Non-Line-of-Sight，非视距）：物体不在传感器直视方向上。Wave-Former 是 NLOS 感知的一种特例（被前方遮挡，但还在前向）
chirp（调频脉冲）：mmWave FMCW 雷达的发射波形，频率随时间线性变化。回波和发射波混频后，频差直接对应距离

它和其他论文什么关系

向后看：

mmWave 感知谱系：rf-pose-through-wall（穿墙骨架）→ millimap（毫米波建图）→ nlos-mmwave（非视距）→ Wave-Former（穿遮挡完整物体重建）。粒度从"人体关键点"细化到"物体级 mesh"
3D 形状补全谱系：3dshape2vecset 这类视觉点云补全是直接技术祖先，Wave-Former 把输入模态换成 RF
物理 + 学习混合架构：和 acoustic-swarms（声学先验 + 学习）、neuralaids（助听器物理 + 神经网络）思路同源

向前看：

抓取/操作策略要落地穿遮挡场景，必须有这种感知能力 —— 可以接 diffusion-policy、rt-1 这类 manipulation 工作的上游
多模态融合：mmWave + RGB + 触觉（touch-vision-cross-modal）做完整感知栈

我建议这样读 — 3-4 步

先扫摘要 + intro 的 figure 1：看清楚它的输入（什么样的雷达、什么样的遮挡）、输出（点云？mesh？SDF？）、和已有工作的差异图
跳到 method 的物理建模部分：这是和纯视觉补全工作的关键差异，搞清楚它把哪些物理量当先验、用什么方式注入网络（loss？feature？输入预处理？）
看实验里的失败案例 / 退化曲线：看不同遮挡材料、不同物体类别下哪里崩了，这告诉你方法的真实边界
可选：对照读 nlos-mmwave 和 3dshape2vecset：一个是 RF 侧的最近邻工作，一个是形状补全侧的技术祖先，能看出 Wave-Former 的两条血脉怎么交汇

为什么值得读

方向稀缺：能穿透遮挡做物体级别 3D 重建的工作不多，这是机器人在"现实世界乱糟糟柜子里翻东西"的关键拼图
架构范式好：物理先验 + Transformer 学习的混合套路，在很多传感器模态（声、RF、IMU）都能复用，读完一篇能理解一类
离落地不远：商用 mmWave 芯片便宜，硬件门槛低；如果重建质量真的够用，仓储/家用机器人能直接受益
embodied AI 拼图位：感知 → 决策 → 行动的链条上，"看不见的东西"长期是盲区。Wave-Former 这类工作把这个盲区往前推了一截

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_wave_former_2026,
  title       = {(readable note) Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/wave-former/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)