RF Perception & Mapping · Plate Nº 88

milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion

6 min read · 2179 字 · ⭐⭐⭐ · 短摘要

#transformer #vision #RF-radar #navigation

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

把便宜的毫米波雷达和身上的"动作感应器"（IMU）用神经网络拼起来，让机器在黑暗、烟雾里也能算出自己走到了哪。

这是个什么场景

晚上停电，你拿手机回卧室，想知道自己走了几步、有没有转弯。

平时机器人靠这几样"感官"回答这种问题，但每样都有死穴：

摄像头 = 睁眼看：灯一灭就抓瞎
激光雷达 = 拿手电摸黑：碰上玻璃、烟雾就穿帮，而且贵
毫米波雷达 = 像蝙蝠喊一声听回声：烟、黑、下雨都不怕，但听回来的"回声图"很糊、很稀，像隔着雾看东西
IMU（惯性测量单元，就是手机里那个能感觉你转手腕、走路晃动的小芯片）= 内耳：能立刻感到加速和转头，但走久了会"晕头"，越走越偏

milliEgo 要解决的就是：消防员冲进着火的房子、机器人钻进漆黑的地下室、扫地机撞上一面落地镜——这些"看不见"的场合，怎么让设备还能可靠说出自己在动什么轨迹。它的办法是把"糊但抗造"的雷达和"灵但会漂"的 IMU 用神经网络捏在一起，让两个瘸子互相搀着走。

之前的人怎么做的 — 3-5 bullet

VIO（Visual-Inertial Odometry）：摄像头 + IMU，是过去十年里手机 AR、无人机的主流方案；但黑暗/烟雾/低纹理直接报废
LIO（LiDAR-Inertial Odometry）：激光雷达 + IMU，精度高，但激光雷达贵、对玻璃和烟雾敏感
传统毫米波 SLAM：基于点云配准（ICP 类）做 scan matching，问题是单芯片雷达的点云太稀疏、噪声大，几何方法配不准
早期 RF + IMU 的融合：多用卡尔曼滤波，对噪声分布有强假设，雷达噪声不规则时容易发散
纯学习里程计：DeepVO 这类把 CNN+RNN 堆起来回归位姿，验证了"深度网络可以学里程计"，但用在毫米波上还没有成熟方案

这篇论文的关键想法

核心是两个判断：

单芯片毫米波雷达便宜、抗恶劣环境，但物理上难用 — 与其在几何上死磕稀疏点云，不如让神经网络直接从原始/低层雷达表示里学出运动特征
雷达和 IMU 是"慢且糊"vs"快且漂"的互补对 — 雷达每帧给一团粗糙但绝对的几何线索，IMU 高频给加速度和角速度。让网络自己学一个跨模态注意力（cross-modal attention），动态决定哪一帧该信谁，比手工权重更鲁棒

一句话总结关键想法：用深度融合替代卡尔曼，用学习替代点云配准，把单芯片雷达从"凑合用"提到"主力传感器"。

它怎么做的（方法）— 3-4 段

输入与表征——好比厨师拿到的食材。雷达这边端上来的是单芯片 mmWave（典型如 TI IWR1443 这类，具体型号需读原文）输出的"距离-速度"或"距离-方位"热力图，可以理解成一张"哪个方向多远有东西"的模糊照片；IMU 这边则是高频送来的三轴加速度 + 三轴角速度，像每秒上百次的"我现在转了多快、晃了多少"。两路按时间戳对齐，送进各自的特征编码器。

双流编码 + 跨模态融合——好比两个翻译官凑一起翻同一句话。雷达流走 CNN 类编码（CNN 即卷积神经网络，擅长在图上找空间结构），IMU 流走小型 RNN/MLP 处理时序信号。

等等，先慢一拍 — 跨模态注意力（cross-modal attention）是什么？想成一个"音量调节器"：每一帧都问"这一刻雷达说的话靠谱，还是 IMU 说的话靠谱？"，然后给两边打个权重。雷达回声糊得没法看时（比如对着空房间），多信 IMU；IMU 走久飘了时，多信雷达的绝对几何线索。

论文用的就是这种带注意力的"复合掩码"机制（compositional / cross-modal attention）。这是它和"早期直接把两路特征拼一起"做法最大的区别——权重是模型自己学出来的，不是人手工调的。

位姿回归——好比把一帧帧"我刚才走了多少"加起来变成完整轨迹。融合后的特征送进时序网络（LSTM 类），逐帧回归 6 自由度的相对位姿（Δt 平移 + Δrotation 旋转），累积起来就是一条轨迹。损失是位姿回归损失（位置 + 朝向，朝向通常用四元数或李代数表示），具体形式需读原文。

端到端训练——好比抄作业时连题目带答案一起背。整套网络在带真值轨迹（动捕或高精度 SLAM 提供 ground truth）的数据集上端到端训练。训练完，推理时只需要雷达 + IMU 两路输入，再也不用视觉。

实验在做什么

主要回答三件事：

基线对比：和纯 VIO（如 VINS-Mono）、纯 IMU 积分、传统雷达里程计、以及消融掉注意力的版本比，看轨迹漂移（ATE / RTE 等指标，具体数字需读原文）
恶劣环境鲁棒性：在烟雾、黑暗、镜面墙面、低纹理走廊这些视觉会崩的场景下，验证 milliEgo 还能跑
消融：拆掉跨模态注意力 / 拆掉 IMU / 换成简单拼接，证明融合方式本身有贡献

数据集通常是作者自采的小车 / 手持设备数据，配高精度动捕或 LiDAR-SLAM 真值，覆盖室内多场景。具体里程长度、采集设备、误差数字需读原文。

你应该懂的几个新词 — 4-6 个

Egomotion estimation（自我运动估计）：设备估计自己怎么动了，输出是相对位姿序列；和 SLAM 的区别是不一定建图
mmWave radar（毫米波雷达）：波长毫米级（如 77 GHz）的雷达，分辨率比传统雷达高，单芯片版（FMCW 调频连续波）便宜小巧
IMU：惯性测量单元，三轴加速度计 + 三轴陀螺仪，高频但有偏置漂移
Sensor fusion（传感器融合）：多路传感器数据合成更可靠的估计；传统是卡尔曼 / 因子图，这里是神经网络
Cross-modal attention：跨模态注意力，让模型在两种不同模态特征之间学会"该听谁的"动态权重
6-DoF pose：6 自由度位姿 = 3D 平移 + 3D 旋转，是里程计的标准输出

它和其他论文什么关系

上游：DeepVO（端到端学习视觉里程计）、VINS-Mono（视觉 + IMU 紧耦合）— milliEgo 把"端到端学里程计"这条路从视觉换到了毫米波
同代 RF 系：RF-SLAM、毫米波建图工作（millimap 等）— 它们更偏建图，milliEgo 偏里程计；但点云稀疏 / 噪声大的痛点是共通的
下游/影响：之后做毫米波 + 视觉 / 毫米波 + LiDAR 三模态融合的工作经常拿它当 RF-only 基线
相邻领域：穿墙感知（rf-pose-through-wall）也用毫米波，但目标不同（关注人体姿态而非自我运动）

我建议这样读 — 3-4 步

先扫摘要 + 图 1 + 实验表头：搞清楚输入是什么、输出是什么、和谁比、赢在哪类场景
重点啃方法的融合层：跨模态注意力具体怎么算（query/key/value 哪来）、是逐帧还是逐特征通道做权重
看消融：把注意力换成 concat 后掉了多少，是判断"融合方式是否真的关键"的最直接证据
（可选）对照一篇 VIO 比如 VINS-Mono：理解传统紧耦合的因子图思路，再回头看 milliEgo 用网络做的"软融合"差在哪

为什么值得读

它是把单芯片毫米波雷达从"几何方法做不动"推到"深度学习能用"的代表作之一，对 RF + 学习这条路线是奠基性的
跨模态注意力 + IMU 互补的设计模式可以迁移到任何"一个模态噪声大、一个模态漂移"的场景，比如 RF + 视觉、RF + 触觉
对具身智能（embodied AI）有实操意义：机器人进入烟雾、地下、夜间环境时，这是少数还能给出可靠 6-DoF 位姿的方案
SenSys 2020 的工作放到今天看，硬件成本进一步降低、网络结构可以替换成 Transformer，思路仍然成立 — 是一个"读完能想到怎么改进"的好起点

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_milliego_2026,
  title       = {(readable note) milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2020 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/milliego/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)