回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
RF Perception & Mapping · Plate Nº 86

Can WiFi Estimate Person Pose?

18 min read · 6303 字 · ⭐⭐⭐ · auto 摘要

这是一份给"完全没接触过 AI / 通信"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。

一句话讲什么(TL;DR)

想象你家路由器除了上网,还能告诉你"屋里那个人正在做啥姿势"——胳膊抬到哪、腿怎么弯,全画给你看。

所以这一节是想说:这篇论文证明 WiFi 信号不只是用来上网的,它本身就是一种"低分辨率的摄像头"。


这是个什么场景

想象一个独居的老人半夜起床上厕所,万一摔倒了没人知道。你想装个摄像头看看,但老人不愿意——谁愿意自己卧室 24 小时被拍?这是个真实的两难:你想知道屋里人现在是什么姿势(站着、坐着、还是已经躺地上了),但又不能用摄像头。

这篇论文的脑洞是:家里那台路由器就是现成的"姿势探测器"

物理基础其实很朴素,可以拿"池塘扔石头"打比方:

  • WiFi 信号是无线电波,路由器每秒往家里灌几亿个看不见的"波纹"。
  • 这些波碰到墙、桌子、人体都会反射、绕行、变形——就像池塘里有人站着 vs 坐着,水面波纹会长得不一样。
  • 一个站着的人和一个弯腰的人,搞出来的"波纹形状"是不同的。
  • 只要让 AI 学会"看波纹猜姿势",WiFi 就变成一台不需要摄像头的姿势探测器。

为什么这件事值得做?

  • 摄像头有死角:暗的地方、墙后面、有烟雾的房间都看不清。WiFi 不在乎这些。
  • 摄像头有隐私问题:你不会愿意卫生间或卧室里装个镜头。WiFi 输出的只是 18 个关节点位置,看不出长相和衣服。
  • WiFi 设备已经遍地都是:路由器、手机、智能音箱、IoT 灯泡,全都带 WiFi 芯片。再加一个用途,几乎不花成本。
WiFi 估姿 vs 摄像头估姿对比
Plate Nº IWiFi 估姿 vs 摄像头估姿对比

所以这一节是想说:WiFi 当摄像头听起来玄学,但物理基础和应用场景都很扎实,关键是要让 AI 学会"看波"。


Can WiFi Estimate Person Pose? — 场景示意:这论文要解决的现实问题
Plate Nº IICan WiFi Estimate Person Pose? — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

WiFi 用来"感知人"已经有好几年历史,但都停在比较粗的层面:

  • WiFi 室内定位:能告诉你"客厅里有人"或"距离路由器 3.2 米",但不知道这人现在是站着还是躺着。粒度太粗。
  • WiFi 动作分类:把信号丢给 AI,让它在"走路 / 跑步 / 跌倒 / 挥手"几个固定动作里选一个。这是分类题,不是画出姿势。等于只会回答选择题,不会画图。
  • 专用雷达(RF-Pose、RF-Capture):MIT 同期工作。能画出人体姿势,但用的是频率扫频雷达 FMCW——那是科研专用设备,几千上万美元一台,普通家庭买不起。
  • 特殊穿戴或环境改造:墙壁里嵌电极(Wall++)、天花板装 LED + 地面铺光敏片(LiSense)。这些都需要把房间改造一遍,安装成本极高。

这些方案要么"看不细",要么"贵到爆",要么"装不下"。论文要回答的核心问题是:用一对几十块钱的商用 WiFi 卡,能不能干雷达和摄像头干的活?

所以这一节是想说:现有方案要么太粗、要么太贵,从没人尝试用最便宜的商品 WiFi 直接估出 18 个关节点。


这篇论文的新想法

类比一句:就像让一个盲人徒弟跟着一位明眼师傅学相面——师傅每看一眼就告诉徒弟"这人现在弯腰举手",徒弟只能摸到房间里的"风"(WiFi 波),但摸久了也能光凭风的变化猜出对方的姿势。

技术上一句话:搭一对 3 天线发射 + 3 天线接收的普通 WiFi,配一个摄像头当"师傅",让神经网络学会从 WiFi 信号直接画出 18 个人体关节点。

关键创举有两个:

  1. 用摄像头给 WiFi 当"标签机"——摄像头看一帧,自动产出"这一刻人的姿势",当 WiFi 信号的标准答案。不用任何人工去标。
  2. 不直接预测 18 个 (x, y) 坐标,而是预测一个叫"姿态邻接矩阵 PAM"的奇怪形状——后面会讲为什么这样训练效果更好(一句话剧透:为了让网络不画出"脖子比头粗"那种比例失调的人)。

所以这一节是想说:核心思路是让摄像头当老师、WiFi 当学生,再加一个聪明的训练目标让 WiFi 学得动。


它分几步做的(方法)

整篇论文做了 4 件事:搭硬件 + 设计标签 + 设计网络 + 训练。

1. 搭一套"WiFi + 摄像头"双胞胎采集系统

类比

教小孩认动物。你拿出一张照片说"这是猫",小孩看到照片同时听到"猫"。看够了几千张,他下次只听到"猫"也能在脑子里浮现出猫的样子。

这里"照片"=人体姿势,"声音"=WiFi 信号。摄像头负责给出姿势,WiFi 负责听信号。两边必须同步——不然学生看到信号就不知道对应哪个动作了。

它在干什么

  • 一对 WiFi 设备:一个 3 天线发射器(sender)+ 一个 3 天线接收器(receiver)。两端都是普通商用网卡。
  • 一个摄像头:跟 WiFi 摆一起,对准同一个房间。
  • 时间同步:用 Unix 时间戳给两边数据打标签,确保"这一帧画面"和"这一段 WiFi 信号"是同一时刻的。
  • 采样率:WiFi 100 Hz(每秒 100 段数据),摄像头 20 Hz(每秒 20 帧)。所以 1 帧画面 = 5 段 WiFi。

CSI(Channel State Information,信道状态信息):WiFi 收发两端"中间发生了什么"的物理层指标。每段 CSI 都是一个 30×3×3 的数字方阵——30 是子载波数(WiFi 用 30 个不同频率的小载波同时传),两个 3 是发射端和接收端的天线数。

OFDM(正交频分复用):WiFi 把一个频道切成几十个细窄的子信道,每个子信道独立传一点数据。好处是某个子信道被干扰了,其他还能用。CSI 就是给每个子信道单独打个分。

为什么这步有用

  • 之前没人有"WiFi+姿势"配对数据集——这一步亲手造了 80,000+ 张图的样本,让监督学习成为可能。
  • 摄像头和 WiFi 严格对齐时间戳,让后面的"老师教学生"成立。
  • 用普通设备意味着别人也能复现,不像 MIT 用专用雷达没人能跟。

所以这一节是想说:第一件事是搭好"摄像头当老师、WiFi 当学生"的双胞胎采集装置,并保证两边数据严格对齐时间。


2. 让 AlphaPose 当老师,自动给每帧画姿势

类比

你想教外国朋友学中文写字。但你不会教学,怎么办?请一位中文老师来——老师每天写一个字给你朋友照着练。这位老师不需要懂英文,只要能写出标准答案就行。

这里"中文老师"=AlphaPose,"朋友"=WiSPPN(学生网络),"练字"=学 WiFi → 姿势。

它在干什么

  • 每帧画面交给 AlphaPose,AlphaPose 输出 18 个关节点:(x, y, c)——x 和 y 是坐标,c 是置信度(这个点有多准)。
  • 18 个点按 COCO 标准编号:鼻子、脖子、左右肩、左右肘、左右腕、左右胯、左右膝、左右踝、左右眼、左右耳。
  • 这 18 个点就是"这一刻人的姿势"——它就是 WiFi 学生要去拟合的"标准答案"。

AlphaPose:上海交大 + 港中文做的开源人体关键点检测器。两步走:先 YOLOv3 框出人,再回归每个关节的位置。是 2018-2019 年最强开源选手之一。

关键点(keypoint):人体上预先定义的若干特征点。论文用 COCO 18 点配置——比 17 点版多了一个"脖子"。

置信度(confidence):模型对自己这个判断有多自信。0=完全瞎猜,1=非常确定。

为什么这步有用

  • 不用任何人工标注。一张图 24 美分都不用,AlphaPose 几毫秒搞定。80,000 张图标完只要几小时。
  • 老师质量比人手标更稳定——人会累、会马虎,AlphaPose 不会。
  • 这种"用一个成熟模型给新模型当老师"的套路叫知识蒸馏师生学习,后来在很多领域都流行起来。

所以这一节是想说:用现成的 AlphaPose 自动批量生产姿势标签,零人工成本造出 80K 训练样本。


3. 不预测坐标,而预测"姿态邻接矩阵 PAM"

这是论文最聪明的一步。

类比

让一个画家凭空画"一个站着的人"。两种教法:

  • 教法 A:直接给他 18 个点的坐标——"鼻子在 (320, 100),脖子在 (320, 130)……"。画家照着标点,但点和点之间没有约束,画出来的人可能脖子比头还粗、胳膊比腿还长——比例失调。
  • 教法 B:除了告诉他每个点的坐标,还告诉他"鼻子到脖子距离 30 厘米,方向朝下"、"肩膀到肘部距离 40 厘米"……每对点之间的相对位置都告诉他。这样画家很难画错——身体比例自动就对了。

PAM 就是教法 B 的数学版本。

它在干什么

  • 把 18 个关键点想成一张图(graph)的 18 个节点。任意两个节点之间都连一条线(完全图)。
  • 构造一个 3×18×18 的三维矩阵:
    • 第一层 x':对角线写每个点的 x 坐标,对角线之外的格子 (i,j) 写"第 i 点的 x 减第 j 点的 x"——也就是两点的水平位移。
    • 第二层 y':同理,记录纵向坐标和位移。
    • 第三层 c':对角线写置信度,对角线之外写两点置信度的乘积。
  • 网络去拟合这个 3×18×18 矩阵,而不是 18×2 的坐标列表。

邻接矩阵(adjacency matrix):图论里描述"哪些节点相连"的标准工具。一行一列对应一个节点。这里把"相连"改成"两点之间的差值",所以叫姿态邻接矩阵

完全图(directed complete graph):任意两个节点之间都有一条有向边的图。这里 18 个关节点两两有连接,所以矩阵是稠密的。

关键公式翻译成人话

原文写:

x'_{i,j} = x_i - x_j  (i ≠ j)
x'_{i,i} = x_i

人话:"对角线放每个点自己的 x 坐标,其他格子放两点 x 的差"。y' 一样的逻辑。c' 也类似,但"差"换成"乘积"。

为什么这步有用

  • 直接预测坐标的网络容易"坐标飘"——预测出来的点位置可以正确,但身体比例乱掉。PAM 把"两点之间应该差多少"变成网络必须满足的约束,等于免费给网络加了个"骨架长度正则化"。
  • 比如鼻子到脖子的位移在 y 方向几乎总是负的(脖子在鼻子下方)——网络学过几千个例子后会把这个规律刻进去,不会画出"头朝下"的人。
  • 实验证明这套表示法的泛化能力比直接回归坐标好很多。
WiSPPN 系统框架图
Plate Nº IIIWiSPPN 系统框架图

所以这一节是想说:把姿势编码成"每对关节的相对位移矩阵",等于给网络免费加了一道"身体比例必须对"的约束。


4. WiSPPN 网络结构:编码器 + 特征提取器 + 解码器

类比

把一段广播录音变成歌词字幕,需要三步:先把声音波形数字化(编码器)、再听出旋律和节奏(特征提取器)、最后写成文字(解码器)。WiSPPN 就这三段流水线。

它在干什么

输入:5 段 CSI(每段 30×3×3)拼起来 = 150×3×3 的小数据块。

(a) 编码器:把这个 150×3×3 的"小邮票"撑大成 150×144×144 的"大画面"。用的是双线性插值——一种把图像"软放大"的标准操作。论文之前的 CSI-Net 用 8 层转置卷积放大,慢很多;这里用一行 bilinear 直接搞定。

双线性插值(bilinear interpolation):把小图放大到大图时,新像素的颜色由周围 4 个旧像素加权平均出来。所有手机相册的"图片放大"功能本质都是它。

转置卷积(transposed convolution):神经网络里"反向卷积"的操作,可以把小特征图放大到大特征图。比插值更灵活但也更费算力。

(b) 特征提取器:4 个 ResNet 残差块串起来,共 16 层卷积。把 150×144×144 一路压缩到 300×18×18 的特征。

ResNet(残差网络):何恺明 2015 年的工作。每一层不仅看上一层的输出,还加上前面层的原始输入——叫"短路连接"。这样就算网络很深也不会"梯度消失"(一种深网络无法训练的常见病)。

卷积(convolution):神经网络里识别图形的基本操作。把一个小窗口(比如 3×3)在图上滑动,每次输出一个数字。多个卷积核能识别出不同的局部模式。

(c) 解码器:两层 1×1 卷积,把 300 通道压到 36 通道再压到 2 通道,输出形状 2×18×18 的预测 PAM(只预测 x 和 y,不预测 c)。

损失函数

L = c' ⋅ (||pPAM_x - PAM_x||² + ||pPAM_y - PAM_y||²)

人话:预测姿态矩阵和老师姿态矩阵的差距,按"老师有多自信"加权后求和。老师不太确定的点(比如被遮挡的脚踝),错了也只扣一点点;老师很确定的点(比如清晰可见的鼻子),错了狠狠扣分。

为什么这步有用

  • 整个网络只占很小的算力,但用了三大成熟组件(CSI-Net 的 encoder 思路、ResNet 的提取器、FCN 的密集预测)。属于"站在巨人肩膀上"的稳健做法。
  • 损失加权让网络更关注高置信度的关节点,避免被老师自己都拿不准的标签带跑偏。

所以这一节是想说:网络结构本身没什么花哨——靠的是 PAM 这个监督信号 + 师生训练范式。


Can WiFi Estimate Person Pose? — 方法示意:核心 pipeline
Plate Nº IVCan WiFi Estimate Person Pose? — 方法示意:核心 pipeline

关键数字(What works)

数字本身不重要,重要的是它们告诉你这套方案到底能用还是只是噱头。

数字 1:训练数据 79,496 张,测试 19,931 张

  • 怎么算的:8 位志愿者在 2 个房间 16 个布点位置做日常动作。每人前 80% 数据训练、后 20% 测试。
  • 对比:同期 RF-Pose 用了 100 多小时数据,差不多 50 万帧;这里只有 8 万。
  • 生活语言:用普通商用 WiFi 也能在一个学校实验室级别的场地里搞出可用数据集。门槛远比想象低。

数字 2:PCK@50 平均 0.82

  • 怎么算的:PCK@50 表示预测点和真实点距离小于"上半身长度的 50%"就算对。82% 的关节点能落在这个范围内。
  • 对比:纯随机猜测 < 5%;摄像头方法(AlphaPose)几乎 100%。
  • 生活语言:松一点的标准下,绝大部分关节都能"大致放对位置"。已经够用来判断"站还是坐"、"举手还是叉腰"这种粗动作。

数字 3:PCK@10 平均 0.14

  • 怎么算的:把"算对"的标准收紧到 10%——基本上要预测点几乎压在真实点上。
  • 对比:摄像头方法 PCK@10 通常在 0.6-0.8。
  • 生活语言:要让 WiFi 像摄像头那样精确到厘米级还差远了。它能告诉你"胳膊大概在哪一块",但不能告诉你"指尖具体哪个像素"。

数字 4:脖子(Neck)PCK@50 = 0.88,最准

  • 怎么算的:18 个关节点单独评。脖子是最准的之一。
  • 对比:左右脚踝(L. Ankle / R. Ankle)只有 0.71-0.73,最差。
  • 生活语言:身体中轴线上的关节(脖子、肩、胯)容易估对,远端的小关节(手腕、脚踝)最难——因为它们对 WiFi 信号的影响小,且容易被身体遮住。

数字 5:训练 20 epoch,初始学习率 0.001,batch size 32,Adam 优化器

  • 怎么算的:Pytorch 1.0 实现。学习率每 5 个 epoch 衰减一半。
  • 生活语言:单卡几小时就能复现完整流程。整套方案对硬件友好。

数字 6:CSI 张量大小 30×3×3,再堆 5 段 = 150×3×3

  • 怎么算的:30 子载波 × 3 发送天线 × 3 接收天线 × 5 段(同步 1 帧画面)。
  • 生活语言:每帧画面对应的 WiFi 数据只有 1350 个浮点数——比一张 224×224 RGB 图(15 万浮点数)小 100 倍。但靠 PAM 监督和 ResNet 强力提取,照样把姿势抠出来。

所以这一节是想说:松标准下能用,紧标准下还差摄像头一大截;这是 WiFi 估姿的现实档位。


你应该懂的几个新词

CSI(Channel State Information):WiFi 信号在收发途中"被环境揉搓的痕迹"。一段 CSI = 一个 30×3×3 的小数字方阵。是这篇论文唯一的输入信号。

OFDM(正交频分复用):WiFi 把一段频带切成几十个子载波同时传。CSI 就是给每个子载波单独记一个值。

天线(antenna):发射 / 接收无线电波的硬件。多天线意味着可以从不同位置感知信号——本论文用 3 发 3 收。

关键点 / 关节点(keypoint / joint):人体上预先定义的特征点(鼻子、肩、肘等)。COCO 标准 18 点。

姿态估计(pose estimation):从输入信号中预测每个关节点的位置。摄像头版已经做到很好,本文是 WiFi 版的早期尝试。

PCK(Percentage of Correct Keypoints):评估姿态估计准确率的标准指标。"@50" 表示允许误差不超过参考长度的 50%。

完全图(complete graph):图论里任意两点之间都有连线的图。本文把 18 个关节点之间两两连,得到 18×18 的稠密邻接矩阵。

邻接矩阵(adjacency matrix):图论里描述节点关系的标准矩阵。本文把"两点是否连"改写成"两点的位移",得到 PAM。

师生学习 / 知识蒸馏(teacher-student / knowledge distillation):用一个已训练好的"老师"模型给"学生"模型生成训练标签的范式。本文老师是 AlphaPose,学生是 WiSPPN。

ResNet(残差网络):通过"短路连接"让深层网络也能稳定训练的经典架构。本文用 4 个残差块当特征提取器。

FCN(Fully Convolutional Network,全卷积网络):从输入到输出全用卷积、不带全连接层的网络结构。WiSPPN 是 FCN。

双线性插值(bilinear interpolation):把小图按邻近 4 个像素加权平均放大成大图的标准操作。这里用来把 CSI 输入撑大到 144×144。

所以这一节是想说:上面这十几个词在 RF + 视觉交叉领域反复出现,先把它们和日常类比挂起来。


它有什么搞不定的

论文老老实实把短板写在台面上:

  • 只能估单人:场景里多于一个人,3 天线 WiFi 信号叠加在一起没法分开。要做多人版本得换硬件或换方法。
  • 环境依赖严重:训练在 A 房间收的数据,测试时换到 C 房间(家具、墙体材质都不一样),效果会明显下降。论文也只在 2 个房间做了实验,跨场景泛化能力没有验证
  • 精度档次远低于摄像头:PCK@10 只有 0.14,意味着大多数关节点定位误差在身体长度的 10% 以上。要做精细动作识别(比如手语翻译)还差得远。

所以这一节是想说:单人 / 同环境 / 粗精度——三道天花板让这套方案目前只能当 demo,离日常产品还差好几步。


它和别的论文是什么关系

  • RF-Pose(MIT, 2018):路线一样(RF 信号 → 姿势),但 RF-Pose 用的是 FMCW 雷达,造价 $10K+;本文用的是 $30 的商用 WiFi 卡。RF-Pose 证明可行性,本文证明可负担
  • mmMesh / millimap 这类毫米波雷达工作:都属于"用电磁波感知人"。毫米波频率更高,分辨率更细,更接近摄像头水平;WiFi 频段低,分辨率更粗,但设备已经在每家每户了。两条路线互补——前者面向商业 sensor,后者面向 IoT 普及。
  • LLaVA 这类 VLM:你可能觉得它们风马牛不相及。但有一个共同点——都用了"老师模型自动出标签"的套路。LLaVA 是 GPT-4 出题,本文是 AlphaPose 出题。这种"用现成大模型给新模型当老师"的范式从这里就开始萌芽。
  • 在"具身 AI 感知层"里的位置:摄像头之外,RF 是第二条潜力线——能穿墙、不怕暗、不怕烟、不暴露隐私。本文是 RF-vision 这条线的开荒作之一。

所以这一节是想说:这篇是 RF + 视觉交叉路线"低成本版"的开端,和 RF-Pose(贵路线)和后续 mmWave 工作(高分辨率路线)三足鼎立。


我建议这样读这篇

零基础读者按这个顺序走:

  1. 先看 Figure 1(5 分钟):左边是摄像头估的姿势,右边是 WiFi 估的——直观感受这件事能成。
  2. 跳到 Section 3.1 看 CSI 是什么(10 分钟):理解"30 个子载波 × 3 发 × 3 收 = CSI 张量"。这是输入到底是什么的问题。
  3. 重点读 Section 4.2 的 PAM(15 分钟):这是论文最有创意的一步。搞清楚为什么不直接预测 (x, y) 而要绕一道邻接矩阵。
  4. 快速扫 Figure 5 的网络结构(5 分钟):知道"输入 150×3×3 → 撑大到 144×144 → ResNet 提取 → 输出 2×18×18"就够。
  5. 看 Section 5 的实验(10 分钟):重点看 PCK 表,注意松标准(PCK@50)和紧标准(PCK@10)的差距。
  6. 跳过参考文献和其他细节(除非要复现)。

读完上面 6 步大约 40-50 分钟,已经能复述这篇论文的核心思路。

所以这一节是想说:方法部分聚焦 PAM 一个章节,其余细节扫读,1 小时内可以拿下这篇。


一些好奇心问答

Q1:WiFi 真的能"看穿墙"吗?

理论上可以——WiFi 频段穿透力比可见光强。但论文实验都在同一房间内做,没有专门测穿墙场景。同期 MIT 的 RF-Pose 做了穿墙演示,效果不错。WiFi 频段稍弱,但应该也能做,需要后续工作验证。

Q2:3 发 3 收的天线我哪里搞?

商用 WiFi 网卡(比如 Intel 5300、Atheros AR9580)就支持。需要配合 Halperin 2011 工具 抓 CSI。整套硬件几百人民币能搭起来。

Q3:摄像头当老师,那训练时还是要摄像头啊?

对,训练时需要。但部署时只要 WiFi 就够了。这是师生学习的核心好处——把摄像头的能力"蒸馏"进 WiFi 模型,部署时只留 WiFi。

Q4:这套系统会泄露隐私吗?

比摄像头好很多——它输出的是 18 个关节点坐标,看不出你长什么样、穿什么衣服。但理论上你可以通过姿势识人(步态分析)。隐私是相对的,不是绝对的。

Q5:为什么不直接用 (x, y) 坐标当训练目标?

论文说过:直接回归坐标会丢失"身体比例约束"。PAM 把"鼻子到脖子距离 30cm 朝下"这种结构信息塞进监督信号,等于免费给网络加了正则化。消融实验没明确写,但作者强调了 PAM 比直接回归泛化能力更好。

Q6:80K 张图够吗?

对单人粗姿势够。但要做多人 / 跨房间 / 复杂动作,肯定不够。WiFi 数据集到 2024 年才开始有几十万到上百万规模的开源版本(MMFi、WiPose 等)。

Q7:8 个志愿者会不会过拟合?

会。论文按"每人前 80% 训练、后 20% 测试"——这是人内泛化测试,不是人间泛化。换一个新人来,效果可能掉很多。

Q8:这篇被引用最多的后续工作是什么?

后续有 Person-in-WiFi 自家的扩展(多人版、3D 版)、加州大学的 WiPose、清华的 GoPose 等。MMFi 是 2023 年最大的多模态人体感知数据集,是这条线的"集大成者"。

所以这一节是想说:实操(设备、隐私、数据量)和方法(坐标 vs 矩阵)的常见疑问,作者大都想过;只是没把所有 ablation 都做完。


如果你想再深入

按"前传 → 同期对手 → 续作 → 衍生方向"四类排序:

  1. 前传:CSI-Net(2018,同一作者) — 用 CSI 做人体身份识别 + 动作分类。本文的 encoder 思路就是从 CSI-Net 借的,先读它能理解 WiFi → 视觉这条路怎么起步。
  2. 同期对手:RF-Pose(MIT, 2018) — 用 FMCW 雷达做穿墙姿势估计,效果比本文好但设备贵 100 倍。两篇配着读,能看清"贵且强 vs 便宜且粗"的取舍。
  3. 续作:Person-in-WiFi 3D / MMFi 数据集(2022-2023) — 把单人 2D 扩展到多人 3D,数据集规模拉到几十万级别。是这条线进入"实用"阶段的标志。
  4. 同方向:millimap / mmMesh — 用毫米波雷达(mmWave)做更细粒度的人体感知。频率更高、分辨率更细,介于 WiFi 和摄像头之间。
  5. 范式延伸:知识蒸馏 / 跨模态师生学习 — 本文 AlphaPose → WiSPPN 是一个早期例子。后续 RF-Action、RF-Identity、Wi-Vi 等大量工作都用这套范式。

所以这一节是想说:这篇是 RF-vision 路线的低成本起点;想看进展就跟 MMFi 数据集和毫米波路线,想看根源就回 CSI-Net 和 RF-Pose。

引用本笔记 / Cite this note
BibTeX
@online{eai_person_in_wifi_2026,
  title       = {(readable note) Can WiFi Estimate Person Pose?},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2019 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/person-in-wifi/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim