Can WiFi Estimate Person Pose?
这是一份给"完全没接触过 AI / 通信"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。
一句话讲什么(TL;DR)
想象你家路由器除了上网,还能告诉你"屋里那个人正在做啥姿势"——胳膊抬到哪、腿怎么弯,全画给你看。
所以这一节是想说:这篇论文证明 WiFi 信号不只是用来上网的,它本身就是一种"低分辨率的摄像头"。
这是个什么场景
想象一个独居的老人半夜起床上厕所,万一摔倒了没人知道。你想装个摄像头看看,但老人不愿意——谁愿意自己卧室 24 小时被拍?这是个真实的两难:你想知道屋里人现在是什么姿势(站着、坐着、还是已经躺地上了),但又不能用摄像头。
这篇论文的脑洞是:家里那台路由器就是现成的"姿势探测器"。
物理基础其实很朴素,可以拿"池塘扔石头"打比方:
- WiFi 信号是无线电波,路由器每秒往家里灌几亿个看不见的"波纹"。
- 这些波碰到墙、桌子、人体都会反射、绕行、变形——就像池塘里有人站着 vs 坐着,水面波纹会长得不一样。
- 一个站着的人和一个弯腰的人,搞出来的"波纹形状"是不同的。
- 只要让 AI 学会"看波纹猜姿势",WiFi 就变成一台不需要摄像头的姿势探测器。
为什么这件事值得做?
- 摄像头有死角:暗的地方、墙后面、有烟雾的房间都看不清。WiFi 不在乎这些。
- 摄像头有隐私问题:你不会愿意卫生间或卧室里装个镜头。WiFi 输出的只是 18 个关节点位置,看不出长相和衣服。
- WiFi 设备已经遍地都是:路由器、手机、智能音箱、IoT 灯泡,全都带 WiFi 芯片。再加一个用途,几乎不花成本。

所以这一节是想说:WiFi 当摄像头听起来玄学,但物理基础和应用场景都很扎实,关键是要让 AI 学会"看波"。

之前的人怎么做的,为什么不够好
WiFi 用来"感知人"已经有好几年历史,但都停在比较粗的层面:
- WiFi 室内定位:能告诉你"客厅里有人"或"距离路由器 3.2 米",但不知道这人现在是站着还是躺着。粒度太粗。
- WiFi 动作分类:把信号丢给 AI,让它在"走路 / 跑步 / 跌倒 / 挥手"几个固定动作里选一个。这是分类题,不是画出姿势。等于只会回答选择题,不会画图。
- 专用雷达(RF-Pose、RF-Capture):MIT 同期工作。能画出人体姿势,但用的是频率扫频雷达 FMCW——那是科研专用设备,几千上万美元一台,普通家庭买不起。
- 特殊穿戴或环境改造:墙壁里嵌电极(Wall++)、天花板装 LED + 地面铺光敏片(LiSense)。这些都需要把房间改造一遍,安装成本极高。
这些方案要么"看不细",要么"贵到爆",要么"装不下"。论文要回答的核心问题是:用一对几十块钱的商用 WiFi 卡,能不能干雷达和摄像头干的活?
所以这一节是想说:现有方案要么太粗、要么太贵,从没人尝试用最便宜的商品 WiFi 直接估出 18 个关节点。
这篇论文的新想法
类比一句:就像让一个盲人徒弟跟着一位明眼师傅学相面——师傅每看一眼就告诉徒弟"这人现在弯腰举手",徒弟只能摸到房间里的"风"(WiFi 波),但摸久了也能光凭风的变化猜出对方的姿势。
技术上一句话:搭一对 3 天线发射 + 3 天线接收的普通 WiFi,配一个摄像头当"师傅",让神经网络学会从 WiFi 信号直接画出 18 个人体关节点。
关键创举有两个:
- 用摄像头给 WiFi 当"标签机"——摄像头看一帧,自动产出"这一刻人的姿势",当 WiFi 信号的标准答案。不用任何人工去标。
- 不直接预测 18 个 (x, y) 坐标,而是预测一个叫"姿态邻接矩阵 PAM"的奇怪形状——后面会讲为什么这样训练效果更好(一句话剧透:为了让网络不画出"脖子比头粗"那种比例失调的人)。
所以这一节是想说:核心思路是让摄像头当老师、WiFi 当学生,再加一个聪明的训练目标让 WiFi 学得动。
它分几步做的(方法)
整篇论文做了 4 件事:搭硬件 + 设计标签 + 设计网络 + 训练。
1. 搭一套"WiFi + 摄像头"双胞胎采集系统
类比
教小孩认动物。你拿出一张照片说"这是猫",小孩看到照片同时听到"猫"。看够了几千张,他下次只听到"猫"也能在脑子里浮现出猫的样子。
这里"照片"=人体姿势,"声音"=WiFi 信号。摄像头负责给出姿势,WiFi 负责听信号。两边必须同步——不然学生看到信号就不知道对应哪个动作了。
它在干什么
- 一对 WiFi 设备:一个 3 天线发射器(sender)+ 一个 3 天线接收器(receiver)。两端都是普通商用网卡。
- 一个摄像头:跟 WiFi 摆一起,对准同一个房间。
- 时间同步:用 Unix 时间戳给两边数据打标签,确保"这一帧画面"和"这一段 WiFi 信号"是同一时刻的。
- 采样率:WiFi 100 Hz(每秒 100 段数据),摄像头 20 Hz(每秒 20 帧)。所以 1 帧画面 = 5 段 WiFi。
CSI(Channel State Information,信道状态信息):WiFi 收发两端"中间发生了什么"的物理层指标。每段 CSI 都是一个 30×3×3 的数字方阵——30 是子载波数(WiFi 用 30 个不同频率的小载波同时传),两个 3 是发射端和接收端的天线数。
OFDM(正交频分复用):WiFi 把一个频道切成几十个细窄的子信道,每个子信道独立传一点数据。好处是某个子信道被干扰了,其他还能用。CSI 就是给每个子信道单独打个分。
为什么这步有用
- 之前没人有"WiFi+姿势"配对数据集——这一步亲手造了 80,000+ 张图的样本,让监督学习成为可能。
- 摄像头和 WiFi 严格对齐时间戳,让后面的"老师教学生"成立。
- 用普通设备意味着别人也能复现,不像 MIT 用专用雷达没人能跟。
所以这一节是想说:第一件事是搭好"摄像头当老师、WiFi 当学生"的双胞胎采集装置,并保证两边数据严格对齐时间。
2. 让 AlphaPose 当老师,自动给每帧画姿势
类比
你想教外国朋友学中文写字。但你不会教学,怎么办?请一位中文老师来——老师每天写一个字给你朋友照着练。这位老师不需要懂英文,只要能写出标准答案就行。
这里"中文老师"=AlphaPose,"朋友"=WiSPPN(学生网络),"练字"=学 WiFi → 姿势。
它在干什么
- 每帧画面交给 AlphaPose,AlphaPose 输出 18 个关节点:(x, y, c)——x 和 y 是坐标,c 是置信度(这个点有多准)。
- 18 个点按 COCO 标准编号:鼻子、脖子、左右肩、左右肘、左右腕、左右胯、左右膝、左右踝、左右眼、左右耳。
- 这 18 个点就是"这一刻人的姿势"——它就是 WiFi 学生要去拟合的"标准答案"。
AlphaPose:上海交大 + 港中文做的开源人体关键点检测器。两步走:先 YOLOv3 框出人,再回归每个关节的位置。是 2018-2019 年最强开源选手之一。
关键点(keypoint):人体上预先定义的若干特征点。论文用 COCO 18 点配置——比 17 点版多了一个"脖子"。
置信度(confidence):模型对自己这个判断有多自信。0=完全瞎猜,1=非常确定。
为什么这步有用
- 不用任何人工标注。一张图 24 美分都不用,AlphaPose 几毫秒搞定。80,000 张图标完只要几小时。
- 老师质量比人手标更稳定——人会累、会马虎,AlphaPose 不会。
- 这种"用一个成熟模型给新模型当老师"的套路叫知识蒸馏或师生学习,后来在很多领域都流行起来。
所以这一节是想说:用现成的 AlphaPose 自动批量生产姿势标签,零人工成本造出 80K 训练样本。
3. 不预测坐标,而预测"姿态邻接矩阵 PAM"
这是论文最聪明的一步。
类比
让一个画家凭空画"一个站着的人"。两种教法:
- 教法 A:直接给他 18 个点的坐标——"鼻子在 (320, 100),脖子在 (320, 130)……"。画家照着标点,但点和点之间没有约束,画出来的人可能脖子比头还粗、胳膊比腿还长——比例失调。
- 教法 B:除了告诉他每个点的坐标,还告诉他"鼻子到脖子距离 30 厘米,方向朝下"、"肩膀到肘部距离 40 厘米"……每对点之间的相对位置都告诉他。这样画家很难画错——身体比例自动就对了。
PAM 就是教法 B 的数学版本。
它在干什么
- 把 18 个关键点想成一张图(graph)的 18 个节点。任意两个节点之间都连一条线(完全图)。
- 构造一个 3×18×18 的三维矩阵:
- 第一层 x':对角线写每个点的 x 坐标,对角线之外的格子 (i,j) 写"第 i 点的 x 减第 j 点的 x"——也就是两点的水平位移。
- 第二层 y':同理,记录纵向坐标和位移。
- 第三层 c':对角线写置信度,对角线之外写两点置信度的乘积。
- 网络去拟合这个 3×18×18 矩阵,而不是 18×2 的坐标列表。
邻接矩阵(adjacency matrix):图论里描述"哪些节点相连"的标准工具。一行一列对应一个节点。这里把"相连"改成"两点之间的差值",所以叫姿态邻接矩阵。
完全图(directed complete graph):任意两个节点之间都有一条有向边的图。这里 18 个关节点两两有连接,所以矩阵是稠密的。
关键公式翻译成人话
原文写:
x'_{i,j} = x_i - x_j (i ≠ j)
x'_{i,i} = x_i
人话:"对角线放每个点自己的 x 坐标,其他格子放两点 x 的差"。y' 一样的逻辑。c' 也类似,但"差"换成"乘积"。
为什么这步有用
- 直接预测坐标的网络容易"坐标飘"——预测出来的点位置可以正确,但身体比例乱掉。PAM 把"两点之间应该差多少"变成网络必须满足的约束,等于免费给网络加了个"骨架长度正则化"。
- 比如鼻子到脖子的位移在 y 方向几乎总是负的(脖子在鼻子下方)——网络学过几千个例子后会把这个规律刻进去,不会画出"头朝下"的人。
- 实验证明这套表示法的泛化能力比直接回归坐标好很多。

所以这一节是想说:把姿势编码成"每对关节的相对位移矩阵",等于给网络免费加了一道"身体比例必须对"的约束。
4. WiSPPN 网络结构:编码器 + 特征提取器 + 解码器
类比
把一段广播录音变成歌词字幕,需要三步:先把声音波形数字化(编码器)、再听出旋律和节奏(特征提取器)、最后写成文字(解码器)。WiSPPN 就这三段流水线。
它在干什么
输入:5 段 CSI(每段 30×3×3)拼起来 = 150×3×3 的小数据块。
(a) 编码器:把这个 150×3×3 的"小邮票"撑大成 150×144×144 的"大画面"。用的是双线性插值——一种把图像"软放大"的标准操作。论文之前的 CSI-Net 用 8 层转置卷积放大,慢很多;这里用一行 bilinear 直接搞定。
双线性插值(bilinear interpolation):把小图放大到大图时,新像素的颜色由周围 4 个旧像素加权平均出来。所有手机相册的"图片放大"功能本质都是它。
转置卷积(transposed convolution):神经网络里"反向卷积"的操作,可以把小特征图放大到大特征图。比插值更灵活但也更费算力。
(b) 特征提取器:4 个 ResNet 残差块串起来,共 16 层卷积。把 150×144×144 一路压缩到 300×18×18 的特征。
ResNet(残差网络):何恺明 2015 年的工作。每一层不仅看上一层的输出,还加上前面层的原始输入——叫"短路连接"。这样就算网络很深也不会"梯度消失"(一种深网络无法训练的常见病)。
卷积(convolution):神经网络里识别图形的基本操作。把一个小窗口(比如 3×3)在图上滑动,每次输出一个数字。多个卷积核能识别出不同的局部模式。
(c) 解码器:两层 1×1 卷积,把 300 通道压到 36 通道再压到 2 通道,输出形状 2×18×18 的预测 PAM(只预测 x 和 y,不预测 c)。
损失函数:
L = c' ⋅ (||pPAM_x - PAM_x||² + ||pPAM_y - PAM_y||²)
人话:预测姿态矩阵和老师姿态矩阵的差距,按"老师有多自信"加权后求和。老师不太确定的点(比如被遮挡的脚踝),错了也只扣一点点;老师很确定的点(比如清晰可见的鼻子),错了狠狠扣分。
为什么这步有用
- 整个网络只占很小的算力,但用了三大成熟组件(CSI-Net 的 encoder 思路、ResNet 的提取器、FCN 的密集预测)。属于"站在巨人肩膀上"的稳健做法。
- 损失加权让网络更关注高置信度的关节点,避免被老师自己都拿不准的标签带跑偏。
所以这一节是想说:网络结构本身没什么花哨——靠的是 PAM 这个监督信号 + 师生训练范式。

关键数字(What works)
数字本身不重要,重要的是它们告诉你这套方案到底能用还是只是噱头。
数字 1:训练数据 79,496 张,测试 19,931 张
- 怎么算的:8 位志愿者在 2 个房间 16 个布点位置做日常动作。每人前 80% 数据训练、后 20% 测试。
- 对比:同期 RF-Pose 用了 100 多小时数据,差不多 50 万帧;这里只有 8 万。
- 生活语言:用普通商用 WiFi 也能在一个学校实验室级别的场地里搞出可用数据集。门槛远比想象低。
数字 2:PCK@50 平均 0.82
- 怎么算的:PCK@50 表示预测点和真实点距离小于"上半身长度的 50%"就算对。82% 的关节点能落在这个范围内。
- 对比:纯随机猜测 < 5%;摄像头方法(AlphaPose)几乎 100%。
- 生活语言:松一点的标准下,绝大部分关节都能"大致放对位置"。已经够用来判断"站还是坐"、"举手还是叉腰"这种粗动作。
数字 3:PCK@10 平均 0.14
- 怎么算的:把"算对"的标准收紧到 10%——基本上要预测点几乎压在真实点上。
- 对比:摄像头方法 PCK@10 通常在 0.6-0.8。
- 生活语言:要让 WiFi 像摄像头那样精确到厘米级还差远了。它能告诉你"胳膊大概在哪一块",但不能告诉你"指尖具体哪个像素"。
数字 4:脖子(Neck)PCK@50 = 0.88,最准
- 怎么算的:18 个关节点单独评。脖子是最准的之一。
- 对比:左右脚踝(L. Ankle / R. Ankle)只有 0.71-0.73,最差。
- 生活语言:身体中轴线上的关节(脖子、肩、胯)容易估对,远端的小关节(手腕、脚踝)最难——因为它们对 WiFi 信号的影响小,且容易被身体遮住。
数字 5:训练 20 epoch,初始学习率 0.001,batch size 32,Adam 优化器
- 怎么算的:Pytorch 1.0 实现。学习率每 5 个 epoch 衰减一半。
- 生活语言:单卡几小时就能复现完整流程。整套方案对硬件友好。
数字 6:CSI 张量大小 30×3×3,再堆 5 段 = 150×3×3
- 怎么算的:30 子载波 × 3 发送天线 × 3 接收天线 × 5 段(同步 1 帧画面)。
- 生活语言:每帧画面对应的 WiFi 数据只有 1350 个浮点数——比一张 224×224 RGB 图(15 万浮点数)小 100 倍。但靠 PAM 监督和 ResNet 强力提取,照样把姿势抠出来。
所以这一节是想说:松标准下能用,紧标准下还差摄像头一大截;这是 WiFi 估姿的现实档位。
你应该懂的几个新词
CSI(Channel State Information):WiFi 信号在收发途中"被环境揉搓的痕迹"。一段 CSI = 一个 30×3×3 的小数字方阵。是这篇论文唯一的输入信号。
OFDM(正交频分复用):WiFi 把一段频带切成几十个子载波同时传。CSI 就是给每个子载波单独记一个值。
天线(antenna):发射 / 接收无线电波的硬件。多天线意味着可以从不同位置感知信号——本论文用 3 发 3 收。
关键点 / 关节点(keypoint / joint):人体上预先定义的特征点(鼻子、肩、肘等)。COCO 标准 18 点。
姿态估计(pose estimation):从输入信号中预测每个关节点的位置。摄像头版已经做到很好,本文是 WiFi 版的早期尝试。
PCK(Percentage of Correct Keypoints):评估姿态估计准确率的标准指标。"@50" 表示允许误差不超过参考长度的 50%。
完全图(complete graph):图论里任意两点之间都有连线的图。本文把 18 个关节点之间两两连,得到 18×18 的稠密邻接矩阵。
邻接矩阵(adjacency matrix):图论里描述节点关系的标准矩阵。本文把"两点是否连"改写成"两点的位移",得到 PAM。
师生学习 / 知识蒸馏(teacher-student / knowledge distillation):用一个已训练好的"老师"模型给"学生"模型生成训练标签的范式。本文老师是 AlphaPose,学生是 WiSPPN。
ResNet(残差网络):通过"短路连接"让深层网络也能稳定训练的经典架构。本文用 4 个残差块当特征提取器。
FCN(Fully Convolutional Network,全卷积网络):从输入到输出全用卷积、不带全连接层的网络结构。WiSPPN 是 FCN。
双线性插值(bilinear interpolation):把小图按邻近 4 个像素加权平均放大成大图的标准操作。这里用来把 CSI 输入撑大到 144×144。
所以这一节是想说:上面这十几个词在 RF + 视觉交叉领域反复出现,先把它们和日常类比挂起来。
它有什么搞不定的
论文老老实实把短板写在台面上:
- 只能估单人:场景里多于一个人,3 天线 WiFi 信号叠加在一起没法分开。要做多人版本得换硬件或换方法。
- 环境依赖严重:训练在 A 房间收的数据,测试时换到 C 房间(家具、墙体材质都不一样),效果会明显下降。论文也只在 2 个房间做了实验,跨场景泛化能力没有验证。
- 精度档次远低于摄像头:PCK@10 只有 0.14,意味着大多数关节点定位误差在身体长度的 10% 以上。要做精细动作识别(比如手语翻译)还差得远。
所以这一节是想说:单人 / 同环境 / 粗精度——三道天花板让这套方案目前只能当 demo,离日常产品还差好几步。
它和别的论文是什么关系
- 和 RF-Pose(MIT, 2018):路线一样(RF 信号 → 姿势),但 RF-Pose 用的是 FMCW 雷达,造价 $10K+;本文用的是 $30 的商用 WiFi 卡。RF-Pose 证明可行性,本文证明可负担。
- 和 mmMesh / millimap 这类毫米波雷达工作:都属于"用电磁波感知人"。毫米波频率更高,分辨率更细,更接近摄像头水平;WiFi 频段低,分辨率更粗,但设备已经在每家每户了。两条路线互补——前者面向商业 sensor,后者面向 IoT 普及。
- 和 LLaVA 这类 VLM:你可能觉得它们风马牛不相及。但有一个共同点——都用了"老师模型自动出标签"的套路。LLaVA 是 GPT-4 出题,本文是 AlphaPose 出题。这种"用现成大模型给新模型当老师"的范式从这里就开始萌芽。
- 在"具身 AI 感知层"里的位置:摄像头之外,RF 是第二条潜力线——能穿墙、不怕暗、不怕烟、不暴露隐私。本文是 RF-vision 这条线的开荒作之一。
所以这一节是想说:这篇是 RF + 视觉交叉路线"低成本版"的开端,和 RF-Pose(贵路线)和后续 mmWave 工作(高分辨率路线)三足鼎立。
我建议这样读这篇
零基础读者按这个顺序走:
- 先看 Figure 1(5 分钟):左边是摄像头估的姿势,右边是 WiFi 估的——直观感受这件事能成。
- 跳到 Section 3.1 看 CSI 是什么(10 分钟):理解"30 个子载波 × 3 发 × 3 收 = CSI 张量"。这是输入到底是什么的问题。
- 重点读 Section 4.2 的 PAM(15 分钟):这是论文最有创意的一步。搞清楚为什么不直接预测 (x, y) 而要绕一道邻接矩阵。
- 快速扫 Figure 5 的网络结构(5 分钟):知道"输入 150×3×3 → 撑大到 144×144 → ResNet 提取 → 输出 2×18×18"就够。
- 看 Section 5 的实验(10 分钟):重点看 PCK 表,注意松标准(PCK@50)和紧标准(PCK@10)的差距。
- 跳过参考文献和其他细节(除非要复现)。
读完上面 6 步大约 40-50 分钟,已经能复述这篇论文的核心思路。
所以这一节是想说:方法部分聚焦 PAM 一个章节,其余细节扫读,1 小时内可以拿下这篇。
一些好奇心问答
Q1:WiFi 真的能"看穿墙"吗?
理论上可以——WiFi 频段穿透力比可见光强。但论文实验都在同一房间内做,没有专门测穿墙场景。同期 MIT 的 RF-Pose 做了穿墙演示,效果不错。WiFi 频段稍弱,但应该也能做,需要后续工作验证。
Q2:3 发 3 收的天线我哪里搞?
商用 WiFi 网卡(比如 Intel 5300、Atheros AR9580)就支持。需要配合 Halperin 2011 工具 抓 CSI。整套硬件几百人民币能搭起来。
Q3:摄像头当老师,那训练时还是要摄像头啊?
对,训练时需要。但部署时只要 WiFi 就够了。这是师生学习的核心好处——把摄像头的能力"蒸馏"进 WiFi 模型,部署时只留 WiFi。
Q4:这套系统会泄露隐私吗?
比摄像头好很多——它输出的是 18 个关节点坐标,看不出你长什么样、穿什么衣服。但理论上你可以通过姿势识人(步态分析)。隐私是相对的,不是绝对的。
Q5:为什么不直接用 (x, y) 坐标当训练目标?
论文说过:直接回归坐标会丢失"身体比例约束"。PAM 把"鼻子到脖子距离 30cm 朝下"这种结构信息塞进监督信号,等于免费给网络加了正则化。消融实验没明确写,但作者强调了 PAM 比直接回归泛化能力更好。
Q6:80K 张图够吗?
对单人粗姿势够。但要做多人 / 跨房间 / 复杂动作,肯定不够。WiFi 数据集到 2024 年才开始有几十万到上百万规模的开源版本(MMFi、WiPose 等)。
Q7:8 个志愿者会不会过拟合?
会。论文按"每人前 80% 训练、后 20% 测试"——这是人内泛化测试,不是人间泛化。换一个新人来,效果可能掉很多。
Q8:这篇被引用最多的后续工作是什么?
后续有 Person-in-WiFi 自家的扩展(多人版、3D 版)、加州大学的 WiPose、清华的 GoPose 等。MMFi 是 2023 年最大的多模态人体感知数据集,是这条线的"集大成者"。
所以这一节是想说:实操(设备、隐私、数据量)和方法(坐标 vs 矩阵)的常见疑问,作者大都想过;只是没把所有 ablation 都做完。
如果你想再深入
按"前传 → 同期对手 → 续作 → 衍生方向"四类排序:
- 前传:CSI-Net(2018,同一作者) — 用 CSI 做人体身份识别 + 动作分类。本文的 encoder 思路就是从 CSI-Net 借的,先读它能理解 WiFi → 视觉这条路怎么起步。
- 同期对手:RF-Pose(MIT, 2018) — 用 FMCW 雷达做穿墙姿势估计,效果比本文好但设备贵 100 倍。两篇配着读,能看清"贵且强 vs 便宜且粗"的取舍。
- 续作:Person-in-WiFi 3D / MMFi 数据集(2022-2023) — 把单人 2D 扩展到多人 3D,数据集规模拉到几十万级别。是这条线进入"实用"阶段的标志。
- 同方向:millimap / mmMesh — 用毫米波雷达(mmWave)做更细粒度的人体感知。频率更高、分辨率更细,介于 WiFi 和摄像头之间。
- 范式延伸:知识蒸馏 / 跨模态师生学习 — 本文 AlphaPose → WiSPPN 是一个早期例子。后续 RF-Action、RF-Identity、Wi-Vi 等大量工作都用这套范式。
所以这一节是想说:这篇是 RF-vision 路线的低成本起点;想看进展就跟 MMFi 数据集和毫米波路线,想看根源就回 CSI-Net 和 RF-Pose。
◼
引用本笔记 / Cite this note
@online{eai_person_in_wifi_2026,
title = {(readable note) Can WiFi Estimate Person Pose?},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2019 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/person-in-wifi/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim