Reading lists — Embodied AI Reading

vla-starter

VLA 入门 6 篇

从动作 token 到产业基础模型

6 篇 · ~90 分钟

想理解'机器人怎么直接看图听话出动作'？这 6 篇按 era 升序排，读完你能自己讲清 VLA 路线。

1
Learning Transferable Visual Models From Natural Language Supervision 2021 · ICML · ⭐⭐⭐ · VLM Foundation
教 AI 同时认图和认字，把 4 亿对网上图文塞进同一张坐标。之后你说"一只猫"，它就能从新图里挑出猫——不用为新任务再训一遍。
2
RT-1: Robotics Transformer for Real-World Control at Scale 2022 · RSS · ⭐⭐⭐ · End-to-End VLA
让机器人看完 13 万段人类亲手示范，就能听一句中文，在真办公室里把可乐罐拿出来放进抽屉。
3
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control 2023 · CoRL · ⭐⭐⭐⭐ · End-to-End VLA
把机器人动作翻译成一句话，让会看图聊天的 AI 用写句子的方式开口指挥机器人——它会写字，就能动手。
4
OpenVLA: An Open-Source Vision-Language-Action Model 2024 · CoRL · ⭐⭐⭐ · End-to-End VLA
把一个会"看图说话"的 AI 改一改，让它学会"看一眼桌面就动手摆东西"，再把全部训练配方开源送出去。
5
OpenVLA-OFT 2025 · RSS · ⭐⭐⭐ · End-to-End VLA
原版机器人模型一个字一个字念动作，慢还一抖一抖。OpenVLA-OFT 拧开三个开关——一口气说、一段段说、说连续数字——又快又稳。
6
pi_0: Vision-Language-Action Flow Model 2024 · arXiv · ⭐⭐⭐⭐ · Diffusion Policy
让机器人看懂场景、听懂指令、还能丝滑动起来——拿现成的图文大模型当"大脑"，再加一个会画连续动作的"流匹配"小头。

diffusion-policy

扩散策略 5 篇

从'选动作'变成'去噪'

5 篇 · ~70 分钟

Diffusion Policy 把控制问题重新定义。读完知道为什么扩散赢过 transformer 在 manipulation 上。

1
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion 2023 · RSS · ⭐⭐⭐ · Diffusion Policy
让机器人像调电视雪花一样产生动作：从满屏乱码开始，擦几下，下一步该怎么动就擦出来了。
2
3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations 2024 · RSS · ⭐⭐⭐ · Diffusion Policy
让机器人改看 3D 立体形状（点云）而不是 2D 照片来学动作，10 条示范就够，72 个任务平均比原版强 24.2%。
3
Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation 2024 · RSS · ⭐⭐⭐ · Diffusion Policy
机器人选下一步动作本来要慢慢搅 100 下才出一步，这篇教它一下就跳到答案——快约十倍，连笔记本都跑得动。
4
DiT-Policy 2025 · ICRA · ⭐⭐⭐⭐ · Diffusion Policy
把画图领域火起来的新骨架（DiT）搬到机器人身上，再把每个零件挨个拆开看，到底哪个让它真变好。
5
pi_0: Vision-Language-Action Flow Model 2024 · arXiv · ⭐⭐⭐⭐ · Diffusion Policy
让机器人看懂场景、听懂指令、还能丝滑动起来——拿现成的图文大模型当"大脑"，再加一个会画连续动作的"流匹配"小头。

world-models

世界模型 4 篇

在脑子里预演

4 篇 · ~55 分钟

教 AI 在想象里走一遍。这 4 篇覆盖从 World Models 鼻祖到 Genie/Cosmos 工业级。

1
World Models 2018 · NeurIPS · ⭐⭐⭐ · World Model & Video Policy
让 AI 先在自己脑子里反复"做白日梦"练打游戏，练熟了再去真游戏里上场——居然真能赢。
2
Dreamer V3: Mastering Diverse Domains through World Models 2025 · Nature · ⭐⭐⭐⭐ · World Model & Video Policy
同一套设置，让一个 AI 自己玩 150 多种游戏都不用改参数，还第一次靠自己挖到《我的世界》里的钻石。
3
Genie: Generative Interactive Environments 2024 · ICML · ⭐⭐⭐⭐ · World Model & Video Policy
Genie 看一堆游戏录屏，自己猜出每帧之间"按了什么键"，再用这个"按键"画出下一帧——把死视频变成能玩的小游戏。
4
Cosmos World Foundation Model Platform 2025 · arXiv · ⭐⭐⭐⭐⭐ · World Model & Video Policy
NVIDIA 用 2000 万小时真实视频，训了一个能"猜下一秒物理世界长啥样"的大模型，给机器人和无人车当通用底座。

rf-perception

射频感知 5 篇

WiFi 和毫米波看世界

5 篇 · ~60 分钟

电磁波怎么穿墙、抗烟雾、画出 LiDAR 级 3D。这 5 篇讲清射频感知的核心套路。

1
Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm 2019 · arXiv · ⭐⭐⭐⭐ · RF Perception & Mapping
一个 Wi-Fi 小盒子隔着墙照过去，就能画出屋里人的骨架动画——摄像头当老师，电波当学生，学一遍就会了。更具体一点：输入：一个商用雷达（Walabot Developer，几百美元）发出去的电波被人体反射回来后形成的 3D 强度场。 …
2
Can WiFi Estimate Person Pose? 2019 · ICCV · ⭐⭐⭐ · RF Perception & Mapping
想象你家路由器除了上网，还能告诉你"屋里那个人正在做啥姿势"——胳膊抬到哪、腿怎么弯，全画给你看。
3
See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar 2020 · SenSys · ⭐⭐⭐ · RF Perception & Mapping
机器人在浓烟里也能画出清晰的房间地图——靠一颗几十块的小雷达加一个会"脑补"的神经网络。具体两招：训练时让贵的激光雷达（lidar）和便宜的雷达坐同一辆车，把 lidar 的清晰图当作业答案喂给神经网络（cGAN），教雷达学会脑补。学完…
4
Enabling Visual Recognition at Radio Frequency (PanoRadar) 2024 · MobiCom · ⭐⭐⭐⭐ · RF Perception & Mapping
PanoRadar 把便宜的小雷达装到一个转台上边转边扫，再让神经网络把模糊回声拼成 3D 地图，让雷达像眼睛一样"看见"房间。
5
Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on 2024 · SenSys · ⭐⭐⭐⭐ · RF Perception & Mapping
在肩膀、胸口、手腕各贴一片简化雷达，每片只能看到身体一小块，算法把这些局部信号拼成完整的 3D 人体形状。

imitation-hardware

模仿学习硬件 4 篇

怎么采到好数据

4 篇 · ~50 分钟

VLA 的瓶颈是数据。这 4 篇讲明白：ALOHA、UMI、DexCap、HumanPlus 各解决了什么采集问题。

1
Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA) 2023 · RSS · ⭐⭐⭐ · Imitation Learning
几千美元搭一套双臂遥控器（ALOHA）让人录 50 次示范，机器人就学会一段一段动（ACT），能完成穿扎带这种细活。
2
Universal Manipulation Interface 2024 · RSS · ⭐⭐⭐ · Imitation Learning
人手拿一个"带摄像头的夹子"在厨房自己做事，录下来就能教机器人，全程不用机器人在场。
3
DexCap 2024 · RSS · ⭐⭐⭐ · Imitation Learning
人戴上"会记录动作的手套"自己干活，把手的轨迹录下来教机器人——机器人完全不必在现场。
4
HumanPlus 2024 · CoRL · ⭐⭐⭐⭐ · Imitation Learning
HumanPlus 让机器人当场跟着人做动作，做几十次后机器人自己也会了——把人当成机器人的"示范老师"。

5 套策划好的读书包。