回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Reading lists · 主题精选

5 套策划好的读书包

不知道 156 篇该从哪开始?挑一个你最感兴趣的方向,按 era 顺序读完一个包。每包 50-90 分钟,读完能在那个细分领域跟人聊起。


vla-starter

VLA 入门 6 篇

从动作 token 到产业基础模型

6 篇 · ~90 分钟

想理解'机器人怎么直接看图听话出动作'?这 6 篇按 era 升序排,读完你能自己讲清 VLA 路线。

  1. 1
    Learning Transferable Visual Models From Natural Language Supervision 2021 · ICML · ⭐⭐⭐ · VLM Foundation

    教 AI 同时认图和认字,把 4 亿对网上图文塞进同一张坐标。之后你说"一只猫",它就能从新图里挑出猫——不用为新任务再训一遍。

  2. 2
    RT-1: Robotics Transformer for Real-World Control at Scale 2022 · RSS · ⭐⭐⭐ · End-to-End VLA

    让机器人看完 13 万段人类亲手示范,就能听一句中文,在真办公室里把可乐罐拿出来放进抽屉。

  3. 3
    RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control 2023 · CoRL · ⭐⭐⭐⭐ · End-to-End VLA

    把机器人动作翻译成一句话,让会看图聊天的 AI 用写句子的方式开口指挥机器人——它会写字,就能动手。

  4. 4
    OpenVLA: An Open-Source Vision-Language-Action Model 2024 · CoRL · ⭐⭐⭐ · End-to-End VLA

    把一个会"看图说话"的 AI 改一改,让它学会"看一眼桌面就动手摆东西",再把全部训练配方开源送出去。

  5. 5
    OpenVLA-OFT 2025 · RSS · ⭐⭐⭐ · End-to-End VLA

    原版机器人模型一个字一个字念动作,慢还一抖一抖。OpenVLA-OFT 拧开三个开关——一口气说、一段段说、说连续数字——又快又稳。

  6. 6
    pi_0: Vision-Language-Action Flow Model 2024 · arXiv · ⭐⭐⭐⭐ · Diffusion Policy

    让机器人看懂场景、听懂指令、还能丝滑动起来——拿现成的图文大模型当"大脑",再加一个会画连续动作的"流匹配"小头。

diffusion-policy

扩散策略 5 篇

从'选动作'变成'去噪'

5 篇 · ~70 分钟

Diffusion Policy 把控制问题重新定义。读完知道为什么扩散赢过 transformer 在 manipulation 上。

  1. 1
    Diffusion Policy: Visuomotor Policy Learning via Action Diffusion 2023 · RSS · ⭐⭐⭐ · Diffusion Policy

    让机器人像调电视雪花一样产生动作:从满屏乱码开始,擦几下,下一步该怎么动就擦出来了。

  2. 2
    3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations 2024 · RSS · ⭐⭐⭐ · Diffusion Policy

    让机器人改看 3D 立体形状(点云)而不是 2D 照片来学动作,10 条示范就够,72 个任务平均比原版强 24.2%。

  3. 3
    Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation 2024 · RSS · ⭐⭐⭐ · Diffusion Policy

    机器人选下一步动作本来要慢慢搅 100 下才出一步,这篇教它一下就跳到答案——快约十倍,连笔记本都跑得动。

  4. 4
    DiT-Policy 2025 · ICRA · ⭐⭐⭐⭐ · Diffusion Policy

    把画图领域火起来的新骨架(DiT)搬到机器人身上,再把每个零件挨个拆开看,到底哪个让它真变好。

  5. 5
    pi_0: Vision-Language-Action Flow Model 2024 · arXiv · ⭐⭐⭐⭐ · Diffusion Policy

    让机器人看懂场景、听懂指令、还能丝滑动起来——拿现成的图文大模型当"大脑",再加一个会画连续动作的"流匹配"小头。

world-models

世界模型 4 篇

在脑子里预演

4 篇 · ~55 分钟

教 AI 在想象里走一遍。这 4 篇覆盖从 World Models 鼻祖到 Genie/Cosmos 工业级。

  1. 1
    World Models 2018 · NeurIPS · ⭐⭐⭐ · World Model & Video Policy

    让 AI 先在自己脑子里反复"做白日梦"练打游戏,练熟了再去真游戏里上场——居然真能赢。

  2. 2
    Dreamer V3: Mastering Diverse Domains through World Models 2025 · Nature · ⭐⭐⭐⭐ · World Model & Video Policy

    同一套设置,让一个 AI 自己玩 150 多种游戏都不用改参数,还第一次靠自己挖到《我的世界》里的钻石。

  3. 3
    Genie: Generative Interactive Environments 2024 · ICML · ⭐⭐⭐⭐ · World Model & Video Policy

    Genie 看一堆游戏录屏,自己猜出每帧之间"按了什么键",再用这个"按键"画出下一帧——把死视频变成能玩的小游戏。

  4. 4
    Cosmos World Foundation Model Platform 2025 · arXiv · ⭐⭐⭐⭐⭐ · World Model & Video Policy

    NVIDIA 用 2000 万小时真实视频,训了一个能"猜下一秒物理世界长啥样"的大模型,给机器人和无人车当通用底座。

rf-perception

射频感知 5 篇

WiFi 和毫米波看世界

5 篇 · ~60 分钟

电磁波怎么穿墙、抗烟雾、画出 LiDAR 级 3D。这 5 篇讲清射频感知的核心套路。

  1. 1
    Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm 2019 · arXiv · ⭐⭐⭐⭐ · RF Perception & Mapping

    一个 Wi-Fi 小盒子隔着墙照过去,就能画出屋里人的骨架动画——摄像头当老师,电波当学生,学一遍就会了。 更具体一点: 输入:一个商用雷达(Walabot Developer,几百美元)发出去的电波被人体反射回来后形成的 3D 强度场。 …

  2. 2
    Can WiFi Estimate Person Pose? 2019 · ICCV · ⭐⭐⭐ · RF Perception & Mapping

    想象你家路由器除了上网,还能告诉你"屋里那个人正在做啥姿势"——胳膊抬到哪、腿怎么弯,全画给你看。

  3. 3
    See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar 2020 · SenSys · ⭐⭐⭐ · RF Perception & Mapping

    机器人在浓烟里也能画出清晰的房间地图——靠一颗几十块的小雷达加一个会"脑补"的神经网络。 具体两招: 训练时让贵的激光雷达(lidar)和便宜的雷达坐同一辆车,把 lidar 的清晰图当作业答案喂给神经网络(cGAN),教雷达学会脑补。学完…

  4. 4
    Enabling Visual Recognition at Radio Frequency (PanoRadar) 2024 · MobiCom · ⭐⭐⭐⭐ · RF Perception & Mapping

    PanoRadar 把便宜的小雷达装到一个转台上边转边扫,再让神经网络把模糊回声拼成 3D 地图,让雷达像眼睛一样"看见"房间。

  5. 5
    Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on 2024 · SenSys · ⭐⭐⭐⭐ · RF Perception & Mapping

    在肩膀、胸口、手腕各贴一片简化雷达,每片只能看到身体一小块,算法把这些局部信号拼成完整的 3D 人体形状。

imitation-hardware

模仿学习硬件 4 篇

怎么采到好数据

4 篇 · ~50 分钟

VLA 的瓶颈是数据。这 4 篇讲明白:ALOHA、UMI、DexCap、HumanPlus 各解决了什么采集问题。

  1. 1
    Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA) 2023 · RSS · ⭐⭐⭐ · Imitation Learning

    几千美元搭一套双臂遥控器(ALOHA)让人录 50 次示范,机器人就学会一段一段动(ACT),能完成穿扎带这种细活。

  2. 2
    Universal Manipulation Interface 2024 · RSS · ⭐⭐⭐ · Imitation Learning

    人手拿一个"带摄像头的夹子"在厨房自己做事,录下来就能教机器人,全程不用机器人在场。

  3. 3
    DexCap 2024 · RSS · ⭐⭐⭐ · Imitation Learning

    人戴上"会记录动作的手套"自己干活,把手的轨迹录下来教机器人——机器人完全不必在现场。

  4. 4
    HumanPlus 2024 · CoRL · ⭐⭐⭐⭐ · Imitation Learning

    HumanPlus 让机器人当场跟着人做动作,做几十次后机器人自己也会了——把人当成机器人的"示范老师"。