回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Learn · Beginner Track

30-day learning path — 零基础上手具身 AI

如果你刚来,156 篇太多。这页给你 30 天的具体路径——每天 1-2 篇,30 天后能自信讲出'具身 AI 这一年在干什么'。


这页为谁设计

你是大一/大二/转方向的本科生,知道 Python 但没接触过具身 AI;你愿意每天花 30-60 分钟系统读一段时间。

如果你符合这两条,按这页走就行。每天的论文已经按"前一篇是后一篇的前置"排好了。

如果你已经懂 transformer,可以跳过 Week 1,从 Week 2 开始。

Week 1 · 把视觉和语言连起来

具身 AI 的所有模型都建在"视觉 + 语言"的基座上。先把这部分搞清楚。

Day 论文 学到
1 CLIP 怎么把图和文塞进同一个坐标系
2 BLIP 自举:弱标注 + 自我清洗
3 BLIP-2 Q-Former 桥接冻结的视觉 + 冻结的 LLM
4 LLaVA 一层 MLP 把视觉特征注入 LLM
5 Flamingo 交错图文 + Perceiver Resampler
6 SigLIP sigmoid 损失替换 softmax
7 复习 + 看 Glossary 整理自己的术语笔记

Week 1 收获:你能解释"为什么所有 VLA 都先有一个 VLM"。

Week 2 · 看懂 VLA 的进化

VLA = 视觉-语言-动作。这周读完你能讲清"机器人怎么从看图直接出关节速度"。

Day 论文 学到
8 RT-1 把动作 token 化,让 transformer 当策略
9 SayCan LLM 给候选 + 可行性打分相乘
10 Code-as-Policies 让 LLM 直接写 Python 调机器人 API
11 RT-2 把网络知识从 VLM 转到 robot policy
12 OpenVLA 完全开源的 VLA 民主化
13 π0 VLM + flow matching head 通用基础模型
14 复习 + 看 VLA topic page 整理 VLA 路线

Week 2 收获:你能比较 RT-1/RT-2/OpenVLA/π0 四条不同技术路径。

Week 3 · 数据、模仿、扩散

VLA 的瓶颈不是模型而是数据。这周读模仿学习 + 扩散策略。

Day 论文 学到
15 DAgger 模仿学习的误差累积 + 解决方案
16 ACT/ALOHA 双臂遥操作 + action chunking
17 UMI 手持夹爪 + GoPro 采野外数据
18 Open X-Embodiment 22 家机构数据合一
19 Diffusion Policy 把'选动作'变'去噪'
20 3D Diffusion Policy 加 3D 点云做眼睛
21 复习 + 看 Imitation topic 整理数据采集思路

Week 3 收获:你能跟人说清"为什么 Diffusion Policy 在 manipulation 上赢了 transformer"。

Week 4 · 周边生态

VLA 不是孤岛。这周读世界模型、仿真器、感知扩展。

Day 论文 学到
22 World Models 在脑子里预演
23 Dreamer V3 跨域固定超参的世界模型
24 Genie 从无标签视频学潜在动作
25 Habitat 室内仿真器照片级
26 Isaac Gym GPU 并行物理仿真
27 ImageBind 六模态通过图像作锚点联通
28 Whisper 弱标注 + 大规模 = 零样本 ASR
29-30 复习 + 看 Compare + 写一篇自己的 review 输出验证收获

Week 4 收获:你已经具备"读 2026 年新论文 abstract 不发蒙"的能力。

30 天后你能做什么

  • 读 NeurIPS/CoRL 任意一篇具身 AI 论文,看懂大体在干啥
  • 知道自己接下来该深挖哪个分支(按兴趣选 topic)
  • 能跟实验室同学讨论 RT-2 vs π0 这种话题
  • 能自己挑论文读,不再依赖别人推荐

验证:每周末做一次

挑当周读过的 1 篇,关掉笔记尝试给同学/室友讲清楚(< 5 分钟)。讲不通的部分回去重读那部分。

卡住怎么办

  • 数学公式看不懂 → 去 Math Primer 查符号
  • 术语不认识 → 去 Glossary
  • 想看可视化关系 → 去 Graph
  • 不确定哪篇先读 → 这页就是答案

不要做什么

  • 不要囤积笔记 app:你的笔记就是这站,你的标记就是 ✓ 已读
  • 不要追新:30 天内别看微信推送的 2026-08 论文。先读完路径
  • 不要跳读:第 1 周看着简单,但是后面所有内容的根基

◼ End of 30-day path. 走完一遍欢迎回来开第二遍——会比第一遍快很多。


Other beginner pages