Learn · Beginner Track

30-day learning path — 零基础上手具身 AI

如果你刚来，156 篇太多。这页给你 30 天的具体路径——每天 1-2 篇，30 天后能自信讲出'具身 AI 这一年在干什么'。

这页为谁设计

你是大一/大二/转方向的本科生，知道 Python 但没接触过具身 AI；你愿意每天花 30-60 分钟系统读一段时间。

如果你符合这两条，按这页走就行。每天的论文已经按"前一篇是后一篇的前置"排好了。

如果你已经懂 transformer，可以跳过 Week 1，从 Week 2 开始。

具身 AI 的所有模型都建在"视觉 + 语言"的基座上。先把这部分搞清楚。

Week 1 收获：你能解释"为什么所有 VLA 都先有一个 VLM"。

VLA = 视觉-语言-动作。这周读完你能讲清"机器人怎么从看图直接出关节速度"。

Day	论文	学到
8	RT-1	把动作 token 化，让 transformer 当策略
9	SayCan	LLM 给候选 + 可行性打分相乘
10	Code-as-Policies	让 LLM 直接写 Python 调机器人 API
11	RT-2	把网络知识从 VLM 转到 robot policy
12	OpenVLA	完全开源的 VLA 民主化
13	π0	VLM + flow matching head 通用基础模型
14	复习 + 看 VLA topic page	整理 VLA 路线

Week 2 收获：你能比较 RT-1/RT-2/OpenVLA/π0 四条不同技术路径。

VLA 的瓶颈不是模型而是数据。这周读模仿学习 + 扩散策略。

Week 3 收获：你能跟人说清"为什么 Diffusion Policy 在 manipulation 上赢了 transformer"。

VLA 不是孤岛。这周读世界模型、仿真器、感知扩展。

Week 4 收获：你已经具备"读 2026 年新论文 abstract 不发蒙"的能力。

挑当周读过的 1 篇，关掉笔记尝试给同学/室友讲清楚（< 5 分钟）。讲不通的部分回去重读那部分。

◼ End of 30-day path. 走完一遍欢迎回来开第二遍——会比第一遍快很多。

Other beginner pages