Syllabus · 30 天课程提纲

30 个检查框，30 天读完。

可勾选版本的 [30 天路径](/learn/path/)。每天勾完会存到浏览器，第二天回来自动恢复。完成度同步到顶部进度条。

Week 1 · 把视觉和语言连起来

本周收获 → 理解为什么所有 VLA 都先有一个 VLM

Day 1
Learning Transferable Visual Models From Natural Language Supervision
图文进入同一坐标系
Day 2
BLIP
弱标注 + 自我清洗
Day 3
BLIP-2
Q-Former 桥接冻结的 VLM/LLM
Day 4
LLaVA
MLP 把视觉特征注入 LLM
Day 5
Flamingo
交错图文 + Perceiver Resampler
Day 6
Sigmoid Loss for Language Image Pre-Training
sigmoid 替换 softmax
Day 7
复习 + 整理 Glossary

Week 2 · 看懂 VLA 的进化

本周收获 → 讲清机器人怎么从看图直接出关节速度

Day 8
RT-1
把动作 token 化
Day 9
SayCan
LLM 给候选 + 可行性打分
Day 10
Code as Policies
LLM 直接写 Python 调机器人
Day 11
RT-2
网络知识 → robot policy
Day 12
OpenVLA
完全开源民主化
Day 13
pi_0
VLM + flow matching head
Day 14
复习 + 整理 VLA topic page

Week 3 · 数据、模仿、扩散

本周收获 → 明白 Diffusion Policy 为什么赢了 transformer 在 manipulation

Day 15
A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
误差累积 + 解决方案
Day 16
Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
双臂遥操作 + action chunking
Day 17
Universal Manipulation Interface
野外采数据无需机器人
Day 18
Open X-Embodiment
22 家机构数据合一
Day 19
Diffusion Policy
选动作 = 去噪
Day 20
3D Diffusion Policy
加 3D 点云做眼睛
Day 21
复习 + 整理 Imitation topic

Week 4 · 周边生态

本周收获 → 具备读 2026 年新论文 abstract 不发蒙的能力

Day 22
World Models
在脑子里预演
Day 23
Dreamer V3
跨域固定超参世界模型
Day 24
Genie
无标签视频学潜在动作
Day 25
Habitat
室内仿真器照片级
Day 26
Isaac Gym
GPU 并行物理仿真
Day 27
ImageBind
六模态通过图像锚点
Day 28
Robust Speech Recognition via Large-Scale Weak Supervision
弱标注 + 大规模 = 零样本 ASR
Day 29
复习 + 看 Compare
Day 30
写一篇自己的 review