回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Syllabus · 30 天课程提纲

30 个检查框,30 天读完。

可勾选版本的 [30 天路径](/learn/path/)。每天勾完会存到浏览器,第二天回来自动恢复。完成度同步到顶部进度条。


Week 1 · 把视觉和语言连起来

本周收获 → 理解为什么所有 VLA 都先有一个 VLM

  1. BLIP
    弱标注 + 自我清洗
  2. BLIP-2
    Q-Former 桥接冻结的 VLM/LLM
  3. LLaVA
    MLP 把视觉特征注入 LLM
  4. Flamingo
    交错图文 + Perceiver Resampler
  5. 复习 + 整理 Glossary

Week 2 · 看懂 VLA 的进化

本周收获 → 讲清机器人怎么从看图直接出关节速度

  1. RT-1
    把动作 token 化
  2. SayCan
    LLM 给候选 + 可行性打分
  3. Code as Policies
    LLM 直接写 Python 调机器人
  4. RT-2
    网络知识 → robot policy
  5. OpenVLA
    完全开源民主化
  6. pi_0
    VLM + flow matching head
  7. 复习 + 整理 VLA topic page

Week 3 · 数据、模仿、扩散

本周收获 → 明白 Diffusion Policy 为什么赢了 transformer 在 manipulation

  1. Universal Manipulation Interface
    野外采数据无需机器人
  2. Open X-Embodiment
    22 家机构数据合一
  3. Diffusion Policy
    选动作 = 去噪
  4. 3D Diffusion Policy
    加 3D 点云做眼睛
  5. 复习 + 整理 Imitation topic

Week 4 · 周边生态

本周收获 → 具备读 2026 年新论文 abstract 不发蒙的能力

  1. World Models
    在脑子里预演
  2. Dreamer V3
    跨域固定超参世界模型
  3. Genie
    无标签视频学潜在动作
  4. Habitat
    室内仿真器照片级
  5. Isaac Gym
    GPU 并行物理仿真
  6. ImageBind
    六模态通过图像锚点
  7. Robust Speech Recognition via Large-Scale Weak Supervision
    弱标注 + 大规模 = 零样本 ASR
  8. 复习 + 看 Compare
  9. 写一篇自己的 review