Learn · Beginner Track

学习路径地图

入门读者版 — 想读懂 AI 机器人论文，需要先学什么、可以跳过什么、按什么顺序补

你刚上路，物理化学还行，数学学到导数。想看看「AI 机器人论文」是什么样的——这页就是给你的地图。

这页不是论文导读，是「读论文之前要先补什么」的地图。

按你能掌握的程度分了 5 个阶段：

阶段 1：你现在已经会的（不用学）
阶段 2：你1 小时能补上的（一小时能学）
阶段 3：大学才正式教，但能用类比先听懂大概
阶段 4：真想往里走该怎么继续学
阶段 5：现阶段完全可以跳过的内容

每段我都标清楚：核心概念 + 一句话定义 + 高中知识类比 + 1-2 个能看懂的资源。

阶段 1：你现在已经会的（直接拿来用）

基础数学课本里学过的这些东西，已经够你听懂论文里 30% 的术语了。先把它们和 AI 里的对应物对上号，省一大半时间。

1.1 你已经会的 4 个工具

高中学的	AI 里对应什么	一句话联系
集合（Venn 图、交并补）	数据集分组、训练 / 测试集划分	全集 = 所有数据；训练集和测试集是两个不相交的子集
向量（坐标、加减、点乘）	词向量、图像特征	一个词、一张图都能变成一组数字坐标
函数（输入 → 输出）	模型本身	神经网络就是一个超级复杂的函数 `y = f(x)`
概率（古典概型、条件概率）	模型预测的"信心"	模型说"是猫的概率 0.9"，就是它对答案的信心

1.2 关键术语对接

向量（vector）：一组按顺序排好的数字，比如 (3, 4, 5)。高中学的二维向量是 2 个数字，AI 里常用 768 个或更多。

两个向量"像不像"：用点乘除以长度（也就是夹角余弦）。夹角越小越像，这就是后面 CLIP 模型的核心思路。

概率分布（probability distribution）：把每个可能结果对应的概率列出来。比如骰子是均匀分布（每面 1/6）。模型输出"是猫 0.9、是狗 0.08、是兔 0.02"也是一个概率分布。

读到这里你应该懂了：高中数学里的向量、函数、概率，已经能让你看懂论文里很多地方在干嘛。

阶段 2：1 小时能补上的（一小时能学）

这些概念高中没学，但用高中知识 1 小时可以补上。补完之后 AI 论文里 60% 的数学就不再陌生。

2.1 矩阵：一张数字表格

矩阵（matrix）：一张数字组成的表格，有行有列。比如 [[1,2,3],[4,5,6]] 是一个 2 行 3 列的矩阵。

类比：Excel 表格里一片数据，就是矩阵。

矩阵相乘的规则：前一个的列数必须等于后一个的行数，结果的形状是「前者行数 × 后者列数」。

类比：拼乐高，接口形状必须对得上才能拼。

张量（tensor）：矩阵的高维版本。一维张量 = 向量，二维 = 矩阵，三维 = 一摞矩阵叠起来（比如一张彩色图片是「高 × 宽 × 3 通道」的三维张量）。

资源（任选一个 30 分钟）：

3Blue1Brown《线性代数的本质》第 1-3 集（B 站搜「线性代数的本质」，中文字幕）—— 不算公式，看动画就懂
可视化网站 https://www.3blue1brown.com/topics/linear-algebra

2.2 简单求导：找最低点

导数：函数在某一点的斜率。基础课程已经讲过。

偏导数（partial derivative）：函数有多个输入时，只对其中一个输入求斜率，其他当成常数。比如 f(x, y) = x² + y²，对 x 的偏导是 2x（把 y 当常数）。

类比：山的高度同时受南北方向（x）和东西方向（y）影响。偏导数就是"只看南北方向，地面是上坡还是下坡"。

梯度（gradient）：把所有方向的偏导数合起来变成一个向量。这个向量指向"上山最陡的方向"，反方向就是"下山最陡的方向"。

读到这里你应该懂了：偏导数 = 只盯一个变量看斜率，梯度 = 所有方向斜率打包成的向量。

2.3 简单概率分布

名字	一句话 + 例子
均匀分布	每个结果概率一样。骰子
正态分布（高斯）	中间高两边低的钟形曲线。考试成绩、身高分布
条件概率 P(B\|A)	已知 A 发生，B 发生的概率

贝叶斯定理（Bayes' theorem）：一句话——"已知某证据后，更新对原假设的相信程度"。比如「咳嗽的人里有多少是感冒的？」就是条件概率，用贝叶斯能反过来从「感冒的人有多少在咳嗽」算出来。

资源：

B 站搜「3Blue1Brown 贝叶斯」中文字幕版（15 分钟看完，很直观）

读到这里你应该懂了：矩阵 = 数字表格，梯度 = 多变量斜率打包，贝叶斯 = 看到新证据后更新猜想。

阶段 3：大学才正式教，但能用类比"知道大概"

下面这些词你短期内不用真的会算，但 AI 论文里到处出现，必须先把"大概是什么"的直觉建好。

3.1 神经网络：一个有几百万旋钮的函数

神经网络（neural network）：一个非常长的函数 y = f(x)，里面有几百万个可调的小数（叫"参数"或"权重"）。训练就是慢慢调这些数字。

类比：一台调音台有几百个旋钮，每个旋钮稍微转一点，最终输出的声音都不一样。神经网络就是有几百万个旋钮的调音台。

3.2 模型怎么"学"：扣分越少越好

Loss（损失，"扣分总和"）：衡量模型的输出离正确答案差多远的一个数字。越小越好，模型学习的目标就是想办法把这个分降下去。

类比：考试扣分总和。错得越多扣得越多，目标是少扣分。

梯度下降（gradient descent）：模型每次微调几百万个旋钮，让 loss 变小一点点。

类比：你被蒙着眼放在山上，要走到山谷最低点。每一步都用脚摸出"哪个方向最陡向下"，往那走一小步。重复几万次，就到谷底了。

想想看：如果学习率（每步迈多大）调到很大，会发生什么？

每步迈太大，可能跨过山谷直接到对面山坡——loss 反而变大。这叫"震荡"或"发散"。所以训练神经网络时，学习率（learning rate, lr） 是最关键的超参数之一，太小学得慢，太大学不动。现代优化器（Adam）会自动调整每个旋钮的步长，但起始 lr 还是要人选。

亲手玩一下：下面这个 TensorFlow Playground 让你实时调 lr 看 loss 怎么变。把右上角 Learning rate 滑到 1，会看到 loss 飞起来。

↑ 拖动 Learning rate（左上）然后点播放，看 loss 曲线（右下）怎么变

反向传播（backpropagation）：算"每个旋钮该往哪边调多少"的具体方法。你不用现在懂数学，知道它是给梯度下降服务的工具就行。

3.3 处理图像：用小窗口扫

卷积（convolution）：用一个小窗口（比如 3×3 像素）从图像左上角扫到右下角，每扫一次提取一点局部特征（边、角、纹理）。

类比：拿放大镜从左到右扫照片，每个位置记下一点信息。

3.4 处理文字 / 视频：注意力机制

token：模型读文字时切出来的小片段，介于"字"和"词"之间。比如「学习」可能切成 学习 一个 token，「Photography」可能切成 Photo graphy 两个。

类比：把蛋糕切片，每片是模型的最小输入单位。

embedding（向量化）：把每个 token 变成一串数字（比如 768 个数）。这样"猫"和"狗"会变成两个数字坐标。

类比：把每个词放到一张高维「语义地图」上。意思像的词坐标也接近。

attention（注意力）：模型在理解一个词时，会"看一眼"句子里其他词，决定每个其他词对它影响多大。

类比：你读到「它昨天逃跑了」时，眼睛会往前瞟去找「它」指的是什么。注意力机制就是把这种"瞟一眼"变成数学。

Transformer：把"注意力"叠很多层组成的一种神经网络结构。现在 90% 的大模型（包括 ChatGPT）都基于它。你只需要知道它是 AI 界目前的"主流房屋设计图"。

3.5 多模态：让模型同时看图听话

多模态（multimodal）：模型能同时处理多种输入——图像、文字、声音、视频。

类比：人能边看图边听讲解理解事情；多模态模型也想做到。

CLIP：一种把"图"和"文字描述"放进同一个数字坐标系的模型。让"匹配的图文对"坐标接近，"不匹配的"坐标远离。

类比：磁铁——同极相斥（不匹配的图文推开），异极相吸（匹配的图文拉近）。

资源（强烈建议都看，加起来 2.5 小时）：

3Blue1Brown《神经网络》系列 4 集，B 站中文字幕（共 1 小时）
3Blue1Brown《GPT 是什么》+《Attention》两集（共 1 小时）
李沐《CLIP 论文精读》B 站中文（30 分钟）

读到这里你应该懂了：神经网络 = 几百万旋钮的函数；loss = 扣分总和；梯度下降 = 蒙眼下山；Transformer = 一种主流网络结构；CLIP = 把图和文字坐标对齐。

阶段 4：真想继续学的话——按这个顺序

如果你大学想读 AI 方向，或者现在就想自己跑代码玩，按下面顺序走。

4.1 编程：Python（推荐 30-50 小时）

Python：一种很容易学的编程语言，AI 圈基本都用它。

学到什么程度停下：能看懂下面这段、能解释每行做什么——就够开始读论文了。

import torch
x = torch.randn(2, 3)            # 一张 2 行 3 列的随机数字表格
y = torch.nn.Linear(3, 5)(x)     # 让这张表格过一个"3 个数变 5 个数"的小函数
print(y.shape)                   # 看输出表格的形状是 (2, 5)

资源：

廖雪峰 Python 教程（中文，边学边查约 10 小时）：https://liaoxuefeng.com/books/python/
哈佛 CS50P（中文字幕，视频 ~15 小时）：https://cs50.harvard.edu/python/

4.2 PyTorch（推荐 10-15 小时）

PyTorch：一个 Python 工具箱，专门用来搭神经网络。import torch 就是把这个工具箱搬到你的工作台。

资源：

李沐《动手学深度学习》中文版前 5 章：https://zh.d2l.ai/
官方 60 分钟入门：https://pytorch.org/tutorials/beginner/deep_learning_60min_blitz.html

4.3 Hugging Face（推荐 5-10 小时）

Hugging Face：一个网站 + 工具库，别人训好的模型都放在那里，你下载下来就能用。类比：AI 界的 GitHub + 应用商店。

资源：

官方 NLP 课程（中文版）：https://huggingface.co/learn/nlp-course/zh-CN/

4.4 机器学习直觉课（推荐看完）

资源（二选一即可，不要两个都看）：

李宏毅《机器学习》2024 春，B 站中文（约 40 小时）
吴恩达《机器学习》新版，B 站中文字幕（约 30 小时）

读到这里你应该懂了：真想继续学，按 Python → PyTorch → Hugging Face → 机器学习课的顺序走，前后约 100 小时能入门。

阶段 5：入门阶段可以跳过的

下面这些短期内完全不用学——它们要么需要更深的数学背景，要么是研究生才用的工具，现在硬学反而劝退。

跳过项	理由
反向传播的数学推导	用类比理解就够；真要算等大学学完线性代数 + 多元微积分再说
强化学习的所有公式（Bellman 方程、PPO 推导等）	用"打游戏拿分"的类比够看懂 90% 的论文，公式现在硬学劝退
信息论（熵、KL 散度）	大一概率论后再说
卡尔曼滤波、SLAM 数学细节	知道 SLAM 是「一边走路一边画地图」就够
扩散模型（diffusion）的数学	知道它是"从噪声里慢慢恢复出图"就够
自己从零写 Transformer	跑通别人的代码就行，从零写是研究生练手活
Linux 命令行进阶	会 `cd`、`ls`、`python xxx.py` 就够
C++ / CUDA	写论文级研究才需要

强化学习（reinforcement learning, RL）：一种让 AI "在游戏里靠拿分慢慢学策略"的训练方法。类比：你打超级马里奥，吃金币 +10、掉坑 -100，玩多了自然学会怎么过关。

SLAM（同时定位与建图）：机器人一边走路一边画地图、还得知道自己现在在地图哪个位置。类比：你蒙着眼进一个新房间，靠摸墙慢慢画出房间形状。

读到这里你应该懂了：入门阶段会矩阵、梯度、Python 基础就能开始读论文；公式和高级工具大学再补不迟。

附录：13 篇论文推荐先读哪篇

如果阶段 1-3 看完了，可以先挑 1 篇最简单的论文笔记开读：

顺序	论文	为什么先读
1	LLaVA	多模态最经典入口，只需要懂阶段 3 的 Transformer + CLIP
2	mmCLIP	在 LLaVA 基础上把"图"换成"无线电信号"，强化 CLIP 思想
3	SayCan	把大语言模型接到机器人上，思路直观
4+	其他 10 篇	按你的兴趣方向选——感知 / 听觉 / 3D / 射频

用 AI 当陪读：3 个万能 prompt

读论文卡住时，复制下面的话给 ChatGPT 或 Claude：

1. "我刚入门，会向量、概率、简单导数。我在读 [论文名]，遇到一个词 [X]。
   请用基础知识打类比解释 [X]，不要超过 100 字，不要引入新术语。"

2. "把这段论文翻译成「读者能听懂」的中文，
   每个专业名词第一次出现时用括号给一句类比解释：
   <粘贴英文段落>"

3. "我对 [论文名] 第 [N] 段有疑问：[贴段落]。
   假设我懂神经网络是「几百万旋钮的函数」、loss 是「扣分总和」，
   这段哪些点必须搞懂、哪些可以跳过？"

最后一句：地图画完了。先把阶段 1、2 对完号，阶段 3 看完 3Blue1Brown 那 6 集，再来挑一篇论文开读——比从头啃完所有教材高效十倍。

中文学习资源（B 站 / 知乎 / 公众号）

看英文教程吃力？下面是国内具身智能 / VLA 入门最有用的中文系列。视频排第一档（看就懂）、文章排第二档（深度更高）。

0. 名词速查（看资源前先扫一遍）

具身智能（Embodied AI）：让 AI 长一个"身体"，通过机器人 / 机械臂在真实世界感知、决策、行动，而不是只产文字图片。类比："只会刷题的学霸 → 会做实验的学霸"。
VLA（Vision-Language-Action）：视觉-语言-动作模型。输入摄像头画面 + 一句中文指令（"把红色方块放进盒子"），直接输出机器人电机要发的动作序列。
模仿学习 / Imitation Learning：人类先示范几遍，模型学着抄。类比"师傅带徒弟"。
强化学习 / RL：让机器人自己试错，做对了加分。类比"打游戏靠 Game Over 学操作"。
Sim2Real：先在仿真器（Isaac / MuJoCo）里训，再迁移到真机。类比"先开模拟驾驶舱，再开真飞机"。

A. B 站系列教程（视频 / 中文 / 高完整度）

A1. 跟李沐学 AI（B 站频道）

链接：https://space.bilibili.com/1567748478
一句话定位：亚马逊前首席科学家李沐，B 站最权威的中文 AI 教学频道，"动手学深度学习"+"论文精读"两大系列均在此频道更新。
难度：⭐⭐
推荐时机：最先打开，作为入门主线频道收藏。

A2. 动手学深度学习 v2（李沐）

链接：https://courses.d2l.ai/zh-v2/ ｜配套书 https://zh-v2.d2l.ai/
一句话定位：CNN / RNN / Transformer / BERT 全套，每节配 PyTorch 代码 Jupyter，被国内一票大学拿来当教材。
难度：⭐⭐
推荐时机：学完 Python 基础后第一门系统课。

A3. 论文精读系列（李沐）— 精读 Transformer / ViT / CLIP / GAN

链接：https://space.bilibili.com/1567748478/lists/358497?type=series
一句话定位：李沐逐句念论文 + 当场吐槽，把"看论文"门槛打穿；首推 Transformer 一期（2.5h，看完直接秒懂注意力）。
难度：⭐⭐⭐
推荐时机：A2 学完 Transformer 章节后立刻看。

A4. 李宏毅《机器学习》2024（台大 / 国语）

链接（B 站搬运合集）：https://www.bilibili.com/video/BV1Sd4tepEot/
一句话定位：用宝可梦 / 凉宫春日讲机器学习概念，零基础最佳起点；2024 已并入"生成式 AI 导论"主题。
难度：⭐
推荐时机：完全 0 基础先看 2-3 节预习"什么是模型 / 什么是 loss"。

A5. 李宏毅《生成式 AI 导论 2024》

链接：https://www.bilibili.com/video/BV1tsNDe4E2i/
一句话定位：聚焦 LLM / 多模态 / Agent / 加速生成；为后续读 VLA（视觉-语言-动作）打"语言模型"地基。
难度：⭐⭐
推荐时机：A4 看完后无缝衔接。

A6. 周博磊《强化学习纲要》（港中文 / B 站）

链接：https://www.bilibili.com/video/av96834288 ｜课件 https://github.com/zhoubolei/introRL
一句话定位：中文世界最系统的 RL 公开课，PPT+板书，从 MDP 到 PPO 全覆盖。VLA 后训练 / 机器人控制都需要 RL。
难度：⭐⭐⭐
推荐时机：要读 OpenVLA / RT-2 论文中"动作微调"章节前看。

A7. 尤里卡 AI《具身智能导学（适合 0 基础）》

链接：https://www.bilibili.com/cheese/play/ss196866090
一句话定位：39 课时小课，专攻 OpenVLA 部署 + VLA 概念；视频试看免费，付费内容是文档+代码。
难度：⭐⭐
推荐时机：通读完 A1-A4 后想要"从概念走向第一行机器人代码"时。

A8. 尤里卡 AI《具身智能入门_OpenVLA 复现》（B 站免费视频）

链接：https://www.bilibili.com/video/BV1VAMnznEkG/
一句话定位：1 小时跟跑式视频，演示如何把 OpenVLA 在自己机器上跑起来；"不付费版"。
难度：⭐⭐⭐
推荐时机：A7 觉得太长，先看这个找感觉。

A9. 算法与数学之美《宇树 G1 实战课》

链接：https://m.sohu.com/a/1028914405_701814/（介绍页）
一句话定位：以宇树 G1 人形机器人为载体，11 个项目实战覆盖强化学习 + 复杂地形 + 动作模仿；偏运控（机器人腿怎么走），不是 VLA。
难度：⭐⭐⭐⭐
推荐时机：对"人形机器人怎么站起来"好奇时；不是 VLA 主线必看。

A10. 北大博雅人工智能讲堂《大模型赋能的人形机器人》（王鹤）

关键词搜：B 站搜"博雅人工智能讲堂王鹤"
一句话定位：北大助理教授 + 银河通用 CTO 王鹤的公开讲座，1.5h 浓缩"为什么需要 VLA + 合成数据"。
难度：⭐⭐⭐
推荐时机：想知道"国内具身的研究到哪了"时。

B. 中文公众号 / 知乎 / CSDN 专栏

B1. 机器之心｜《北大-灵初重磅发布具身 VLA 全面综述》

链接：https://m.10100.com/article/2704071（机器之心转载）
一句话定位：8 种主流 action token 拆解，VLA 技术路线全景图；中文长文里最权威的一篇综述导读。
难度：⭐⭐⭐
推荐时机：扫完一两个 B 站视频后，想要"全景概览"时读。

B2. 量子位｜《最火 VLA，看这一篇综述就够了》

链接：http://m.toutiao.com/group/7567299209209053696/
一句话定位：把 VLA 6 大趋势（效率优化 / 视频预测 / Diffusion / ...）拍平讲，含 HyperVLA / AutoQVLA / Cosmos 关键工作。
难度：⭐⭐⭐
推荐时机：B1 之后第二篇综述。

B3. CSDN 具身智能之心《VLA 主流方案全解析》

链接：https://blog.csdn.net/CV_Autobot/article/details/145603274
一句话定位：基于 Transformer / Diffusion / 自回归三大类 VLA 方案对比；含 ALOHA、RT-1、HPT、π0 项目地址。
难度：⭐⭐⭐
推荐时机：决定"我要复现哪个项目"前对比用。

B4. 知乎《具身智能入门指南》（开源 Embodied-AI-Guide 中文化）

CSDN 镜像：https://blog.csdn.net/yiwei1225/article/details/145184685
原仓库：https://github.com/TianxingChen/Embodied-AI-Guide
一句话定位：全网最系统的中文具身入门 roadmap，按"基础→算法→仿真→数据"分章，6.2k 阅读。
难度：⭐⭐
推荐时机：第一周用来"对清楚要学的全图"。

B5. 知乎魔珐星云《小鸡毛的具身智能 VLA 入门自学路线》

链接：https://xingyun3d.csdn.net/69ddfbb072111d255bf8c064.html
一句话定位：作者本人 300 小时自学路线复盘，明确给出"Python → DL → PyTorch → Transformer → 生成 → 模仿/RL → OpenVLA/π" 七阶。
难度：⭐⭐
推荐时机：想抄一份"过来人的 KPI 清单"时。

B6. CSDN《具身智能论文精读（四）：Diffusion Policy》

链接：https://blog.csdn.net/m0_56263746/article/details/160667039
一句话定位：Diffusion Policy 是 2023 年来"模仿学习的主流方案"。文章中文翻译 + 注解原论文。
难度：⭐⭐⭐
推荐时机：A6 RL 学过、想知道"为什么现在大家都用扩散"时读。

B7. 稀土掘金《RT-2 学习笔记 — VLA 范式》

链接：https://juejin.cn/post/7605214360084283428
一句话定位：RT-2 是 VLA 开山之作；本文用三个问题（Tokenization / Data Mixing / 涌现能力）穿起来读。
难度：⭐⭐⭐
推荐时机：读 VLA 论文第一篇就读它。

B8. 王晋东《迁移学习简明手册 / 迁移学习导论》

仓库：https://github.com/jindongwang/transferlearning
一句话定位：知乎"王晋东不在家"自维护，迁移学习中文最佳入门；具身智能 Sim2Real 实质就是迁移学习。
难度：⭐⭐
推荐时机：研究 Sim2Real 时回头补这本。

B9. 微软亚洲研究院《AI Next 播客 S1E2：从世界模型到具身智能》

链接：https://www.microsoft.com/en-us/research/articles/ai-next-podcast-s1e2/
一句话定位：MSRA 郭百宁 vs 边江对谈，把"世界模型 / 具身智能 / 游戏训练场"几个概念串清楚；30min 通勤友好。
难度：⭐⭐
推荐时机：想要"换换脑子听音频"时。

B10. 澎湃新闻《李飞飞：空间智能是 AI 下一个前沿》（机器之心译版）

链接：https://m.thepaper.cn/newsDetail_forward_31939684
一句话定位：李飞飞 11/2025 长文中译，把"语言模型 → 空间智能"的下一步野心讲透；具身智能的"为什么重要"答案。
难度：⭐
推荐时机：开头第一篇科普文。

B11. 量子位《200 位具身从业者沙龙纪要》

链接：http://m.toutiao.com/group/7633657217254605362/
一句话定位：2026.04 现场实录，2 万小时数据真正有效的可能不到 3000 小时——产业最新真问题。
难度：⭐⭐
推荐时机：跟踪行业现状 / 找研究痛点时。

B12. 智元官网《GO-1：ViLLA 架构通用具身基座》

链接：https://www.zhiyuan-robot.com/article/189/detail/56.html
一句话定位：智元 2025.03 发布通用基座大模型 GO-1，提出 ViLLA = VLM + MoE + Latent Planner + Action Expert；国内第一个公开 VLA 大模型架构白皮书。
难度：⭐⭐⭐⭐
推荐时机：B7 读完，想看"国内是怎么改 VLA"时。

B13. 智元官网《GenieReasoner：一体化具身大小脑》

链接：https://www.zhiyuan-robot.com/article/315/detail/118.html
一句话定位：智元 2026.01 二代系统，把"语义推理 + 动作控制"梯度冲突问题正式提出来 + 开源 ERIQ 评测基准。
难度：⭐⭐⭐⭐
推荐时机：B12 之后追更。

B14. 智元 / 银河通用 / 千寻 / 它石智航公司公开发布

关键词聚合：B11 / B12 / B13 / 它石智航 AWE3.0
一句话定位：四家国内具身一线公司近半年的产品发布稿，是"行业现在做到哪一步"的最快入口。
难度：⭐⭐
推荐时机：每月扫一次跟进。

C. GitHub 中文教程 / 开源项目

C1. 动手学深度学习（d2l-zh）

仓库：https://github.com/d2l-ai/d2l-zh ｜在线书 https://zh-v2.d2l.ai/
一句话定位：A2 课程的代码 + 教材；25k+ star。
难度：⭐⭐
推荐时机：跟 A2 视频同步开。

C2. Datawhale every-embodied

仓库：https://github.com/datawhalechina/every-embodied
一句话定位：Datawhale 2026.04 开源的中文具身导航实战教程，"半天跑通感知→决策→规划→控制"全链路；1k+ star。
难度：⭐⭐⭐
推荐时机：在 B4 路线图后第一个动手项目。

C3. Datawhale《具身智能基础与机器人控制》组队学习

介绍：https://blog.csdn.net/weixin_42291933/article/details/161235245
一句话定位：Datawhale 2026.05 开的免费组队学，task1 涵盖空间运动 / PID / Habitat 仿真导航。
难度：⭐⭐⭐
推荐时机：想要"有同伴 + 有 deadline"时报名。

C4. Embodied-AI-Guide（中文 awesome 仓库）

仓库：https://github.com/TianxingChen/Embodied-AI-Guide
一句话定位：B4 的源仓库；维护非常活跃，按"启动 / 算法 / 工具 / 论文清单"分章，社区最权威中文 awesome。
难度：⭐⭐
推荐时机：长期挂在浏览器收藏夹。

C5. zhoubolei/introRL

仓库：https://github.com/zhoubolei/introRL
一句话定位：A6 课程的 PPT + 作业；中文 RL 入门最完整开源资料。
难度：⭐⭐⭐
推荐时机：跟 A6 视频同步看 slides。

C6. jindongwang/transferlearning

仓库：https://github.com/jindongwang/transferlearning
一句话定位：B8 的代码仓库；7k+ star，含中文 PDF 手册。
难度：⭐⭐⭐
推荐时机：Sim2Real 主题深入。

C7. zchoi/Awesome-Embodied-Robotics-and-Agent

仓库：https://github.com/zchoi/Awesome-Embodied-Robotics-and-Agent
一句话定位：英文仓库但被国内圈子高频引用；按硬件/软件栈/数据集/Benchmark 分类，比 C4 更偏研究者。
难度：⭐⭐⭐
推荐时机：C4 看完后进阶。

D. 国内研究机构 / 学者主页（追更入口）

D1. 北大王鹤实验室（具身感知与交互实验室）

主页：https://hughw19.github.io/
一句话定位：王鹤主页 + 论文清单；国内具身 VLA 学术起源之一（NOCS / GAPartNet / Galbot 系列）。
难度：⭐⭐⭐⭐
推荐时机：要找有引用的硬核论文时。

D2. 上交人工智能学院 / 卢策吾实验室

上交人工智能学院：https://ai.sjtu.edu.cn/
一句话定位：上交 2026 年开了"具身智能拔尖班"（全国首个本科级），卢策吾任带头人；新闻稿里能扒到他们的研究方向。
难度：⭐⭐⭐⭐
推荐时机：要找研究生学校时。

D3. 银河通用 Galbot 官网 / 论文页

链接：https://galbot.com/（含 paper 列表）
一句话定位：王鹤创立公司，核心做"合成数据 + VLA 大模型"；G1 商场试运营案例多。
难度：⭐⭐⭐
推荐时机：想看"VLA 在真实场景跑起来什么样"时。

D4. 智元机器人论文 / 白皮书页

链接：https://www.zhiyuan-robot.com/news/article（公司新闻）
一句话定位：稚晖君任 CTO；2026.03 累计 1 万台机器人下线，是国内第一家做到"产业化"的具身公司。
难度：⭐⭐
推荐时机：B14 同。

D5. 宇树 Unitree 论文 / 开源

主页：https://www.unitree.com/cn ｜ GitHub https://github.com/unitreerobotics
一句话定位：四足 + G1 人形开源生态最完整；运控算法 + 仿真环境对外免费。
难度：⭐⭐⭐⭐
推荐时机：研究"硬件层 / 运动控制"时。

D6. NVIDIA GTC 2026 王鹤演讲《工业级具身智能从概念走向现实》

链接：https://www.nvidia.cn/on-demand/session/gtc26-s82127/
一句话定位：王鹤在 NVIDIA GTC 上的中文实录 + 视频；演示 Galbot G1 + Isaac Sim 训练管线。
难度：⭐⭐⭐
推荐时机：想看"产业 + 仿真 + VLA"全栈样例时。

E. 推荐学习路径（把上面 30+ 条串起来）

第 1 周（科普 + 立目标）
  B10 李飞飞空间智能 → B4 入门指南 → A4 李宏毅 ML 前 3 节

第 2-4 周（深度学习地基）
  A2 d2l + C1 仓库 → A3 Transformer 精读

第 5-6 周（VLA 概念）
  A5 生成式 AI 导论 → B1 + B2 VLA 综述 → B7 RT-2 笔记

第 7-8 周（动手）
  A8 OpenVLA 复现视频 → C2 Datawhale every-embodied

第 9 周后（深入分支）
  RL 路：A6 周博磊 + C5 introRL
  生成模型路：B6 Diffusion Policy
  工业落地路：B14 + D6

F. 链接验证状态

调研日期：2026-05-31。所有链接以 lr websearch general 返回的 URL 为准；CSDN / 哔哩哔哩 / 公众号转载链接长期可访问，B 站视频偶有下架风险（建议见到立即收藏）。智元官网与北大 / 上交学院主页为机构官方域名，稳定性最高。

Other beginner pages