学习路径地图
入门读者版 — 想读懂 AI 机器人论文,需要先学什么、可以跳过什么、按什么顺序补
你刚上路,物理化学还行,数学学到导数。想看看「AI 机器人论文」是什么样的——这页就是给你的地图。
这页不是论文导读,是「读论文之前要先补什么」的地图。
按你能掌握的程度分了 5 个阶段:
- 阶段 1:你现在已经会的(不用学)
- 阶段 2:你1 小时能补上的(一小时能学)
- 阶段 3:大学才正式教,但能用类比先听懂大概
- 阶段 4:真想往里走该怎么继续学
- 阶段 5:现阶段完全可以跳过的内容
每段我都标清楚:核心概念 + 一句话定义 + 高中知识类比 + 1-2 个能看懂的资源。
阶段 1:你现在已经会的(直接拿来用)
基础数学课本里学过的这些东西,已经够你听懂论文里 30% 的术语了。先把它们和 AI 里的对应物对上号,省一大半时间。
1.1 你已经会的 4 个工具
| 高中学的 | AI 里对应什么 | 一句话联系 |
|---|---|---|
| 集合(Venn 图、交并补) | 数据集分组、训练 / 测试集划分 | 全集 = 所有数据;训练集和测试集是两个不相交的子集 |
| 向量(坐标、加减、点乘) | 词向量、图像特征 | 一个词、一张图都能变成一组数字坐标 |
| 函数(输入 → 输出) | 模型本身 | 神经网络就是一个超级复杂的函数 y = f(x) |
| 概率(古典概型、条件概率) | 模型预测的"信心" | 模型说"是猫的概率 0.9",就是它对答案的信心 |
1.2 关键术语对接
向量(vector):一组按顺序排好的数字,比如
(3, 4, 5)。高中学的二维向量是 2 个数字,AI 里常用 768 个或更多。
两个向量"像不像":用点乘除以长度(也就是夹角余弦)。夹角越小越像,这就是后面 CLIP 模型的核心思路。
概率分布(probability distribution):把每个可能结果对应的概率列出来。比如骰子是均匀分布(每面 1/6)。模型输出"是猫 0.9、是狗 0.08、是兔 0.02"也是一个概率分布。
读到这里你应该懂了:高中数学里的向量、函数、概率,已经能让你看懂论文里很多地方在干嘛。
阶段 2:1 小时能补上的(一小时能学)
这些概念高中没学,但用高中知识 1 小时可以补上。补完之后 AI 论文里 60% 的数学就不再陌生。
2.1 矩阵:一张数字表格
矩阵(matrix):一张数字组成的表格,有行有列。比如
[[1,2,3],[4,5,6]]是一个 2 行 3 列的矩阵。
类比:Excel 表格里一片数据,就是矩阵。
矩阵相乘的规则:前一个的列数必须等于后一个的行数,结果的形状是「前者行数 × 后者列数」。
类比:拼乐高,接口形状必须对得上才能拼。
张量(tensor):矩阵的高维版本。一维张量 = 向量,二维 = 矩阵,三维 = 一摞矩阵叠起来(比如一张彩色图片是「高 × 宽 × 3 通道」的三维张量)。
资源(任选一个 30 分钟):
- 3Blue1Brown《线性代数的本质》第 1-3 集(B 站搜「线性代数的本质」,中文字幕)—— 不算公式,看动画就懂
- 可视化网站 https://www.3blue1brown.com/topics/linear-algebra
2.2 简单求导:找最低点
导数:函数在某一点的斜率。基础课程已经讲过。
偏导数(partial derivative):函数有多个输入时,只对其中一个输入求斜率,其他当成常数。比如
f(x, y) = x² + y²,对 x 的偏导是2x(把 y 当常数)。
类比:山的高度同时受南北方向(x)和东西方向(y)影响。偏导数就是"只看南北方向,地面是上坡还是下坡"。
梯度(gradient):把所有方向的偏导数合起来变成一个向量。这个向量指向"上山最陡的方向",反方向就是"下山最陡的方向"。
读到这里你应该懂了:偏导数 = 只盯一个变量看斜率,梯度 = 所有方向斜率打包成的向量。
2.3 简单概率分布
| 名字 | 一句话 + 例子 |
|---|---|
| 均匀分布 | 每个结果概率一样。骰子 |
| 正态分布(高斯) | 中间高两边低的钟形曲线。考试成绩、身高分布 |
| 条件概率 P(B|A) | 已知 A 发生,B 发生的概率 |
贝叶斯定理(Bayes' theorem):一句话——"已知某证据后,更新对原假设的相信程度"。比如「咳嗽的人里有多少是感冒的?」就是条件概率,用贝叶斯能反过来从「感冒的人有多少在咳嗽」算出来。
资源:
- B 站搜「3Blue1Brown 贝叶斯」中文字幕版(15 分钟看完,很直观)
读到这里你应该懂了:矩阵 = 数字表格,梯度 = 多变量斜率打包,贝叶斯 = 看到新证据后更新猜想。
阶段 3:大学才正式教,但能用类比"知道大概"
下面这些词你短期内不用真的会算,但 AI 论文里到处出现,必须先把"大概是什么"的直觉建好。
3.1 神经网络:一个有几百万旋钮的函数
神经网络(neural network):一个非常长的函数
y = f(x),里面有几百万个可调的小数(叫"参数"或"权重")。训练就是慢慢调这些数字。
类比:一台调音台有几百个旋钮,每个旋钮稍微转一点,最终输出的声音都不一样。神经网络就是有几百万个旋钮的调音台。
3.2 模型怎么"学":扣分越少越好
Loss(损失,"扣分总和"):衡量模型的输出离正确答案差多远的一个数字。越小越好,模型学习的目标就是想办法把这个分降下去。
类比:考试扣分总和。错得越多扣得越多,目标是少扣分。
梯度下降(gradient descent):模型每次微调几百万个旋钮,让 loss 变小一点点。
类比:你被蒙着眼放在山上,要走到山谷最低点。每一步都用脚摸出"哪个方向最陡向下",往那走一小步。重复几万次,就到谷底了。
想想看:如果学习率(每步迈多大)调到很大,会发生什么?
每步迈太大,可能跨过山谷直接到对面山坡——loss 反而变大。这叫"震荡"或"发散"。 所以训练神经网络时,学习率(learning rate, lr) 是最关键的超参数之一,太小学得慢,太大学不动。 现代优化器(Adam)会自动调整每个旋钮的步长,但起始 lr 还是要人选。
亲手玩一下:下面这个 TensorFlow Playground 让你实时调 lr 看 loss 怎么变。把右上角 Learning rate 滑到 1,会看到 loss 飞起来。
反向传播(backpropagation):算"每个旋钮该往哪边调多少"的具体方法。你不用现在懂数学,知道它是给梯度下降服务的工具就行。
3.3 处理图像:用小窗口扫
卷积(convolution):用一个小窗口(比如 3×3 像素)从图像左上角扫到右下角,每扫一次提取一点局部特征(边、角、纹理)。
类比:拿放大镜从左到右扫照片,每个位置记下一点信息。
3.4 处理文字 / 视频:注意力机制
token:模型读文字时切出来的小片段,介于"字"和"词"之间。比如「学习」可能切成
学习一个 token,「Photography」可能切成Photography两个。
类比:把蛋糕切片,每片是模型的最小输入单位。
embedding(向量化):把每个 token 变成一串数字(比如 768 个数)。这样"猫"和"狗"会变成两个数字坐标。
类比:把每个词放到一张高维「语义地图」上。意思像的词坐标也接近。
attention(注意力):模型在理解一个词时,会"看一眼"句子里其他词,决定每个其他词对它影响多大。
类比:你读到「它昨天逃跑了」时,眼睛会往前瞟去找「它」指的是什么。注意力机制就是把这种"瞟一眼"变成数学。
Transformer:把"注意力"叠很多层组成的一种神经网络结构。现在 90% 的大模型(包括 ChatGPT)都基于它。你只需要知道它是 AI 界目前的"主流房屋设计图"。
3.5 多模态:让模型同时看图听话
多模态(multimodal):模型能同时处理多种输入——图像、文字、声音、视频。
类比:人能边看图边听讲解理解事情;多模态模型也想做到。
CLIP:一种把"图"和"文字描述"放进同一个数字坐标系的模型。让"匹配的图文对"坐标接近,"不匹配的"坐标远离。
类比:磁铁——同极相斥(不匹配的图文推开),异极相吸(匹配的图文拉近)。
资源(强烈建议都看,加起来 2.5 小时):
- 3Blue1Brown《神经网络》系列 4 集,B 站中文字幕(共 1 小时)
- 3Blue1Brown《GPT 是什么》+《Attention》两集(共 1 小时)
- 李沐《CLIP 论文精读》B 站中文(30 分钟)
读到这里你应该懂了:神经网络 = 几百万旋钮的函数;loss = 扣分总和;梯度下降 = 蒙眼下山;Transformer = 一种主流网络结构;CLIP = 把图和文字坐标对齐。
阶段 4:真想继续学的话——按这个顺序
如果你大学想读 AI 方向,或者现在就想自己跑代码玩,按下面顺序走。
4.1 编程:Python(推荐 30-50 小时)
Python:一种很容易学的编程语言,AI 圈基本都用它。
学到什么程度停下:能看懂下面这段、能解释每行做什么——就够开始读论文了。
import torch
x = torch.randn(2, 3) # 一张 2 行 3 列的随机数字表格
y = torch.nn.Linear(3, 5)(x) # 让这张表格过一个"3 个数变 5 个数"的小函数
print(y.shape) # 看输出表格的形状是 (2, 5)
资源:
- 廖雪峰 Python 教程(中文,边学边查约 10 小时):https://liaoxuefeng.com/books/python/
- 哈佛 CS50P(中文字幕,视频 ~15 小时):https://cs50.harvard.edu/python/
4.2 PyTorch(推荐 10-15 小时)
PyTorch:一个 Python 工具箱,专门用来搭神经网络。
import torch就是把这个工具箱搬到你的工作台。
资源:
- 李沐《动手学深度学习》中文版前 5 章:https://zh.d2l.ai/
- 官方 60 分钟入门:https://pytorch.org/tutorials/beginner/deep_learning_60min_blitz.html
4.3 Hugging Face(推荐 5-10 小时)
Hugging Face:一个网站 + 工具库,别人训好的模型都放在那里,你下载下来就能用。类比:AI 界的 GitHub + 应用商店。
资源:
- 官方 NLP 课程(中文版):https://huggingface.co/learn/nlp-course/zh-CN/
4.4 机器学习直觉课(推荐看完)
资源(二选一即可,不要两个都看):
- 李宏毅《机器学习》2024 春,B 站中文(约 40 小时)
- 吴恩达《机器学习》新版,B 站中文字幕(约 30 小时)
读到这里你应该懂了:真想继续学,按 Python → PyTorch → Hugging Face → 机器学习课的顺序走,前后约 100 小时能入门。
阶段 5:入门阶段可以跳过的
下面这些短期内完全不用学——它们要么需要更深的数学背景,要么是研究生才用的工具,现在硬学反而劝退。
| 跳过项 | 理由 |
|---|---|
| 反向传播的数学推导 | 用类比理解就够;真要算等大学学完线性代数 + 多元微积分再说 |
| 强化学习的所有公式(Bellman 方程、PPO 推导等) | 用"打游戏拿分"的类比够看懂 90% 的论文,公式现在硬学劝退 |
| 信息论(熵、KL 散度) | 大一概率论后再说 |
| 卡尔曼滤波、SLAM 数学细节 | 知道 SLAM 是「一边走路一边画地图」就够 |
| 扩散模型(diffusion)的数学 | 知道它是"从噪声里慢慢恢复出图"就够 |
| 自己从零写 Transformer | 跑通别人的代码就行,从零写是研究生练手活 |
| Linux 命令行进阶 | 会 cd、ls、python xxx.py 就够 |
| C++ / CUDA | 写论文级研究才需要 |
强化学习(reinforcement learning, RL):一种让 AI "在游戏里靠拿分慢慢学策略"的训练方法。类比:你打超级马里奥,吃金币 +10、掉坑 -100,玩多了自然学会怎么过关。
SLAM(同时定位与建图):机器人一边走路一边画地图、还得知道自己现在在地图哪个位置。类比:你蒙着眼进一个新房间,靠摸墙慢慢画出房间形状。
读到这里你应该懂了:入门阶段会矩阵、梯度、Python 基础就能开始读论文;公式和高级工具大学再补不迟。
附录:13 篇论文推荐先读哪篇
如果阶段 1-3 看完了,可以先挑 1 篇最简单的论文笔记开读:
| 顺序 | 论文 | 为什么先读 |
|---|---|---|
| 1 | LLaVA | 多模态最经典入口,只需要懂阶段 3 的 Transformer + CLIP |
| 2 | mmCLIP | 在 LLaVA 基础上把"图"换成"无线电信号",强化 CLIP 思想 |
| 3 | SayCan | 把大语言模型接到机器人上,思路直观 |
| 4+ | 其他 10 篇 | 按你的兴趣方向选——感知 / 听觉 / 3D / 射频 |
用 AI 当陪读:3 个万能 prompt
读论文卡住时,复制下面的话给 ChatGPT 或 Claude:
1. "我刚入门,会向量、概率、简单导数。我在读 [论文名],遇到一个词 [X]。
请用基础知识打类比解释 [X],不要超过 100 字,不要引入新术语。"
2. "把这段论文翻译成「读者能听懂」的中文,
每个专业名词第一次出现时用括号给一句类比解释:
<粘贴英文段落>"
3. "我对 [论文名] 第 [N] 段有疑问:[贴段落]。
假设我懂神经网络是「几百万旋钮的函数」、loss 是「扣分总和」,
这段哪些点必须搞懂、哪些可以跳过?"
最后一句:地图画完了。先把阶段 1、2 对完号,阶段 3 看完 3Blue1Brown 那 6 集,再来挑一篇论文开读——比从头啃完所有教材高效十倍。
中文学习资源(B 站 / 知乎 / 公众号)
看英文教程吃力?下面是国内具身智能 / VLA 入门最有用的中文系列。视频排第一档(看就懂)、文章排第二档(深度更高)。
0. 名词速查(看资源前先扫一遍)
- 具身智能(Embodied AI):让 AI 长一个"身体",通过机器人 / 机械臂在真实世界感知、决策、行动,而不是只产文字图片。类比:"只会刷题的学霸 → 会做实验的学霸"。
- VLA(Vision-Language-Action):视觉-语言-动作模型。输入摄像头画面 + 一句中文指令("把红色方块放进盒子"),直接输出机器人电机要发的动作序列。
- 模仿学习 / Imitation Learning:人类先示范几遍,模型学着抄。类比"师傅带徒弟"。
- 强化学习 / RL:让机器人自己试错,做对了加分。类比"打游戏靠 Game Over 学操作"。
- Sim2Real:先在仿真器(Isaac / MuJoCo)里训,再迁移到真机。类比"先开模拟驾驶舱,再开真飞机"。
A. B 站系列教程(视频 / 中文 / 高完整度)
A1. 跟李沐学 AI(B 站频道)
- 链接:https://space.bilibili.com/1567748478
- 一句话定位:亚马逊前首席科学家李沐,B 站最权威的中文 AI 教学频道,"动手学深度学习"+"论文精读"两大系列均在此频道更新。
- 难度:⭐⭐
- 推荐时机:最先打开,作为入门主线频道收藏。
A2. 动手学深度学习 v2(李沐)
- 链接:https://courses.d2l.ai/zh-v2/ | 配套书 https://zh-v2.d2l.ai/
- 一句话定位:CNN / RNN / Transformer / BERT 全套,每节配 PyTorch 代码 Jupyter,被国内一票大学拿来当教材。
- 难度:⭐⭐
- 推荐时机:学完 Python 基础后第一门系统课。
A3. 论文精读系列(李沐)— 精读 Transformer / ViT / CLIP / GAN
- 链接:https://space.bilibili.com/1567748478/lists/358497?type=series
- 一句话定位:李沐逐句念论文 + 当场吐槽,把"看论文"门槛打穿;首推 Transformer 一期(2.5h,看完直接秒懂注意力)。
- 难度:⭐⭐⭐
- 推荐时机:A2 学完 Transformer 章节后立刻看。
A4. 李宏毅《机器学习》2024(台大 / 国语)
- 链接(B 站搬运合集):https://www.bilibili.com/video/BV1Sd4tepEot/
- 一句话定位:用宝可梦 / 凉宫春日讲机器学习概念,零基础最佳起点;2024 已并入"生成式 AI 导论"主题。
- 难度:⭐
- 推荐时机:完全 0 基础先看 2-3 节预习"什么是模型 / 什么是 loss"。
A5. 李宏毅《生成式 AI 导论 2024》
- 链接:https://www.bilibili.com/video/BV1tsNDe4E2i/
- 一句话定位:聚焦 LLM / 多模态 / Agent / 加速生成;为后续读 VLA(视觉-语言-动作)打"语言模型"地基。
- 难度:⭐⭐
- 推荐时机:A4 看完后无缝衔接。
A6. 周博磊《强化学习纲要》(港中文 / B 站)
- 链接:https://www.bilibili.com/video/av96834288 | 课件 https://github.com/zhoubolei/introRL
- 一句话定位:中文世界最系统的 RL 公开课,PPT+板书,从 MDP 到 PPO 全覆盖。VLA 后训练 / 机器人控制都需要 RL。
- 难度:⭐⭐⭐
- 推荐时机:要读 OpenVLA / RT-2 论文中"动作微调"章节前看。
A7. 尤里卡 AI《具身智能导学(适合 0 基础)》
- 链接:https://www.bilibili.com/cheese/play/ss196866090
- 一句话定位:39 课时小课,专攻 OpenVLA 部署 + VLA 概念;视频试看免费,付费内容是文档+代码。
- 难度:⭐⭐
- 推荐时机:通读完 A1-A4 后想要"从概念走向第一行机器人代码"时。
A8. 尤里卡 AI《具身智能入门_OpenVLA 复现》(B 站免费视频)
- 链接:https://www.bilibili.com/video/BV1VAMnznEkG/
- 一句话定位:1 小时跟跑式视频,演示如何把 OpenVLA 在自己机器上跑起来;"不付费版"。
- 难度:⭐⭐⭐
- 推荐时机:A7 觉得太长,先看这个找感觉。
A9. 算法与数学之美《宇树 G1 实战课》
- 链接:https://m.sohu.com/a/1028914405_701814/(介绍页)
- 一句话定位:以宇树 G1 人形机器人为载体,11 个项目实战覆盖强化学习 + 复杂地形 + 动作模仿;偏运控(机器人腿怎么走),不是 VLA。
- 难度:⭐⭐⭐⭐
- 推荐时机:对"人形机器人怎么站起来"好奇时;不是 VLA 主线必看。
A10. 北大博雅人工智能讲堂《大模型赋能的人形机器人》(王鹤)
- 关键词搜:B 站搜"博雅人工智能讲堂 王鹤"
- 一句话定位:北大助理教授 + 银河通用 CTO 王鹤的公开讲座,1.5h 浓缩"为什么需要 VLA + 合成数据"。
- 难度:⭐⭐⭐
- 推荐时机:想知道"国内具身的研究到哪了"时。
B. 中文公众号 / 知乎 / CSDN 专栏
B1. 机器之心|《北大-灵初重磅发布具身 VLA 全面综述》
- 链接:https://m.10100.com/article/2704071(机器之心转载)
- 一句话定位:8 种主流 action token 拆解,VLA 技术路线全景图;中文长文里最权威的一篇综述导读。
- 难度:⭐⭐⭐
- 推荐时机:扫完一两个 B 站视频后,想要"全景概览"时读。
B2. 量子位|《最火 VLA,看这一篇综述就够了》
- 链接:http://m.toutiao.com/group/7567299209209053696/
- 一句话定位:把 VLA 6 大趋势(效率优化 / 视频预测 / Diffusion / ...)拍平讲,含 HyperVLA / AutoQVLA / Cosmos 关键工作。
- 难度:⭐⭐⭐
- 推荐时机:B1 之后第二篇综述。
B3. CSDN 具身智能之心《VLA 主流方案全解析》
- 链接:https://blog.csdn.net/CV_Autobot/article/details/145603274
- 一句话定位:基于 Transformer / Diffusion / 自回归 三大类 VLA 方案对比;含 ALOHA、RT-1、HPT、π0 项目地址。
- 难度:⭐⭐⭐
- 推荐时机:决定"我要复现哪个项目"前对比用。
B4. 知乎《具身智能入门指南》(开源 Embodied-AI-Guide 中文化)
- CSDN 镜像:https://blog.csdn.net/yiwei1225/article/details/145184685
- 原仓库:https://github.com/TianxingChen/Embodied-AI-Guide
- 一句话定位:全网最系统的中文具身入门 roadmap,按"基础→算法→仿真→数据"分章,6.2k 阅读。
- 难度:⭐⭐
- 推荐时机:第一周用来"对清楚要学的全图"。
B5. 知乎魔珐星云《小鸡毛的具身智能 VLA 入门自学路线》
- 链接:https://xingyun3d.csdn.net/69ddfbb072111d255bf8c064.html
- 一句话定位:作者本人 300 小时自学路线复盘,明确给出"Python → DL → PyTorch → Transformer → 生成 → 模仿/RL → OpenVLA/π" 七阶。
- 难度:⭐⭐
- 推荐时机:想抄一份"过来人的 KPI 清单"时。
B6. CSDN《具身智能论文精读(四):Diffusion Policy》
- 链接:https://blog.csdn.net/m0_56263746/article/details/160667039
- 一句话定位:Diffusion Policy 是 2023 年来"模仿学习的主流方案"。文章中文翻译 + 注解原论文。
- 难度:⭐⭐⭐
- 推荐时机:A6 RL 学过、想知道"为什么现在大家都用扩散"时读。
B7. 稀土掘金《RT-2 学习笔记 — VLA 范式》
- 链接:https://juejin.cn/post/7605214360084283428
- 一句话定位:RT-2 是 VLA 开山之作;本文用三个问题(Tokenization / Data Mixing / 涌现能力)穿起来读。
- 难度:⭐⭐⭐
- 推荐时机:读 VLA 论文第一篇就读它。
B8. 王晋东《迁移学习简明手册 / 迁移学习导论》
- 仓库:https://github.com/jindongwang/transferlearning
- 一句话定位:知乎"王晋东不在家"自维护,迁移学习中文最佳入门;具身智能 Sim2Real 实质就是迁移学习。
- 难度:⭐⭐
- 推荐时机:研究 Sim2Real 时回头补这本。
B9. 微软亚洲研究院《AI Next 播客 S1E2:从世界模型到具身智能》
- 链接:https://www.microsoft.com/en-us/research/articles/ai-next-podcast-s1e2/
- 一句话定位:MSRA 郭百宁 vs 边江对谈,把"世界模型 / 具身智能 / 游戏训练场"几个概念串清楚;30min 通勤友好。
- 难度:⭐⭐
- 推荐时机:想要"换换脑子听音频"时。
B10. 澎湃新闻《李飞飞:空间智能是 AI 下一个前沿》(机器之心译版)
- 链接:https://m.thepaper.cn/newsDetail_forward_31939684
- 一句话定位:李飞飞 11/2025 长文中译,把"语言模型 → 空间智能"的下一步野心讲透;具身智能的"为什么重要"答案。
- 难度:⭐
- 推荐时机:开头第一篇科普文。
B11. 量子位《200 位具身从业者沙龙纪要》
- 链接:http://m.toutiao.com/group/7633657217254605362/
- 一句话定位:2026.04 现场实录,2 万小时数据真正有效的可能不到 3000 小时——产业最新真问题。
- 难度:⭐⭐
- 推荐时机:跟踪行业现状 / 找研究痛点时。
B12. 智元官网《GO-1:ViLLA 架构通用具身基座》
- 链接:https://www.zhiyuan-robot.com/article/189/detail/56.html
- 一句话定位:智元 2025.03 发布通用基座大模型 GO-1,提出 ViLLA = VLM + MoE + Latent Planner + Action Expert;国内第一个公开 VLA 大模型架构白皮书。
- 难度:⭐⭐⭐⭐
- 推荐时机:B7 读完,想看"国内是怎么改 VLA"时。
B13. 智元官网《GenieReasoner:一体化具身大小脑》
- 链接:https://www.zhiyuan-robot.com/article/315/detail/118.html
- 一句话定位:智元 2026.01 二代系统,把"语义推理 + 动作控制"梯度冲突问题正式提出来 + 开源 ERIQ 评测基准。
- 难度:⭐⭐⭐⭐
- 推荐时机:B12 之后追更。
B14. 智元 / 银河通用 / 千寻 / 它石智航 公司公开发布
- 关键词聚合:B11 / B12 / B13 / 它石智航 AWE3.0
- 一句话定位:四家国内具身一线公司近半年的产品发布稿,是"行业现在做到哪一步"的最快入口。
- 难度:⭐⭐
- 推荐时机:每月扫一次跟进。
C. GitHub 中文教程 / 开源项目
C1. 动手学深度学习(d2l-zh)
- 仓库:https://github.com/d2l-ai/d2l-zh | 在线书 https://zh-v2.d2l.ai/
- 一句话定位:A2 课程的代码 + 教材;25k+ star。
- 难度:⭐⭐
- 推荐时机:跟 A2 视频同步开。
C2. Datawhale every-embodied
- 仓库:https://github.com/datawhalechina/every-embodied
- 一句话定位:Datawhale 2026.04 开源的中文具身导航实战教程,"半天跑通感知→决策→规划→控制"全链路;1k+ star。
- 难度:⭐⭐⭐
- 推荐时机:在 B4 路线图后第一个动手项目。
C3. Datawhale《具身智能基础与机器人控制》组队学习
- 介绍:https://blog.csdn.net/weixin_42291933/article/details/161235245
- 一句话定位:Datawhale 2026.05 开的免费组队学,task1 涵盖空间运动 / PID / Habitat 仿真导航。
- 难度:⭐⭐⭐
- 推荐时机:想要"有同伴 + 有 deadline"时报名。
C4. Embodied-AI-Guide(中文 awesome 仓库)
- 仓库:https://github.com/TianxingChen/Embodied-AI-Guide
- 一句话定位:B4 的源仓库;维护非常活跃,按"启动 / 算法 / 工具 / 论文清单"分章,社区最权威中文 awesome。
- 难度:⭐⭐
- 推荐时机:长期挂在浏览器收藏夹。
C5. zhoubolei/introRL
- 仓库:https://github.com/zhoubolei/introRL
- 一句话定位:A6 课程的 PPT + 作业;中文 RL 入门最完整开源资料。
- 难度:⭐⭐⭐
- 推荐时机:跟 A6 视频同步看 slides。
C6. jindongwang/transferlearning
- 仓库:https://github.com/jindongwang/transferlearning
- 一句话定位:B8 的代码仓库;7k+ star,含中文 PDF 手册。
- 难度:⭐⭐⭐
- 推荐时机:Sim2Real 主题深入。
C7. zchoi/Awesome-Embodied-Robotics-and-Agent
- 仓库:https://github.com/zchoi/Awesome-Embodied-Robotics-and-Agent
- 一句话定位:英文仓库但被国内圈子高频引用;按硬件/软件栈/数据集/Benchmark 分类,比 C4 更偏研究者。
- 难度:⭐⭐⭐
- 推荐时机:C4 看完后进阶。
D. 国内研究机构 / 学者主页(追更入口)
D1. 北大王鹤实验室(具身感知与交互实验室)
- 主页:https://hughw19.github.io/
- 一句话定位:王鹤主页 + 论文清单;国内具身 VLA 学术起源之一(NOCS / GAPartNet / Galbot 系列)。
- 难度:⭐⭐⭐⭐
- 推荐时机:要找有引用的硬核论文时。
D2. 上交人工智能学院 / 卢策吾实验室
- 上交人工智能学院:https://ai.sjtu.edu.cn/
- 一句话定位:上交 2026 年开了"具身智能拔尖班"(全国首个本科级),卢策吾任带头人;新闻稿里能扒到他们的研究方向。
- 难度:⭐⭐⭐⭐
- 推荐时机:要找研究生学校时。
D3. 银河通用 Galbot 官网 / 论文页
- 链接:https://galbot.com/(含 paper 列表)
- 一句话定位:王鹤创立公司,核心做"合成数据 + VLA 大模型";G1 商场试运营案例多。
- 难度:⭐⭐⭐
- 推荐时机:想看"VLA 在真实场景跑起来什么样"时。
D4. 智元机器人 论文 / 白皮书页
- 链接:https://www.zhiyuan-robot.com/news/article(公司新闻)
- 一句话定位:稚晖君任 CTO;2026.03 累计 1 万台机器人下线,是国内第一家做到"产业化"的具身公司。
- 难度:⭐⭐
- 推荐时机:B14 同。
D5. 宇树 Unitree 论文 / 开源
- 主页:https://www.unitree.com/cn | GitHub https://github.com/unitreerobotics
- 一句话定位:四足 + G1 人形开源生态最完整;运控算法 + 仿真环境对外免费。
- 难度:⭐⭐⭐⭐
- 推荐时机:研究"硬件层 / 运动控制"时。
D6. NVIDIA GTC 2026 王鹤演讲《工业级具身智能从概念走向现实》
- 链接:https://www.nvidia.cn/on-demand/session/gtc26-s82127/
- 一句话定位:王鹤在 NVIDIA GTC 上的中文实录 + 视频;演示 Galbot G1 + Isaac Sim 训练管线。
- 难度:⭐⭐⭐
- 推荐时机:想看"产业 + 仿真 + VLA"全栈样例时。
E. 推荐学习路径(把上面 30+ 条串起来)
第 1 周(科普 + 立目标)
B10 李飞飞空间智能 → B4 入门指南 → A4 李宏毅 ML 前 3 节
第 2-4 周(深度学习地基)
A2 d2l + C1 仓库 → A3 Transformer 精读
第 5-6 周(VLA 概念)
A5 生成式 AI 导论 → B1 + B2 VLA 综述 → B7 RT-2 笔记
第 7-8 周(动手)
A8 OpenVLA 复现视频 → C2 Datawhale every-embodied
第 9 周后(深入分支)
RL 路:A6 周博磊 + C5 introRL
生成模型路:B6 Diffusion Policy
工业落地路:B14 + D6
F. 链接验证状态
调研日期:2026-05-31。所有链接以 lr websearch general 返回的 URL 为准;CSDN / 哔哩哔哩 / 公众号转载链接长期可访问,B 站视频偶有下架风险(建议见到立即收藏)。智元官网与北大 / 上交学院主页为机构官方域名,稳定性最高。