回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Learn · Beginner Track

学习路径地图

入门读者版 — 想读懂 AI 机器人论文,需要先学什么、可以跳过什么、按什么顺序补

学习路径地图

你刚上路,物理化学还行,数学学到导数。想看看「AI 机器人论文」是什么样的——这页就是给你的地图。

这页不是论文导读,是「读论文之前要先补什么」的地图。

按你能掌握的程度分了 5 个阶段:

  • 阶段 1:你现在已经会的(不用学)
  • 阶段 2:你1 小时能补上的(一小时能学)
  • 阶段 3:大学才正式教,但能用类比先听懂大概
  • 阶段 4:真想往里走该怎么继续学
  • 阶段 5:现阶段完全可以跳过的内容

每段我都标清楚:核心概念 + 一句话定义 + 高中知识类比 + 1-2 个能看懂的资源。


阶段 1:你现在已经会的(直接拿来用)

基础数学课本里学过的这些东西,已经够你听懂论文里 30% 的术语了。先把它们和 AI 里的对应物对上号,省一大半时间。

1.1 你已经会的 4 个工具

高中学的 AI 里对应什么 一句话联系
集合(Venn 图、交并补) 数据集分组、训练 / 测试集划分 全集 = 所有数据;训练集和测试集是两个不相交的子集
向量(坐标、加减、点乘) 词向量、图像特征 一个词、一张图都能变成一组数字坐标
函数(输入 → 输出) 模型本身 神经网络就是一个超级复杂的函数 y = f(x)
概率(古典概型、条件概率) 模型预测的"信心" 模型说"是猫的概率 0.9",就是它对答案的信心

1.2 关键术语对接

向量(vector):一组按顺序排好的数字,比如 (3, 4, 5)。高中学的二维向量是 2 个数字,AI 里常用 768 个或更多。

两个向量"像不像":用点乘除以长度(也就是夹角余弦)。夹角越小越像,这就是后面 CLIP 模型的核心思路。

概率分布(probability distribution):把每个可能结果对应的概率列出来。比如骰子是均匀分布(每面 1/6)。模型输出"是猫 0.9、是狗 0.08、是兔 0.02"也是一个概率分布。

读到这里你应该懂了:高中数学里的向量、函数、概率,已经能让你看懂论文里很多地方在干嘛。


阶段 2:1 小时能补上的(一小时能学)

这些概念高中没学,但用高中知识 1 小时可以补上。补完之后 AI 论文里 60% 的数学就不再陌生。

2.1 矩阵:一张数字表格

矩阵(matrix):一张数字组成的表格,有行有列。比如 [[1,2,3],[4,5,6]] 是一个 2 行 3 列的矩阵。

类比:Excel 表格里一片数据,就是矩阵。

矩阵相乘的规则:前一个的列数必须等于后一个的行数,结果的形状是「前者行数 × 后者列数」。

类比:拼乐高,接口形状必须对得上才能拼。

张量(tensor):矩阵的高维版本。一维张量 = 向量,二维 = 矩阵,三维 = 一摞矩阵叠起来(比如一张彩色图片是「高 × 宽 × 3 通道」的三维张量)。

资源(任选一个 30 分钟):

2.2 简单求导:找最低点

导数:函数在某一点的斜率。基础课程已经讲过。

偏导数(partial derivative):函数有多个输入时,只对其中一个输入求斜率,其他当成常数。比如 f(x, y) = x² + y²,对 x 的偏导是 2x(把 y 当常数)。

类比:山的高度同时受南北方向(x)和东西方向(y)影响。偏导数就是"只看南北方向,地面是上坡还是下坡"。

梯度(gradient):把所有方向的偏导数合起来变成一个向量。这个向量指向"上山最陡的方向",反方向就是"下山最陡的方向"。

读到这里你应该懂了:偏导数 = 只盯一个变量看斜率,梯度 = 所有方向斜率打包成的向量。

2.3 简单概率分布

名字 一句话 + 例子
均匀分布 每个结果概率一样。骰子
正态分布(高斯) 中间高两边低的钟形曲线。考试成绩、身高分布
条件概率 P(B|A) 已知 A 发生,B 发生的概率

贝叶斯定理(Bayes' theorem):一句话——"已知某证据后,更新对原假设的相信程度"。比如「咳嗽的人里有多少是感冒的?」就是条件概率,用贝叶斯能反过来从「感冒的人有多少在咳嗽」算出来。

资源:

  • B 站搜「3Blue1Brown 贝叶斯」中文字幕版(15 分钟看完,很直观)

读到这里你应该懂了:矩阵 = 数字表格,梯度 = 多变量斜率打包,贝叶斯 = 看到新证据后更新猜想。


阶段 3:大学才正式教,但能用类比"知道大概"

下面这些词你短期内不用真的会算,但 AI 论文里到处出现,必须先把"大概是什么"的直觉建好。

3.1 神经网络:一个有几百万旋钮的函数

神经网络(neural network):一个非常长的函数 y = f(x),里面有几百万个可调的小数(叫"参数"或"权重")。训练就是慢慢调这些数字。

类比:一台调音台有几百个旋钮,每个旋钮稍微转一点,最终输出的声音都不一样。神经网络就是有几百万个旋钮的调音台。

3.2 模型怎么"学":扣分越少越好

Loss(损失,"扣分总和"):衡量模型的输出离正确答案差多远的一个数字。越小越好,模型学习的目标就是想办法把这个分降下去。

类比:考试扣分总和。错得越多扣得越多,目标是少扣分。

梯度下降(gradient descent):模型每次微调几百万个旋钮,让 loss 变小一点点。

类比:你被蒙着眼放在山上,要走到山谷最低点。每一步都用脚摸出"哪个方向最陡向下",往那走一小步。重复几万次,就到谷底了。

想想看:如果学习率(每步迈多大)调到很大,会发生什么?

每步迈太大,可能跨过山谷直接到对面山坡——loss 反而变大。这叫"震荡"或"发散"。 所以训练神经网络时,学习率(learning rate, lr) 是最关键的超参数之一,太小学得慢,太大学不动。 现代优化器(Adam)会自动调整每个旋钮的步长,但起始 lr 还是要人选。

亲手玩一下:下面这个 TensorFlow Playground 让你实时调 lr 看 loss 怎么变。把右上角 Learning rate 滑到 1,会看到 loss 飞起来。

↑ 拖动 Learning rate(左上)然后点播放,看 loss 曲线(右下)怎么变

反向传播(backpropagation):算"每个旋钮该往哪边调多少"的具体方法。你不用现在懂数学,知道它是给梯度下降服务的工具就行。

3.3 处理图像:用小窗口扫

卷积(convolution):用一个小窗口(比如 3×3 像素)从图像左上角扫到右下角,每扫一次提取一点局部特征(边、角、纹理)。

类比:拿放大镜从左到右扫照片,每个位置记下一点信息。

3.4 处理文字 / 视频:注意力机制

token:模型读文字时切出来的小片段,介于"字"和"词"之间。比如「学习」可能切成 学习 一个 token,「Photography」可能切成 Photo graphy 两个。

类比:把蛋糕切片,每片是模型的最小输入单位。

embedding(向量化):把每个 token 变成一串数字(比如 768 个数)。这样"猫"和"狗"会变成两个数字坐标。

类比:把每个词放到一张高维「语义地图」上。意思像的词坐标也接近

attention(注意力):模型在理解一个词时,会"看一眼"句子里其他词,决定每个其他词对它影响多大。

类比:你读到「昨天逃跑了」时,眼睛会往前瞟去找「它」指的是什么。注意力机制就是把这种"瞟一眼"变成数学。

Transformer:把"注意力"叠很多层组成的一种神经网络结构。现在 90% 的大模型(包括 ChatGPT)都基于它。你只需要知道它是 AI 界目前的"主流房屋设计图"。

3.5 多模态:让模型同时看图听话

多模态(multimodal):模型能同时处理多种输入——图像、文字、声音、视频。

类比:人能边看图边听讲解理解事情;多模态模型也想做到。

CLIP:一种把"图"和"文字描述"放进同一个数字坐标系的模型。让"匹配的图文对"坐标接近,"不匹配的"坐标远离。

类比:磁铁——同极相斥(不匹配的图文推开),异极相吸(匹配的图文拉近)。

资源(强烈建议都看,加起来 2.5 小时):

  • 3Blue1Brown《神经网络》系列 4 集,B 站中文字幕(共 1 小时)
  • 3Blue1Brown《GPT 是什么》+《Attention》两集(共 1 小时)
  • 李沐《CLIP 论文精读》B 站中文(30 分钟)

读到这里你应该懂了:神经网络 = 几百万旋钮的函数;loss = 扣分总和;梯度下降 = 蒙眼下山;Transformer = 一种主流网络结构;CLIP = 把图和文字坐标对齐。


阶段 4:真想继续学的话——按这个顺序

如果你大学想读 AI 方向,或者现在就想自己跑代码玩,按下面顺序走。

4.1 编程:Python(推荐 30-50 小时)

Python:一种很容易学的编程语言,AI 圈基本都用它。

学到什么程度停下:能看懂下面这段、能解释每行做什么——就够开始读论文了。

import torch
x = torch.randn(2, 3)            # 一张 2 行 3 列的随机数字表格
y = torch.nn.Linear(3, 5)(x)     # 让这张表格过一个"3 个数变 5 个数"的小函数
print(y.shape)                   # 看输出表格的形状是 (2, 5)

资源:

4.2 PyTorch(推荐 10-15 小时)

PyTorch:一个 Python 工具箱,专门用来搭神经网络。import torch 就是把这个工具箱搬到你的工作台。

资源:

4.3 Hugging Face(推荐 5-10 小时)

Hugging Face:一个网站 + 工具库,别人训好的模型都放在那里,你下载下来就能用。类比:AI 界的 GitHub + 应用商店。

资源:

4.4 机器学习直觉课(推荐看完)

资源(二选一即可,不要两个都看):

  • 李宏毅《机器学习》2024 春,B 站中文(约 40 小时)
  • 吴恩达《机器学习》新版,B 站中文字幕(约 30 小时)

读到这里你应该懂了:真想继续学,按 Python → PyTorch → Hugging Face → 机器学习课的顺序走,前后约 100 小时能入门。


阶段 5:入门阶段可以跳过的

下面这些短期内完全不用学——它们要么需要更深的数学背景,要么是研究生才用的工具,现在硬学反而劝退。

跳过项 理由
反向传播的数学推导 用类比理解就够;真要算等大学学完线性代数 + 多元微积分再说
强化学习的所有公式(Bellman 方程、PPO 推导等) 用"打游戏拿分"的类比够看懂 90% 的论文,公式现在硬学劝退
信息论(熵、KL 散度) 大一概率论后再说
卡尔曼滤波、SLAM 数学细节 知道 SLAM 是「一边走路一边画地图」就够
扩散模型(diffusion)的数学 知道它是"从噪声里慢慢恢复出图"就够
自己从零写 Transformer 跑通别人的代码就行,从零写是研究生练手活
Linux 命令行进阶 cdlspython xxx.py 就够
C++ / CUDA 写论文级研究才需要

强化学习(reinforcement learning, RL):一种让 AI "在游戏里靠拿分慢慢学策略"的训练方法。类比:你打超级马里奥,吃金币 +10、掉坑 -100,玩多了自然学会怎么过关。

SLAM(同时定位与建图):机器人一边走路一边画地图、还得知道自己现在在地图哪个位置类比:你蒙着眼进一个新房间,靠摸墙慢慢画出房间形状。

读到这里你应该懂了:入门阶段会矩阵、梯度、Python 基础就能开始读论文;公式和高级工具大学再补不迟。


附录:13 篇论文推荐先读哪篇

如果阶段 1-3 看完了,可以先挑 1 篇最简单的论文笔记开读:

顺序 论文 为什么先读
1 LLaVA 多模态最经典入口,只需要懂阶段 3 的 Transformer + CLIP
2 mmCLIP 在 LLaVA 基础上把"图"换成"无线电信号",强化 CLIP 思想
3 SayCan 把大语言模型接到机器人上,思路直观
4+ 其他 10 篇 按你的兴趣方向选——感知 / 听觉 / 3D / 射频

用 AI 当陪读:3 个万能 prompt

读论文卡住时,复制下面的话给 ChatGPT 或 Claude:

1. "我刚入门,会向量、概率、简单导数。我在读 [论文名],遇到一个词 [X]。
   请用基础知识打类比解释 [X],不要超过 100 字,不要引入新术语。"

2. "把这段论文翻译成「读者能听懂」的中文,
   每个专业名词第一次出现时用括号给一句类比解释:
   <粘贴英文段落>"

3. "我对 [论文名] 第 [N] 段有疑问:[贴段落]。
   假设我懂神经网络是「几百万旋钮的函数」、loss 是「扣分总和」,
   这段哪些点必须搞懂、哪些可以跳过?"

最后一句:地图画完了。先把阶段 1、2 对完号,阶段 3 看完 3Blue1Brown 那 6 集,再来挑一篇论文开读——比从头啃完所有教材高效十倍。


中文学习资源(B 站 / 知乎 / 公众号)

看英文教程吃力?下面是国内具身智能 / VLA 入门最有用的中文系列。视频排第一档(看就懂)、文章排第二档(深度更高)。

0. 名词速查(看资源前先扫一遍)

  • 具身智能(Embodied AI):让 AI 长一个"身体",通过机器人 / 机械臂在真实世界感知、决策、行动,而不是只产文字图片。类比:"只会刷题的学霸 → 会做实验的学霸"。
  • VLA(Vision-Language-Action):视觉-语言-动作模型。输入摄像头画面 + 一句中文指令("把红色方块放进盒子"),直接输出机器人电机要发的动作序列。
  • 模仿学习 / Imitation Learning:人类先示范几遍,模型学着抄。类比"师傅带徒弟"。
  • 强化学习 / RL:让机器人自己试错,做对了加分。类比"打游戏靠 Game Over 学操作"。
  • Sim2Real:先在仿真器(Isaac / MuJoCo)里训,再迁移到真机。类比"先开模拟驾驶舱,再开真飞机"。

A. B 站系列教程(视频 / 中文 / 高完整度)

A1. 跟李沐学 AI(B 站频道)

  • 链接:https://space.bilibili.com/1567748478
  • 一句话定位:亚马逊前首席科学家李沐,B 站最权威的中文 AI 教学频道,"动手学深度学习"+"论文精读"两大系列均在此频道更新。
  • 难度:⭐⭐
  • 推荐时机:最先打开,作为入门主线频道收藏。

A2. 动手学深度学习 v2(李沐)

  • 链接:https://courses.d2l.ai/zh-v2/ | 配套书 https://zh-v2.d2l.ai/
  • 一句话定位:CNN / RNN / Transformer / BERT 全套,每节配 PyTorch 代码 Jupyter,被国内一票大学拿来当教材。
  • 难度:⭐⭐
  • 推荐时机:学完 Python 基础后第一门系统课。

A3. 论文精读系列(李沐)— 精读 Transformer / ViT / CLIP / GAN

A4. 李宏毅《机器学习》2024(台大 / 国语)

  • 链接(B 站搬运合集):https://www.bilibili.com/video/BV1Sd4tepEot/
  • 一句话定位:用宝可梦 / 凉宫春日讲机器学习概念,零基础最佳起点;2024 已并入"生成式 AI 导论"主题。
  • 难度:⭐
  • 推荐时机:完全 0 基础先看 2-3 节预习"什么是模型 / 什么是 loss"。

A5. 李宏毅《生成式 AI 导论 2024》

  • 链接:https://www.bilibili.com/video/BV1tsNDe4E2i/
  • 一句话定位:聚焦 LLM / 多模态 / Agent / 加速生成;为后续读 VLA(视觉-语言-动作)打"语言模型"地基。
  • 难度:⭐⭐
  • 推荐时机:A4 看完后无缝衔接。

A6. 周博磊《强化学习纲要》(港中文 / B 站)

A7. 尤里卡 AI《具身智能导学(适合 0 基础)》

  • 链接:https://www.bilibili.com/cheese/play/ss196866090
  • 一句话定位:39 课时小课,专攻 OpenVLA 部署 + VLA 概念;视频试看免费,付费内容是文档+代码。
  • 难度:⭐⭐
  • 推荐时机:通读完 A1-A4 后想要"从概念走向第一行机器人代码"时。

A8. 尤里卡 AI《具身智能入门_OpenVLA 复现》(B 站免费视频)

  • 链接:https://www.bilibili.com/video/BV1VAMnznEkG/
  • 一句话定位:1 小时跟跑式视频,演示如何把 OpenVLA 在自己机器上跑起来;"不付费版"。
  • 难度:⭐⭐⭐
  • 推荐时机:A7 觉得太长,先看这个找感觉。

A9. 算法与数学之美《宇树 G1 实战课》

  • 链接:https://m.sohu.com/a/1028914405_701814/(介绍页)
  • 一句话定位:以宇树 G1 人形机器人为载体,11 个项目实战覆盖强化学习 + 复杂地形 + 动作模仿;偏运控(机器人腿怎么走),不是 VLA。
  • 难度:⭐⭐⭐⭐
  • 推荐时机:对"人形机器人怎么站起来"好奇时;不是 VLA 主线必看。

A10. 北大博雅人工智能讲堂《大模型赋能的人形机器人》(王鹤)

  • 关键词搜:B 站搜"博雅人工智能讲堂 王鹤"
  • 一句话定位:北大助理教授 + 银河通用 CTO 王鹤的公开讲座,1.5h 浓缩"为什么需要 VLA + 合成数据"。
  • 难度:⭐⭐⭐
  • 推荐时机:想知道"国内具身的研究到哪了"时。

B. 中文公众号 / 知乎 / CSDN 专栏

B1. 机器之心|《北大-灵初重磅发布具身 VLA 全面综述》

  • 链接:https://m.10100.com/article/2704071(机器之心转载)
  • 一句话定位:8 种主流 action token 拆解,VLA 技术路线全景图;中文长文里最权威的一篇综述导读。
  • 难度:⭐⭐⭐
  • 推荐时机:扫完一两个 B 站视频后,想要"全景概览"时读。

B2. 量子位|《最火 VLA,看这一篇综述就够了》

  • 链接:http://m.toutiao.com/group/7567299209209053696/
  • 一句话定位:把 VLA 6 大趋势(效率优化 / 视频预测 / Diffusion / ...)拍平讲,含 HyperVLA / AutoQVLA / Cosmos 关键工作。
  • 难度:⭐⭐⭐
  • 推荐时机:B1 之后第二篇综述。

B3. CSDN 具身智能之心《VLA 主流方案全解析》

B4. 知乎《具身智能入门指南》(开源 Embodied-AI-Guide 中文化)

B5. 知乎魔珐星云《小鸡毛的具身智能 VLA 入门自学路线》

  • 链接:https://xingyun3d.csdn.net/69ddfbb072111d255bf8c064.html
  • 一句话定位:作者本人 300 小时自学路线复盘,明确给出"Python → DL → PyTorch → Transformer → 生成 → 模仿/RL → OpenVLA/π" 七阶。
  • 难度:⭐⭐
  • 推荐时机:想抄一份"过来人的 KPI 清单"时。

B6. CSDN《具身智能论文精读(四):Diffusion Policy》

  • 链接:https://blog.csdn.net/m0_56263746/article/details/160667039
  • 一句话定位:Diffusion Policy 是 2023 年来"模仿学习的主流方案"。文章中文翻译 + 注解原论文。
  • 难度:⭐⭐⭐
  • 推荐时机:A6 RL 学过、想知道"为什么现在大家都用扩散"时读。

B7. 稀土掘金《RT-2 学习笔记 — VLA 范式》

  • 链接:https://juejin.cn/post/7605214360084283428
  • 一句话定位:RT-2 是 VLA 开山之作;本文用三个问题(Tokenization / Data Mixing / 涌现能力)穿起来读。
  • 难度:⭐⭐⭐
  • 推荐时机:读 VLA 论文第一篇就读它。

B8. 王晋东《迁移学习简明手册 / 迁移学习导论》

  • 仓库:https://github.com/jindongwang/transferlearning
  • 一句话定位:知乎"王晋东不在家"自维护,迁移学习中文最佳入门;具身智能 Sim2Real 实质就是迁移学习。
  • 难度:⭐⭐
  • 推荐时机:研究 Sim2Real 时回头补这本。

B9. 微软亚洲研究院《AI Next 播客 S1E2:从世界模型到具身智能》

B10. 澎湃新闻《李飞飞:空间智能是 AI 下一个前沿》(机器之心译版)

  • 链接:https://m.thepaper.cn/newsDetail_forward_31939684
  • 一句话定位:李飞飞 11/2025 长文中译,把"语言模型 → 空间智能"的下一步野心讲透;具身智能的"为什么重要"答案。
  • 难度:⭐
  • 推荐时机:开头第一篇科普文。

B11. 量子位《200 位具身从业者沙龙纪要》

  • 链接:http://m.toutiao.com/group/7633657217254605362/
  • 一句话定位:2026.04 现场实录,2 万小时数据真正有效的可能不到 3000 小时——产业最新真问题。
  • 难度:⭐⭐
  • 推荐时机:跟踪行业现状 / 找研究痛点时。

B12. 智元官网《GO-1:ViLLA 架构通用具身基座》

  • 链接:https://www.zhiyuan-robot.com/article/189/detail/56.html
  • 一句话定位:智元 2025.03 发布通用基座大模型 GO-1,提出 ViLLA = VLM + MoE + Latent Planner + Action Expert;国内第一个公开 VLA 大模型架构白皮书。
  • 难度:⭐⭐⭐⭐
  • 推荐时机:B7 读完,想看"国内是怎么改 VLA"时。

B13. 智元官网《GenieReasoner:一体化具身大小脑》

B14. 智元 / 银河通用 / 千寻 / 它石智航 公司公开发布

  • 关键词聚合:B11 / B12 / B13 / 它石智航 AWE3.0
  • 一句话定位:四家国内具身一线公司近半年的产品发布稿,是"行业现在做到哪一步"的最快入口。
  • 难度:⭐⭐
  • 推荐时机:每月扫一次跟进。

C. GitHub 中文教程 / 开源项目

C1. 动手学深度学习(d2l-zh)

C2. Datawhale every-embodied

  • 仓库:https://github.com/datawhalechina/every-embodied
  • 一句话定位:Datawhale 2026.04 开源的中文具身导航实战教程,"半天跑通感知→决策→规划→控制"全链路;1k+ star。
  • 难度:⭐⭐⭐
  • 推荐时机:在 B4 路线图后第一个动手项目。

C3. Datawhale《具身智能基础与机器人控制》组队学习

C4. Embodied-AI-Guide(中文 awesome 仓库)

  • 仓库:https://github.com/TianxingChen/Embodied-AI-Guide
  • 一句话定位:B4 的源仓库;维护非常活跃,按"启动 / 算法 / 工具 / 论文清单"分章,社区最权威中文 awesome。
  • 难度:⭐⭐
  • 推荐时机:长期挂在浏览器收藏夹。

C5. zhoubolei/introRL

  • 仓库:https://github.com/zhoubolei/introRL
  • 一句话定位:A6 课程的 PPT + 作业;中文 RL 入门最完整开源资料。
  • 难度:⭐⭐⭐
  • 推荐时机:跟 A6 视频同步看 slides。

C6. jindongwang/transferlearning

C7. zchoi/Awesome-Embodied-Robotics-and-Agent


D. 国内研究机构 / 学者主页(追更入口)

D1. 北大王鹤实验室(具身感知与交互实验室)

  • 主页:https://hughw19.github.io/
  • 一句话定位:王鹤主页 + 论文清单;国内具身 VLA 学术起源之一(NOCS / GAPartNet / Galbot 系列)。
  • 难度:⭐⭐⭐⭐
  • 推荐时机:要找有引用的硬核论文时。

D2. 上交人工智能学院 / 卢策吾实验室

  • 上交人工智能学院:https://ai.sjtu.edu.cn/
  • 一句话定位:上交 2026 年开了"具身智能拔尖班"(全国首个本科级),卢策吾任带头人;新闻稿里能扒到他们的研究方向。
  • 难度:⭐⭐⭐⭐
  • 推荐时机:要找研究生学校时。

D3. 银河通用 Galbot 官网 / 论文页

  • 链接:https://galbot.com/(含 paper 列表)
  • 一句话定位:王鹤创立公司,核心做"合成数据 + VLA 大模型";G1 商场试运营案例多。
  • 难度:⭐⭐⭐
  • 推荐时机:想看"VLA 在真实场景跑起来什么样"时。

D4. 智元机器人 论文 / 白皮书页

D5. 宇树 Unitree 论文 / 开源

D6. NVIDIA GTC 2026 王鹤演讲《工业级具身智能从概念走向现实》


E. 推荐学习路径(把上面 30+ 条串起来)

第 1 周(科普 + 立目标)
  B10 李飞飞空间智能 → B4 入门指南 → A4 李宏毅 ML 前 3 节

第 2-4 周(深度学习地基)
  A2 d2l + C1 仓库 → A3 Transformer 精读

第 5-6 周(VLA 概念)
  A5 生成式 AI 导论 → B1 + B2 VLA 综述 → B7 RT-2 笔记

第 7-8 周(动手)
  A8 OpenVLA 复现视频 → C2 Datawhale every-embodied

第 9 周后(深入分支)
  RL 路:A6 周博磊 + C5 introRL
  生成模型路:B6 Diffusion Policy
  工业落地路:B14 + D6

F. 链接验证状态

调研日期:2026-05-31。所有链接以 lr websearch general 返回的 URL 为准;CSDN / 哔哩哔哩 / 公众号转载链接长期可访问,B 站视频偶有下架风险(建议见到立即收藏)。智元官网与北大 / 上交学院主页为机构官方域名,稳定性最高。


Other beginner pages