回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Learn · Beginner Track

实战教程 / 跑得起来的代码

从「不用配电脑、看视频就行」到「装 Python 跑模型」三档分级,给完全没写过代码的同学

实战教程 / 跑得起来的代码

读累了想动手?这一页把所有教程按「门槛」分成三档:

  • 第 0 档:什么都不用装,打开浏览器看视频或网页就行
  • 第 1 档:用 Colab(谷歌提供的免费在线代码本,浏览器打开就能跑代码,自带显卡),不用配环境
  • 第 2 档:要在自己电脑上装 Python(一种编程语言)和一堆库,配环境约 1-2 小时

Colab(Google Colaboratory):网页上的"代码本子"。每个格子写一段代码,点运行就出结果,谷歌免费借你一台带显卡的服务器。完全不需要在自己电脑上装任何东西,只要能科学上网。

GPU(显卡 / 图形处理器):原本是给游戏画面渲染用的芯片,现在 AI 训练全靠它做大量并行计算。家用显卡也分高低端,跑大模型一般要专业的 A100 / H100,但 Colab 免费版给的 T4 已经够练手。

模型(model):你可以理解为"一个算好参数的复杂函数"。给它一个输入(图片/文字),它给你一个输出(标签/回答/动作)。所谓"训练模型"就是不断调整这个函数里的几亿个参数,让它越答越准。

读到这里你应该懂了:第 0 档看视频就行,第 1 档浏览器打开 Colab 就能跑代码,第 2 档才需要折腾环境。


几个反复出现的词,先一次性讲清

后面教程里这些词高频出现,先在这里翻译成人话,往下看就不卡壳。

神经网络(Neural Network):一堆"小函数"层层堆叠,每层接收上一层的数字,做一次加权求和再变换,最后吐出结果。形象点:每一层像考试里的一道大题,前一题的答案是后一题的输入。

训练 / 学习:让模型一遍遍看「输入 → 正确答案」的样例,每次答错就调整内部参数。像背错题本:错一次就改一次,错得越多调得越多。

Loss(损失 / 扣分):模型这次答得有多差,用一个数字表示。就是考试扣分总和,越小越好。 模型学习的全部目标就是想办法让这个分往下降。

梯度下降(Gradient Descent):调参数的方法。像下山:站在半山腰,每一步往最陡的下坡方向迈一小步,反复迈直到走到山谷(也就是 Loss 最低点)。

矩阵(Matrix):一张排好的数字表格,有行有列。两个矩阵相乘有规则,行数列数要对齐。AI 内部所有计算几乎都是矩阵在乘来乘去。

向量表示 / 把东西变成一串数字:一张图、一句话,模型会先把它变成一串数字(比如 512 个数字组成的向量)。两个向量夹角越小(内积越大),代表它俩语义越接近——这就是高中学过的向量内积,AI 里反复用。

数据集(Dataset):一大堆训练样例打包成的文件夹,比如"100 万张图片 + 每张图的文字描述"。

fine-tune(微调):别人已经训练好一个大模型,你只用一小撮自己的数据"补课"几小时,让它适应你的任务。像借了学霸的复习提纲再加几道自己学校的题型。

Prompt(提示词):你给模型的输入文字。同一个模型,prompt 写法不同,效果差很多。

Zero-shot(零样本):不给模型看过任何这个任务的例子,直接让它做。像月考考了课本上没出现过的题型,但学生靠通识能蒙对。

读到这里你应该懂了:训练 = 让模型背错题本,Loss = 扣分,梯度下降 = 下山找最低点,矩阵 = 数字表格,向量夹角小 = 意思接近。


第 0 档:不用配环境,看视频就行

什么都不用装,B 站 / YouTube 打开就看。强烈建议第一周只做这一档。

1. 3Blue1Brown · 神经网络系列

项目 说明
平台 YouTube
链接 https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi
语言 英文(YouTube 自动中文字幕能看)
时长 约 2 小时(7 集,每集 15-25 分钟)
需要英文阅读吗 不强制,开自动字幕即可
好玩瞬间 第 3 集会用动画演示"梯度下降下山",看到蓝色小球一路滚到山谷的瞬间,前面所有抽象数学一下就具象了
  • 为什么先看这个:把"神经网络怎么从数字识别一步步变成 ChatGPT 背后的 Transformer"用动画讲清楚,没有任何编程门槛
  • 看完你会理解前面那些术语(神经网络 / Loss / 梯度下降)到底长什么样

2. 跟李沐学 AI · 动手学深度学习

项目 说明
平台 B 站
链接 https://www.bilibili.com/video/BV1if4y147hS/
语言 中文
时长 单集 1-2 小时(共 70+ 集,先看前 10 集就够)
需要英文阅读吗 不需要
好玩瞬间 第 8 集左右第一次用代码画出"模型预测的直线慢慢贴近真实数据点"的动图
  • 为什么推荐:编程零基础学 AI 最稳的中文路径,李沐是行业内顶级讲师,配套书在 https://zh.d2l.ai/ 免费看
  • 计划:只先看前 10 集(线性回归 → 多层感知机 → 卷积神经网络),不要贪多

3. Two Minute Papers

项目 说明
平台 YouTube
链接 https://www.youtube.com/@TwoMinutePapers
语言 英文(自动字幕够用)
时长 每集 5-10 分钟
需要英文阅读吗 不需要
好玩瞬间 看到一篇"AI 生成会跳舞的人体"或"机器狗在沙地翻跟头"的视频,5 分钟看完会觉得这个领域真的在飞速进步
  • 作用:累了换换脑子,每集挑一篇前沿论文用动画讲一遍
  • 不要尝试自己复现,就当看科技新闻

读到这里你应该懂了:先把这三个看完,建立"AI 是什么样子"的直觉,再去碰代码。


第 1 档:用 Colab 浏览器跑(不用配环境)

打开链接 → 登录谷歌账号 → 点"运行全部"→ 等出结果。全程不在自己电脑上装任何东西。

前置说明:Colab 在国内需要科学上网。免费版给的显卡是 T4,跑前沿小模型都够。每次连接最多 12 小时,关掉浏览器就断。

4. CLIP 官方 Colab:图文匹配第一课

项目 说明
平台 Google Colab(OpenAI 官方)
链接 https://colab.research.google.com/github/openai/clip/blob/master/notebooks/Interacting_with_CLIP.ipynb
语言 英文(注释为主,照着点运行就行)
时长 30 分钟
需要英文阅读吗 略需要看懂注释,不会就丢翻译
好玩瞬间 上传一张你自己的照片,模型在「猫 / 狗 / 飞机 / 日落」里挑一个最匹配的标签——它真的能挑对

CLIP:OpenAI 2021 年的模型。它干的事是把"图"和"对应的文字描述"都变成同一个空间里的向量,图和文字的向量夹角越小越是同一回事。后面所有看图说话的 AI 几乎都拿它当眼睛。

  • 为什么推这个:第一次跑多模态 AI 的最低门槛
  • 配套笔记:mmCLIP 笔记

5. CLIP Prompt Engineering:换句话能涨多少分

项目 说明
平台 Google Colab(OpenAI 官方)
链接 https://colab.research.google.com/github/openai/CLIP/blob/master/notebooks/Prompt_Engineering_for_ImageNet.ipynb
语言 英文
时长 1 小时
需要英文阅读吗 略需要
好玩瞬间 同一张图,prompt 从 "cat" 改成 "a photo of a cat",准确率涨好几个点——你会第一次直观感觉到"AI 也是会偏科的考生"
  • 跑通第 4 个再来跑这个
  • 学到的是"提示词工程"的雏形

6. MuJoCo 官方 Python Tutorial:让物体在屏幕里掉下来

项目 说明
平台 Google Colab(DeepMind 官方)
链接 https://colab.research.google.com/github/google-deepmind/mujoco/blob/main/python/tutorial.ipynb
语言 英文
时长 1.5 小时
需要英文阅读吗 略需要
好玩瞬间 写几行 XML 描述"一个球 + 一个斜面",然后看球真的从斜面滚下来——第一次感受到"用代码捏物理世界"

仿真器(Simulator):在电脑里"假造"一个有重力、有摩擦、有碰撞的世界。机器人在真实世界训练太贵又危险,先在仿真里练熟了再搬到真机。MuJoCo 是 DeepMind 维护的物理仿真器,业界标配。

  • 作用:后面要做"机器人"相关的项目都绕不开仿真,这是入门第一步
  • 这个跑通之后,看后面 SayCan / VLA 项目的代码不会蒙

7. SayCan 官方 Colab:让大语言模型指挥机器人

项目 说明
平台 Google Colab(Google Research 官方)
链接 https://github.com/google-research/google-research/tree/master/saycan
语言 英文
时长 1 小时
需要英文阅读吗 需要看懂 prompt 的英文
好玩瞬间 你打字 "把可乐递给我",机器人手臂在仿真里依次完成「找到可乐 → 抓起来 → 放到你旁边」——大语言模型第一次"指挥"了一个会动的东西
  • 配套笔记SayCan 笔记
  • 看 LLM 怎么给每个动作打分,再和"我现在到底能不能做这个动作"相乘选最优

LLM(Large Language Model,大语言模型):就是 ChatGPT、文心一言这一类。给它一段文字,它接着写。

读到这里你应该懂了:第 1 档的 4 个 Colab 全跑完,你就摸过了"图文匹配 + 物理仿真 + LLM 指挥机器人"三件事。


第 2 档:自己电脑装 Python(配环境 1-2 小时)

要在自己电脑装 Python,第一次配环境约 1-2 小时。强烈建议先把第 0、1 档过一遍再来这档。

Python:一种编程语言。AI 圈几乎全用它。安装方式推荐 Miniconda(一个包管理工具)。

包 / 库(Package / Library):别人写好的代码合集,直接拿来用。装库的命令长这样:pip install xxx国内装库慢就用清华源pip install xxx -i https://pypi.tuna.tsinghua.edu.cn/simple

PyTorch:Facebook 主推的 AI 框架(一大堆现成函数)。本档项目几乎全建在它上面。

8. SmolVLA:能在自己笔记本上跑通的"机器人大脑"

项目 说明
平台 HuggingFace Blog + LeRobot GitHub
链接 https://huggingface.co/blog/smolvla
语言 英文
时长 3-5 小时(含微调约 20 分钟)
需要英文阅读吗 需要,配翻译
是否要 GPU 需要,但单张消费级显卡或 MacBook M 系列就够
好玩瞬间 你的小笔记本(不是服务器)真的训出了一个能"看图听指令、给出机械臂动作"的小模型

VLA(Vision-Language-Action 模型):眼睛看图(V)+ 耳朵听指令(L)+ 手做动作(A)三合一的模型,给机器人当大脑。

9. HuggingFace LeRobot 官方教程

项目 说明
平台 HuggingFace Space
链接 https://huggingface.co/spaces/lerobot/robot-learning-tutorial
语言 英文
时长 4-6 小时
需要英文阅读吗 需要
是否要 GPU Colab T4 / 本地 8GB+ 显卡
好玩瞬间 用键盘"遥操"一个仿真机械臂去抓木块,自己录数据,再训一个模型让它自己抓
  • 作用:HuggingFace 官方机器人学习课程,覆盖数据格式、遥操、训策略
  • 可作为「跑通 SmolVLA」之后的进阶

10. LeRobot 中文教程(飞书文档)

项目 说明
平台 飞书 Wiki(社区翻译)
链接 https://zihao-ai.feishu.cn/wiki/space/7589642043471924447
语言 中文
时长 2-4 小时
需要英文阅读吗 不需要
是否要 GPU 跑训练时需要
好玩瞬间 中文文档下顺利跑通"训练扩散策略"那一节,没卡在英文
  • 作用:上一个英文教程读不动了来这里
  • 重点看「训练扩散策略」章节

11. PyBullet 入门:另一个免费仿真器

项目 说明
平台 官方文档 + GitHub examples
链接 https://docs.google.com/document/d/10sXEhzFRSnvFcl3XxNGhnD4N2SedqwdAvK3dsihxVUA
语言 英文
时长 4-5 小时
需要英文阅读吗 需要
是否要 GPU 不需要
好玩瞬间 看到一个 URDF 描述的机械臂在 PyBullet 里挥舞
  • 作用:MuJoCo 跑通后想换换看,PyBullet 装起来更简单(一行 pip install pybullet),机器人模型库更丰富

读到这里你应该懂了:第 2 档的核心是 SmolVLA + LeRobot——能在自己电脑上摸到一个真正的机器人模型。


第 3 档:先别碰,等有 GPU 服务器再说

下面这些都是大模型,家用显卡跑不动,需要 A100 / H100 这种专业卡。现在不必跑,看视频和论文为主。

项目 链接 显存要求 一句话
OpenVLA 完整训练 https://github.com/openvla/openvla 单卡 LoRA 微调要 27GB;完整训要 8 张 A100 真的能用的开源 VLA,门槛是 GPU
NVIDIA Cosmos https://github.com/NVIDIA/Cosmos A100/H100 推荐 世界模型 + 后训练,前沿但门槛高
LLaVA https://github.com/haotian-liu/LLaVA 推理单卡 24GB;训练 8 张 A100 "看图说话"模型代表
NVIDIA Isaac Lab https://github.com/isaac-sim/IsaacLab RTX 30 系以上 + Linux 大规模仿真训练框架

LoRA(Low-Rank Adaptation):微调大模型的省钱招。原模型有几十亿参数,全调一遍训不动;LoRA 只在旁边加一小撮参数,只调这一小撮,省 90% 显存。

后训练(Post-training):在已经训好的模型上,再用一小批高质量数据"做题强化",让它更对齐人类偏好或某个具体任务。

读到这里你应该懂了:第 3 档现在只用看,不用跑。等到你有云服务器或学校实验室的显卡再说。


推荐路径(编程零基础版)

第 1 周:3Blue1Brown 神经网络(看视频)→ 李沐前 10 集(看视频)
第 2 周:CLIP 两个 Colab(浏览器跑)→ MuJoCo Tutorial(浏览器跑)
第 3 周:SayCan Colab(浏览器跑)→ 装 Python → SmolVLA(自己电脑跑)
第 4 周:LeRobot 官方教程(自己电脑跑)
第 5 周后:有 GPU 再去碰 OpenVLA / Cosmos

重点提醒

  • 不要跳级。直接啃 OpenVLA 训练代码,会卡 80% 的时间在配环境上,反而学不到任何概念
  • 每跑通一个就在 problems/ 记一笔,至少写"今天遇到 XX 报错,搜了 XX 解决"
  • 每懂一个新概念就在 learnings/ 写一篇,用自己的话解释一遍

读到这里你应该懂了:从看视频到自己跑模型大约需要 4-5 周,不要急。


仓库可用性快速参考

论文 / 项目 GitHub 维护状态 一句话
OpenVLA https://github.com/openvla/openvla 活跃,2025 年还在更新 能跑,主要难在 GPU 不够
LeRobot / SmolVLA https://github.com/huggingface/lerobot 非常活跃,HuggingFace 官方维护 能跑,强烈推荐
LLaVA https://github.com/haotian-liu/LLaVA 已有 NeXT 版接班 能跑,建议直接用 LLaVA-NeXT
SayCan https://github.com/google-research/google-research/tree/master/saycan 仅 Colab 演示 能跑 demo,不能复现训练
Cosmos https://github.com/NVIDIA/Cosmos 活跃,NVIDIA 官方 能跑推理,门槛高
CartoRadar 未公开(MIT 实验室) 论文公开,代码未开源 不能跑,等开源
大量硬件相关论文 多无开源代码 - 读论文为主,硬件复现不现实

读到这里你应该懂了:不是每篇论文都有代码可跑,但本页推荐的入门项目都已亲测能跑通。


跑代码遇到问题怎么办

  • 先 grep 看 problems/ 有没有人踩过同一个坑
  • 报错信息直接复制到搜索引擎或 ChatGPT,90% 都有现成答案
  • 国内下载慢就换镜像源(清华 / 阿里)
  • 模型权重下载不动就用 HuggingFace 镜像站
  • 解决了就回来记一笔到 problems/,下次自己或别人能直接用

读到这里你应该懂了:遇坑不可怕,记下来就是经验。


能跑得起来的开源项目(按"能不能上手"排序)

下面这些是 2026-05 当时还活跃维护、有清楚 README、能在合理硬件上跑通的开源项目。从最适合第一次跑的开始。

术语速查(首次出现给类比,不重复解释)

  • VLA(Vision-Language-Action)模型:吃图片 + 文字指令,吐出机器人动作的"大脑"。类比:把 ChatGPT 装进机械臂里,告诉它"把红方块拿过来"它就会动。
  • 仿真器(simulator):电脑里的虚拟物理世界,让机器人先在里面摔一万次再上真机。类比:F1 车手先在赛车游戏里练。
  • Imitation Learning(模仿学习):人手把手示范几十次,机器人学着做。类比:师傅带徒弟。
  • RL(Reinforcement Learning):机器人自己反复试错,做对了给奖励。类比:训狗。
  • BOM(Bill of Materials):清单 + 总价。买齐这些零件就能搭一台机器。
  • Colab T4:Google Colab 免费档配的 GPU,16GB 显存,能力约等于 2018 年的卡。能跑小模型推理,跑不动大模型训练。
  • RTX 3060 / 4090 / A100:消费级 → 发烧级 → 数据中心级 GPU。显存依次约 12GB / 24GB / 80GB,价格依次约 ¥2k / ¥15k / ¥15w。

第一梯队:入门读者首选(⭐ 难度 1-2)

1. HuggingFace LeRobot

  • 链接https://github.com/huggingface/lerobot
  • 一句话定位:具身智能界的"HuggingFace Transformers"——下载预训练策略 / 数据集 / 跑微调,全套工具链
  • 状态:24.5k stars / v0.5.1(2026-04-07)/ 极活跃
  • 门槛:⭐⭐ 纯软件部分能在 Colab T4 跑;硬件可选(最低 ¥230 一对 SO-101 臂就能玩)
  • 支持硬件:SO-100 / SO-101 / Koch / Aloha / Unitree G1 / 手机 / 键盘等
  • 入门路径
    • Hugging Face Spaces 上的免费 Robot Learning Tutorial 课(中英文)
    • 官方 examples/ 编号 1-3 教程:加载数据集 → 评估预训练策略 → 训练自己的策略
    • 中文社区教程:搜"lerobot SO-100 教程"
  • 推荐时机第一站。先跑通 examples/2_evaluate_pretrained_policy.py,能看到机器人在仿真里动起来——比啃论文有正反馈得多

2. MuJoCo Menagerie

  • 链接https://github.com/google-deepmind/mujoco_menagerie
  • 一句话定位:DeepMind 维护的高质量机器人模型仓库——免费的 3D 机器人"贴纸册"
  • 状态:3.5k stars / 持续更新
  • 门槛:⭐ MuJoCo 本身 pip 一行装好;纯 CPU 就能跑,Colab 完全可用
  • 包含模型:Unitree H1/G1/Go2 / Franka Panda / UR5e / Boston Dynamics Spot / Shadow Hand / Stretch 3 等几十款
  • 入门路径
    • pip install mujoco → 打开任意 XML 文件即可加载渲染
    • DeepMind MuJoCo tutorial.ipynb(Colab 一键跑)
  • 推荐时机:想直观感受"机器人模型长什么样"时;做仿真前的"逛博物馆"

3. ManiSkill 3

  • 链接https://github.com/haosulab/ManiSkill
  • 一句话定位:UC San Diego 出品的 GPU 加速操作仿真平台——SAPIEN 引擎 + 数十个 RL/IL 任务
  • 状态:2.9k stars / v3.0.1(2026-04-21)/ 活跃
  • 门槛:⭐⭐ 官方提供 Colab 快速上手 notebook,免费档可跑;本地需要 NVIDIA GPU + Linux
  • 亮点:高端 GPU 上 RGBD 数据采集可达 30000+ FPS,比传统 CPU 仿真快 10-100 倍
  • 推荐时机:跑通 LeRobot 后想做大规模训练 / 数据采集时

第二梯队:有 GPU 的进阶玩家(⭐ 3)

4. Robosuite

  • 链接https://github.com/ARISE-Initiative/robosuite
  • 一句话定位:MuJoCo 之上的模块化机器人学习框架——模仿学习论文最常用的 benchmark 之一
  • 状态:2.4k stars / v1.5.2(2025-12-24)
  • 门槛:⭐⭐ CPU 也能跑(慢),GPU 渲染加速;无 Colab 官方支持但社区有 notebook
  • 配套:常和 robomimic 一起用做 IL 实验
  • 推荐时机:想复现 ALOHA / Diffusion Policy / ACT 论文时

5. RLBench

  • 链接https://github.com/stepjam/RLBench
  • 一句话定位:基于 CoppeliaSim 的 100+ 操作任务集——视觉/语言条件策略论文的常客
  • 状态:1.8k stars / v1.1.0(2021-05,更新慢但论文还在用)
  • 门槛:⭐⭐⭐ 装 CoppeliaSim 麻烦;headless 跑需要 X server 配置
  • 推荐时机:复现 PerAct / RVT / 3D Diffuser Actor 等论文时

6. Habitat-Lab

  • 链接https://github.com/facebookresearch/habitat-lab
  • 一句话定位:Meta 出品的具身导航仿真平台(人形 + 机器人 + 室内场景)
  • 状态:3.0k stars / v0.3.4(2026-05-07)/ Meta 内部已停止官方维护(注意)
  • 门槛:⭐⭐⭐ Docker 装;NVIDIA GPU 必备;社区有 Colab tutorial 但需自己改
  • 推荐时机:研究导航 / 家务机器人 / 人机交互时;想跑 manipulation 用 ManiSkill

第三梯队:需要 4090+ 或云 GPU(⭐ 4-5)

7. Physical Intelligence π0 / π0.5(OpenPI)

  • 链接https://github.com/Physical-Intelligence/openpi
  • 一句话定位π0 已开源!能"听懂自然语言指令、在新家也能干活"的真·VLA 基础模型
  • 状态:12.1k stars / 2025-09 加 PyTorch 支持 + π0.5 / Apache 2.0
  • GPU 门槛
任务 显存 大概什么卡
推理 >8 GB RTX 4090 / 3090
LoRA 微调 >22.5 GB RTX 4090
全量微调 >70 GB A100 / H100(云上租)
  • Colab T4 能跑吗:勉强能跑推理(要 8bit 量化);微调跑不动
  • 入门路径:README 的 "easy inference" 几行代码就能跑通假数据
  • 推荐时机:把 LeRobot / ManiSkill 玩透之后;想看"真正的 VLA 大脑"长什么样

8. OpenVLA

  • 链接https://github.com/openvla/openvla
  • 一句话定位:开源 7B VLA 模型——很多 VLA 论文的对比基线
  • 状态:6.3k stars / 持续更新(OFT / FAST 更新到 2025-03)
  • GPU 门槛:推理 ~16GB(4090 行);LoRA 微调 ~72GB A100;全量需 8×A100
  • Colab T4 能跑吗:勉强(8bit 量化推理)
  • 入门路径:HuggingFace AutoModel 两行代码加载预训练模型
  • 推荐时机:读 VLA 论文时拿来对照基线效果

9. NVIDIA Isaac Lab

  • 链接https://github.com/isaac-sim/IsaacLab
  • 一句话定位:NVIDIA 官方的 GPU 加速机器人学习框架(建立在 Isaac Sim 上,取代已弃用的 Isaac Gym
  • 状态:7.3k stars / v3.0.0-beta(2026-03-17)/ Apache 2.0
  • GPU 门槛:⭐⭐⭐⭐ 必须 RTX 卡(要 RT Cores),推荐 RTX 3070+;Colab 不支持(需要 X server 显示环境)
  • 官方推荐:RTX 3070 起步 / 32GB RAM / Ubuntu 22.04
  • 入门路径Isaac Lab 文档有 30+ 即开即用环境
  • 推荐时机:有 NVIDIA 工作站 + 想做大规模 RL(如四足机器人步态)时

10. Mobile ALOHA / ALOHA 2(硬件)

  • 链接
  • 一句话定位:双臂遥操作机器人——能折衣服、煎虾、铺床的全开源硬件平台
  • BOM 成本
    • 自组 Mobile ALOHA ≈ $32,000(4 个 Interbotix 臂 + AgileX 移动底盘 + 相机)
    • Trossen Robotics 预装套件 $30k-$45k
    • ALOHA 2 静态版 $20k-$32k
  • 门槛:⭐⭐⭐⭐⭐ 给个人玩家不现实;适合实验室 / 公司
  • 推荐时机:作为"目标海报"——想象一下你做完 LeRobot 教程后能玩什么

入门读者的"跑通"路线推荐

周 1-2:零成本起步

  1. 跑通 MuJoCo Colab tutorial(看到机器人动起来)
  2. 跑通 LeRobot examples/2_evaluate_pretrained_policy.py(看预训练策略表现)

周 3-4:加点深度

  1. LeRobot examples/3_train_policy.py(训练自己第一个 ACT/Diffusion 策略)
  2. ManiSkill quickstart Colab(感受 GPU 并行仿真)

月 2+:可选硬件

  1. 攒 ¥230 买 SO-101 双臂套件(如果真的喜欢)
  2. 用真机录 50 条数据 → 上传 HuggingFace Hub → 训练 → 部署

月 3+:大模型实战

  1. 租 4090(autodl / vast.ai 一小时 ¥1-3)跑 OpenPI π0 推理
  2. 复现一篇你最喜欢的 VLA 论文

"什么卡能跑什么"速查表

项目 Colab T4 (16GB) RTX 3060 (12GB) RTX 4090 (24GB) A100 (80GB)
MuJoCo Menagerie OK OK OK OK
LeRobot 推理/训练(小) OK OK OK OK
ManiSkill 仿真 OK OK OK OK
Robosuite OK OK OK OK
Habitat-Lab 需配置 OK OK OK
Isaac Lab / Sim NO 勉强 OK OK
OpenPI π0 推理 8bit 量化 8bit 量化 OK OK
OpenPI π0 LoRA 微调 NO NO OK OK
OpenPI π0 全量微调 NO NO NO OK
OpenVLA 推理 8bit 8bit OK OK

总结一句话

  • 明天就能开跑:MuJoCo Menagerie + LeRobot examples
  • 有点 GPU 想做研究:ManiSkill / Robosuite / RLBench 三选一
  • 真要搞 VLA 大模型:OpenPI(π0 已开源是 2025 年最大利好)
  • 想买真机:SO-101 ¥230 入门 → 攒钱看 ALOHA $30k+
  • 企业级仿真:Isaac Lab(但有学习曲线,不是入门首选)

Other beginner pages