Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
TL;DR
一句话:把"算物理"和"训神经网络"塞进同一张显卡,机器人学走路从"几千台 CPU 跑一晚"压成"一张卡跑几分钟"。
类比:以前训机器人像切菜、炒菜、装盘分三个房间,端来端去比真做菜还累;Isaac Gym 把厨房合并,菜不动、工具换着上。
效果对照:OpenAI 训魔方机械手用 6144 CPU 核 + 8 张 V100 跑 30 小时;Isaac Gym 用 1 张 A100、1 小时打平——让 PhD 学生本地一张卡就能跑完整套实验。
所以这一节是想说:Isaac Gym 不是新算法,是把训练流水线整体搬上 GPU 的工程胜利,让机器人 RL 从"集群级实验"变成"单卡级实验"。
这是个什么场景
想象你在教小孩骑自行车,但这小孩特别笨——必须摔几百万次才能摸到平衡感。你要是只摆一辆车让他练,等到天荒地老都学不会;所以你得同时摆几千辆,让几千个分身一起摔,再统计哪种动作最不容易摔。这就是机器人强化学习(RL,Reinforcement Learning)干的事。
把"小孩"换成虚拟蚂蚁(Ant)。每一帧(1/60 秒)要走五步:
- 物理引擎根据关节角度、地面摩擦、重力,算出蚂蚁下一帧的位置和姿态
- 观察函数把关节角度、速度、目标位置打包成向量
- **神经网络(policy,策略网络)**吃这个向量,吐出 8 个关节力矩
- 奖励函数根据它走了多远、有没有摔倒打个分
- (state, action, reward) 三元组进 buffer,攒够一批就更新网络
要让蚂蚁学得动,得同时摆 4096 只一起摔——样本量瞬间 4096 倍。
但传统做法(MuJoCo / PyBullet)把物理放 CPU、神经网络放 GPU,一根 CPU 核管一只蚂蚁,64 核顶天 128 只。OpenAI 当年训魔方机械手用了 920 台 32 核机器 = 29440 个 CPU 核跑 30 小时才收敛——这种规模个人和小实验室根本玩不起。
Isaac Gym 的目标就一句:让单卡 GPU(A100)顶替整个 CPU 集群。
所以这一节是想说:机器人 RL 卡在样本量瓶颈,传统 CPU+GPU 异构方案到了几千环境就炸,需要一种新的并行化哲学。

之前的人怎么做
历史路径大致分三代:
第一代:纯 CPU 物理(MuJoCo / PyBullet / DART / V-Rep)
- 每个环境一个 CPU 线程,同步靠多进程或多线程
- 瓶颈:核数有限,超过 128 环境基本就不动了
- 想堆量必须上集群,OpenAI 魔方就是极致代表
第二代:GPU 物理 + CPU 接口(Liang et al. 2018,PhysX 早期)
- 物理 step 跑 GPU,但物理状态要拷回 CPU 算 observation/reward
- action 在 GPU 上由 policy 算出来,又要拷回 CPU 转换成物理引擎的输入
- 每一步都过两次 PCIe 总线,伪并行
- 而且只测了简化场景,没做真实机器人和 sim-to-real
第三代(同期对手):Brax(Google,2021)
- 用 JAX 写一个完全可微的物理引擎,全 GPU/TPU 跑
- 优点:differentiable,能直接梯度回传穿物理
- 缺点:物理保真度还在追赶,接触建模简化(不太能撑接触富集任务)
Isaac Gym 选的路线是第三代的另一支:不重写物理引擎,而是改造已有的 NVIDIA PhysX——给它加两个新能力:
- GPU step 不再每步同步回 CPU(之前 step 完默认 CPU 能拿到结果)
- 直接 GPU API:用户能从 GPU buffer 读状态、写控制量
这样 PhysX 仍然提供工业级保真的接触求解,但接口不再被 CPU 绑死。
所以这一节是想说:之前要么 CPU 限速、要么 GPU 物理但接口没改造干净;Isaac Gym 是第一个把 NVIDIA 自家成熟物理引擎改造成"全 GPU 数据通路"的方案。
新想法
核心 insight 一句话:数据应该在 GPU 内存里循环,永远不下来。
类比:你在厨房做菜,传统做法是切菜在 A 桌、炒菜在 B 桌、装盘在 C 桌,每一步都端着盘子走过去,路上时间比真做菜还长。Isaac Gym 是把所有工具都搬到一张操作台上——菜不动,工具切换。
具体做法:
- 物理状态 = PyTorch tensor:actor 根状态、DOF 状态、刚体状态、接触力,全部以 PyTorch tensor 形式暴露给 Python(通过 CUDA interoperability 直接 wrap,零拷贝)
- Observation/reward 用 PyTorch 算:你不用写 C++/CUDA kernel,直接用 PyTorch 向量化操作,几千个环境同时算
- Action 也是 tensor:policy 输出后直接 view 成 (N_actor, dof) 的 tensor 喂回去,不出 GPU
- 同代码 CPU/GPU 切换:开关一个 flag 就能换设备,方便调试
第二个 insight:所有环境塞同一个 scene。 CPU 时代要把 1024 个环境拆成 8 个 scene 各 128,因为单 scene 太大同步开销爆炸。GPU 上反过来:要让 SM(streaming multiprocessor)吃饱,就得把所有 actor 塞进一个大 scene,靠 contact filter 防止互相碰撞。
类比:CPU 像一个有 8 张办公桌的小房间,人多了挤;GPU 像一个仓库,越满越好——它有几千个并行计算单元等着干活,环境不够多反而浪费。
所以这一节是想说:Isaac Gym 的关键不是"GPU 跑物理"这个动作本身(前人做过),而是"数据通路全 GPU 化 + 单 scene 巨型场景"这两条工程哲学。
方法分步
按训练一次 Ant 的时间轴拆开:
步骤 1:搭场景(CPU 跑一次性配置)
类比:开学第一天,老师把 4096 套同样的桌椅摆进同一个礼堂。
- 用户写 Python,调
gym.create_env()构造一个环境(比如一只 Ant + 一块地面) - 加载 URDF / MJCF(行业标准的机器人描述文件,描述 link、joint、惯量、视觉网格)
- 复制 N 份(比如 4096)到同一个 PhysX scene
- 设置每个 actor 的 collision filter,让它们物理上互不干扰但视觉上叠在一起
步骤 2:拿 tensor 句柄(一次性)
类比:你拿到的是一份"共享文档"链接,不是文档拷贝——物理引擎写一笔,你立刻看到。
等等,先慢一拍——这里的 tensor(张量)是什么?可以理解成一张超大表格,每行代表一只蚂蚁,每列是它的一个状态数字(位置、速度等)。Isaac Gym 把 PhysX 内部那张表直接"借"给 PyTorch 看,物理引擎更新一格,PyTorch 这边自动同步,不需要复制一份——这就是"零拷贝"。
root_state_desc = gym.acquire_actor_root_state_tensor(sim)
root_states = gymtorch.wrap_tensor(root_state_desc) # 零拷贝 wrap
root_states形状(N_actor, 13):3 位置 + 4 四元数 + 3 线速度 + 3 角速度- DOF state 形状
(N_dof, 2):关节位置 + 速度 - 这些 tensor 从此和 PhysX 内部 buffer 共享内存
步骤 3:训练循环(每帧)
类比:流水线上的厨师——前一道菜还在锅里就准备下一道,所有动作不离这张操作台。
loop:
# 1. 物理步进(GPU 内)
gym.simulate(sim) # PhysX 跑 TGS solver
gym.fetch_results(sim, True)
# 2. 算 observation(PyTorch tensor 操作,GPU 内)
obs = compute_obs(root_states, dof_states)
# 3. policy 前向(GPU 内)
action = policy(obs)
# 4. 算 reward(PyTorch,GPU 内)
rew = compute_reward(obs, action)
# 5. 写回 control tensor(GPU 内)
gym.set_dof_actuation_force_tensor(sim, action)
关键:整个 loop 没有 .cpu() 调用,没有 host↔device 拷贝——数据从头到尾不下 GPU。
步骤 4:物理引擎内部(PhysX TGS solver)
类比:以前是"一步迈大步、反复修正",现在改成"小碎步快走、每步只修一次但累加"——总路程一样,更稳更快。
- TGS = Temporal Gauss-Seidel,[Macklin et al. 2019] 的变体
- 思想:把"每步走大步 + 多次迭代"改成"每步走小步 + 单次迭代但累加",收敛更快、单步成本几乎不变
- 关节用 reduced coordinate articulation(不是 maximal coordinate 自由刚体 + 约束),数值更稳
步骤 5:环境重置(部分子集)
类比:4096 张考卷里第 17、203、999 张写错了,你只擦掉这三张重发,不打扰别人。
- 当某只 Ant 摔了,需要单独 reset 这只,不影响其他 4095 只
- 通过 index buffer 指定要 reset 的 actor 子集,把对应 root state / DOF state 写回初始值
- 这一步是 RL 训练的核心 trick,CPU 时代要么全 reset 要么各种 hack,Isaac Gym 用 tensor index 一次搞定
步骤 6:算法(PPO + rl_games)
类比:教练只让学生在"上次动作的小范围内"调整,避免一夜之间学坏;这就是 PPO(Proximal Policy Optimization,近端策略优化)。
- 用 [Schulman et al. 2017] 的 Proximal Policy Optimization
- 跑 rl_games(一个 GPU 端到端向量化的 PPO 实现)
- 默认对称 actor-critic(policy 和 value 共享网络),sim-to-real 时切到非对称(policy 只看真实可观测的,value 看上帝视角)
所以这一节是想说:训练循环本身没变(还是 PPO + 环境 step),变的是循环里所有步骤都在 GPU tensor 上完成,靠 PhysX 的两个新 API(GPU step 不回 CPU + 直接 GPU buffer 访问)打通最后一环。
关键数字
下面这些数字是论文最有说服力的部分,对照看才知道"2-3 个数量级"是什么概念:
| 任务 | 老方案 | Isaac Gym (1× A100) | 加速比 |
|---|---|---|---|
| Ant locomotion (reward 3000) | / | 20 秒 | / |
| Humanoid locomotion (reward 5000) | / | 4 分钟 | 4× 比上代 GPU 物理 |
| ANYmal flat-terrain | / | <2 分钟 | / |
| ANYmal rough terrain (sim-to-real) | / | 20 分钟(A6000) | / |
| AMP 角色动画 spin-kick | 30 小时 / 16 CPU 核 (PyBullet) | 6 分钟 | 300×(2.48 数量级) |
| Shadow Hand 立方体旋转(OpenAI 配置 FF) | 30 小时 / 384×16 CPU + 8× V100 | ~1 小时 | 30× |
| Shadow Hand LSTM 37 连续成功 | 17 小时 / 同上集群 | 6 小时(最佳种子 2.5 小时) | 3–7× |
| Franka 立方体堆叠 | / | <25 分钟 | / |
| Shadow Hand Standard 20 连续成功 | / | <35 分钟 | / |
吞吐量(FPS = 每秒环境步数,A100 单卡):
- Ant:70 万 FPS(8192 envs)
- Humanoid:20–30 万 FPS(4096 envs)
- Shadow Hand:15 万 FPS(16384 envs)
环境数 sweet spot:
- 简单环境(Ant)→ 8192 envs,再多反而 horizon 太短学不动
- 中等(Humanoid)→ 4096 envs
- 接触富集(Shadow Hand)→ 8192–16384 envs
PhysX 求解器迭代:position iter + velocity iter,关键是 TGS 让每步只需 1 个 solver iter 就有 N 个 iter 的效果。
所以这一节是想说:Isaac Gym 的 "2–3 个数量级加速" 不是吹牛——AMP 是 300×、Shadow Hand 是 30×、单卡 vs 6144 CPU 核的对照证据扎实。
应该懂的新词
| 术语 | 日常类比 | 技术定义 |
|---|---|---|
| Actor | 一个"角色" | URDF/MJCF 文件描述的一个连体(机器人/物体),由 rigid bodies + joints 构成 |
| Rigid body | 一个不会变形的零件 | 仿真里最小的物理单元,有 position/orientation/velocity |
| DOF(Degree of Freedom,自由度) | 关节能转动的"轴" | 转动 joint = 1 DOF,球关节 = 3 DOF,固定 joint = 0 DOF |
| Reduced coordinate articulation | 描述机器人的"骨架式坐标" | 用关节角度直接描述链条状态,对比 maximal coordinate(每个 link 独立 6DOF + 约束) |
| PhysX | NVIDIA 的物理引擎 | NVIDIA 自家工业级物理库,原本给游戏用,加了 GPU API 后给 RL 用 |
| TGS solver | "小步快跑"的物理积分器 | Temporal Gauss-Seidel,每步只跑 1 个 Gauss-Seidel iter 但累加 delta,等价多次 substep |
| URDF / MJCF | 机器人 schematics | 行业标准描述文件,URDF 是 ROS 系,MJCF 是 MuJoCo 系 |
| Domain Randomization (DR) | "随机化训练场" | 训练时随机扰动质量、摩擦、重力等参数,让 policy 学到 robust 行为,迁移真机时不易翻车 |
| Asymmetric actor-critic | "学生看真实信息,老师看上帝视角" | policy 只能看真机能拿到的 obs,value function 额外看仿真特权信息(接触力等),训练更稳,迁移仍只用 policy |
| Operational Space Control (OSC) | "末端执行器空间控制" | 不直接控关节力矩,而是控末端位置/姿态,关节力矩通过逆动力学求出,对接触富集任务更友好 |
| Sim-to-real | 在虚拟训练场学完搬去真机 | 仿真训出 policy 直接(或微调)部署到物理机器人 |
| PPO | 一种 RL 算法 | Proximal Policy Optimization,2017 OpenAI,工业上最常用的 on-policy 方法 |
| AMP(Adversarial Motion Priors) | "GAN 版动作克隆" | 用判别器区分专家动作和 policy 动作,给 policy 隐式 reward |
| CUDA Interoperability | GPU 内存"共享文档" | 不同 CUDA 库(PhysX / PyTorch)能直接读写同一块显存,不需要拷贝 |
| Horizon length | 一次 rollout 走多少步 | PPO 里每个 worker 收集多少步样本,再统一更新,环境多了 horizon 通常要变短 |
所以这一节是想说:要读懂 Isaac Gym,先把"物理仿真术语"(actor / DOF / solver / URDF)和"RL 训练术语"(PPO / DR / asymmetric AC)都过一遍,不然论文的图表数字看不出门道。
补充一个新人最容易混的概念三连:
- Maximal coordinate:每个刚体独立 6 个自由度(x/y/z/roll/pitch/yaw),关节用约束方程"绑在一起"——直观但数值不稳
- Reduced coordinate:直接用关节角描述链条,一只 7-DOF 机械臂只用 7 个变量——更稳但要写正运动学
- Articulation:PhysX 里的术语,一个用 reduced coordinate 描述的"多刚体连体"
Isaac Gym 默认所有机器人都建模为 articulation(reduced coordinate),单个自由刚体(比如桌上的方块)也可以包装成"单链 articulation"统一处理,这就是 Section 3 第一段说的"interchangeable"。
搞不定的
诚实列限制:
不是 differentiable:Isaac Gym 的物理 step 是黑盒,不能反向传梯度。Brax 的卖点恰恰是 differentiable physics。需要梯度回传穿物理(比如 model-based RL、可微仿真)的话,Isaac Gym 不合适。
接触建模仍是近似:PhysX 的接触求解很强(比 PyBullet 准),但和 MuJoCo 的 soft constraint 风格不同,部分 sim-to-real 仍需要细调摩擦/restitution;论文也承认 ANYmal sim-to-real 加了 actuator network 才稳。
必须是 NVIDIA GPU:底层是 CUDA + PhysX,AMD GPU、TPU 不支持。这点 Brax(JAX)就更通用。
场景大小有上限:所有 actor 塞一个 scene,几万环境后单 scene 的 broadphase(碰撞预筛选)也会变重;论文 Humanoid 在 4096 之后就不再加速。
只测了 PPO:Isaac Gym 是平台不是算法,但论文 benchmark 全跑 PPO + rl_games,对 SAC、Q-learning 等 off-policy 方法的适配论文没展开。
观察空间还是手设计:observation 不包含视觉(图片),全部是机器人状态向量。要做视觉 RL(policy 从图片学)需要额外接 NVIDIA Isaac Sim 的渲染管线,论文没在这里展开。
TriFinger sim-to-real 成功率 55%:不算特别高,证明就算有 DR + asymmetric AC,sim-to-real 还是有 gap。
所以这一节是想说:Isaac Gym 是工程胜利,但它*不是万能灵药——不可微、绑 NVIDIA、视觉不直接支持、sim-to-real 仍有 gap,了解这些边界才能用对。*
进一步说,"不可微"这件事在 2021 年看不算大问题(PPO 是 model-free 的,不需要梯度穿物理),但到 2024 年之后,model-based RL、可微 MPC、世界模型这些方向越来越吃可微仿真的红利。所以现在选型要看你做的是不是 model-free——如果是,Isaac 系仍然最快;如果在做可微 / model-based,要认真考虑 Brax、MJX、Genesis 这些后来者。
与别篇关系
把 Isaac Gym 放在 sim 这一支的脉络里看:
上游 / 同代对手:
- MuJoCo(Todorov 2012):CPU 时代的标杆,物理保真度高、接触柔和;现在 DeepMind 有 MJX(JAX 端口)追 GPU
- PyBullet(Coumans):开源 C++ 物理引擎,业界默认的"够用就行"选项
- Brax(Freeman et al. 2021):Google 同期作品,JAX 写的可微物理,主打 TPU + 可微,但接触建模初期较弱
- Liang et al. 2018:Isaac Gym 的"前作",作者基本同一批人,第一次把 GPU 物理用于 RL,但接口没全 GPU 化
下游应用论文(直接建在 Isaac Gym 上):
- Legged Gym / "Walk in Minutes"(Rudin et al. 2021,作者也在 NVIDIA):用 Isaac Gym 训 ANYmal 在崎岖地形走路,4096 envs,20 分钟训完,是 RL 机器人圈的"破圈代表作"
- AMP(Peng et al. 2021):角色动画用对抗判别器学动作,Isaac Gym 是它的 6 分钟训练支点
- TriFinger sim-to-real(Allshire et al. 2021):远程真机操控的 6-DoF 重定位
- 后续 Eureka / DrEureka(2024):用 LLM 自动生成 reward function,底层都是 Isaac Gym
生态进化:
- Isaac Gym(本论文)→ Isaac Lab(2024,NVIDIA 把 Isaac Gym 重写在 Isaac Sim 之上,加视觉渲染、ROS2 集成)
- 现在 NVIDIA 主推的是 Isaac Lab,Isaac Gym 维护停滞,但 paradigm 没变
和 Embodied AI 主线的关系:
- 一切机器人 RL 的 sim 训练(locomotion、manipulation、whole-body control)都依赖这种"大规模并行仿真"
- VLA(Vision-Language-Action)模型像 RT-2、OpenVLA 训练数据中很大一块仍来自仿真采集,Isaac 系列是首选
- Diffusion Policy / Imitation Learning 不直接用 Isaac Gym 训,但用它做评测
所以这一节是想说:Isaac Gym 不是孤立论文,它是机器人 RL "GPU 端到端时代" 的奠基性基础设施,往上承接 Liang 2018,平行对手是 Brax/MuJoCo MJX,往下衍生 Legged Gym / AMP / TriFinger / Isaac Lab 整条产业链。
阅读顺序
如果你只有 30 分钟:
- Abstract + Section 1 Introduction(5min):抓住"端到端 GPU pipeline"+"2–3 数量级加速"这两个核心 claim
- Figure 2(pipeline 总图)+ Figure 3(vs 传统方案对比图)(3min):肉眼直观感受为什么省了 CPU↔GPU 拷贝
- Section 2.3 Tensor API + Table 1/2(10min):看那段 Python 代码片段,体会
gymtorch.wrap_tensor的零拷贝是什么意思 - Section 5 Characterising Simulation Performance(5min):扫 Figure 5/6/8,看 FPS 随环境数的曲线,理解"为什么单卡能撑 8192 环境"
- Section 6.4 Robotic Hands + Figure 14/15(5min):Shadow Hand vs OpenAI 集群的对比是论文最有说服力的实验
- Section 7 Summary(2min):复盘三个核心贡献
如果你有 2 小时:
- 加读 Section 2.1 并行策略哲学(CPU vs GPU 单 scene 的取舍)
- 加读 Section 3 Physics Simulation(TGS solver 的 intuition,Table 3 调参列表)
- 加读 Section 6.1.4 ANYmal sim-to-real(看怎么从 flat 扩展到 rough terrain,加 actuator network 和 curriculum)
- 加读 Section 6.2 AMP(这部分对角色动画 / 物理动画方向特别有启发)
如果要复现 / 上手代码:
- 跳到 Appendix A.3(Table 17 PPO 超参表)和 A.4.1(DR 范围表 18)
- 然后去 GitHub 拉 IsaacGymEnvs 仓库,从
tasks/ant.py这个最简单的 task 读起
所以这一节是想说:论文 25 页正文 + 9 页附录,但*精华其实集中在 Section 2.3 + Section 5 + Section 6.4 三处,剩下的可以按需取用。*
FAQ
Q1:我应该用 Isaac Gym 还是 Isaac Lab? A:新项目直接 Isaac Lab。Isaac Lab 是 Isaac Gym 的精神继承人,2024 年后 NVIDIA 主推,集成 Omniverse 渲染、ROS2、更现代的 Python API。Isaac Gym 已经停止主要更新。但论文里讲的并行哲学、tensor API、TGS solver 全都在 Isaac Lab 里继承下来。
Q2:和 MuJoCo MJX 比怎么选? A:保真度 / 接触富集任务(机械手、操作)选 PhysX 系(Isaac);学术基准 / 机器人 locomotion 经典任务选 MuJoCo MJX;要可微选 Brax 或 MJX。MJX 是 MuJoCo 2024 的 JAX 端口,性能已追上 Isaac Gym 同档次。
Q3:为什么"单 scene 装所有环境"反而更快? A:GPU 的并行单元(SM、warp)只有在数据量够大时才能吃满。多 scene 等于多个小 batch,GPU 反而闲。单 scene 上几千 actor 是 GPU 喜欢的"宽且浅"工作负载。CPU 反过来,单线程单 scene,多 scene 才能用上多核。
Q4:训出来的 policy 真能放真机上跑吗? A:论文给了两个证据——ANYmal 在 rough terrain 上 sim-to-real 成功(外加 actuator network 和 DR)、TriFinger 远程真机 55% 成功率。结论是:可以,但需要 DR + asymmetric AC 等技巧,不是"训好直接搬"。
Q5:为什么 reward 不下 GPU 算更省?我自己 PyTorch 算 reward 慢吗? A:不慢。论文反而推荐你用 PyTorch + TorchScript JIT 写 reward,因为:
- 数据已经在 GPU tensor 上,PyTorch 直接向量化算几千环境
- TorchScript 编译后接近 CUDA kernel 速度
- 不用写 C++/CUDA,调试方便
Q6:horizon length 为什么和环境数有 trade-off? A:PPO 一次更新需要的总样本量大致固定(比如 16384 × 16 = 262144 步)。环境数翻倍,horizon 就要减半才能保持总量不变。但 horizon 太短(比如 8)某些复杂任务(Humanoid)学不到长期回报,policy 退化。所以才有"8192 envs 够用,16384 反而退化"的现象。
Q7:如果我是初学者要复现,最容易踩的坑是什么?
A:三个常见坑——(1) acquire_*_tensor 必须在每个 reset / refresh 之后重新 wrap,不然拿到 stale 数据;(2) set_dof_state_tensor_indexed 的 index buffer 要传 int32 不是 int64;(3) PPO 超参(KL threshold、minibatch、epoch)对环境敏感,直接用论文 Table 17 当起点。
Q8:Isaac Gym 能不能做视觉 RL(policy 看图片)? A:本论文版本不直接支持高速渲染(NVIDIA 把视觉部分放在 Isaac Sim / Isaac Lab)。如果你要 vision-based RL,建议用 Isaac Lab 或 Habitat 这种带渲染的仿真器。
所以这一节是想说:常见疑问大致围绕"和谁比 / 怎么选 / 真能 sim-to-real 吗 / 怎么调 / 怎么扩展视觉",把这 8 个回答好,对论文就基本能复述。
延伸阅读
- Liang et al. 2018, "GPU-Accelerated Robotic Simulation for Distributed RL" — 同一批作者的"前作",理解 Isaac Gym 之前 GPU 物理为什么不够好
- Macklin et al. 2019, "Small Steps in Physics Simulation" — TGS solver 原始论文,搞懂为什么"小步快跑"等价于"大步多迭代"
- Rudin et al. 2021, "Learning to Walk in Minutes Using Massively Parallel Deep RL" — 用 Isaac Gym 训 ANYmal 的破圈作,理解大规模并行 RL 在真机上的最强战例
- Peng et al. 2021, "AMP: Adversarial Motion Priors" — 在 Isaac Gym 上 6 分钟训出 spin-kick 的角色动画论文
- Allshire et al. 2021, "Transferring Dexterous Manipulation from GPU Sim to Remote Real-World TriFinger" — Isaac Gym sim-to-real 的最完整范例
- Freeman et al. 2021, "Brax" — Google 的对照组,可微物理 + JAX,理解技术路线分叉
- NVIDIA Isaac Lab 文档(developer.nvidia.com/isaac-lab)— Isaac Gym 的现代继任者,新项目直接看这个
- Schulman et al. 2017, "Proximal Policy Optimization Algorithms" — PPO 原论文,论文用的 RL 算法基础
- OpenAI et al. 2018, "Learning Dexterous In-Hand Manipulation" — Shadow Hand 集群训练的对照组论文,看了才知道 Isaac Gym 加速 30× 是多大的事
- Tobin et al. 2017, "Domain Randomization for Transferring DNNs from Simulation to the Real World" — DR 的奠基论文,Isaac Gym 的 DR API 就是这套思想的实现
所以这一节是想说:Isaac Gym 这条线最值得继续追的是 Legged Gym(应用爆款)、AMP(动画方向)、Brax(可微对照)和 Isaac Lab(现代版),把这四个看完就摸清整片地形了。
◼
引用本笔记 / Cite this note
@online{eai_isaac_gym_2026,
title = {(readable note) Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2021 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/isaac-gym/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim