回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Simulation & Sim2Real · Plate Nº 99

Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning

15 min read · 5362 字 · ⭐⭐⭐ · auto 摘要

TL;DR

一句话:把"算物理"和"训神经网络"塞进同一张显卡,机器人学走路从"几千台 CPU 跑一晚"压成"一张卡跑几分钟"。

类比:以前训机器人像切菜、炒菜、装盘分三个房间,端来端去比真做菜还累;Isaac Gym 把厨房合并,菜不动、工具换着上。

效果对照:OpenAI 训魔方机械手用 6144 CPU 核 + 8 张 V100 跑 30 小时;Isaac Gym 用 1 张 A100、1 小时打平——让 PhD 学生本地一张卡就能跑完整套实验。

所以这一节是想说:Isaac Gym 不是新算法,是把训练流水线整体搬上 GPU 的工程胜利,让机器人 RL 从"集群级实验"变成"单卡级实验"。


这是个什么场景

想象你在教小孩骑自行车,但这小孩特别笨——必须摔几百万次才能摸到平衡感。你要是只摆一辆车让他练,等到天荒地老都学不会;所以你得同时摆几千辆,让几千个分身一起摔,再统计哪种动作最不容易摔。这就是机器人强化学习(RL,Reinforcement Learning)干的事。

把"小孩"换成虚拟蚂蚁(Ant)。每一帧(1/60 秒)要走五步:

  1. 物理引擎根据关节角度、地面摩擦、重力,算出蚂蚁下一帧的位置和姿态
  2. 观察函数把关节角度、速度、目标位置打包成向量
  3. **神经网络(policy,策略网络)**吃这个向量,吐出 8 个关节力矩
  4. 奖励函数根据它走了多远、有没有摔倒打个分
  5. (state, action, reward) 三元组进 buffer,攒够一批就更新网络

要让蚂蚁学得动,得同时摆 4096 只一起摔——样本量瞬间 4096 倍。

但传统做法(MuJoCo / PyBullet)把物理放 CPU、神经网络放 GPU,一根 CPU 核管一只蚂蚁,64 核顶天 128 只。OpenAI 当年训魔方机械手用了 920 台 32 核机器 = 29440 个 CPU 核跑 30 小时才收敛——这种规模个人和小实验室根本玩不起。

Isaac Gym 的目标就一句:让单卡 GPU(A100)顶替整个 CPU 集群

所以这一节是想说:机器人 RL 卡在样本量瓶颈,传统 CPU+GPU 异构方案到了几千环境就炸,需要一种新的并行化哲学。


Isaac Gym — 场景示意:这论文要解决的现实问题
Plate Nº IIsaac Gym — 场景示意:这论文要解决的现实问题

之前的人怎么做

历史路径大致分三代:

第一代:纯 CPU 物理(MuJoCo / PyBullet / DART / V-Rep)

  • 每个环境一个 CPU 线程,同步靠多进程或多线程
  • 瓶颈:核数有限,超过 128 环境基本就不动了
  • 想堆量必须上集群,OpenAI 魔方就是极致代表

第二代:GPU 物理 + CPU 接口(Liang et al. 2018,PhysX 早期)

  • 物理 step 跑 GPU,但物理状态要拷回 CPU 算 observation/reward
  • action 在 GPU 上由 policy 算出来,又要拷回 CPU 转换成物理引擎的输入
  • 每一步都过两次 PCIe 总线,伪并行
  • 而且只测了简化场景,没做真实机器人和 sim-to-real

第三代(同期对手):Brax(Google,2021)

  • 用 JAX 写一个完全可微的物理引擎,全 GPU/TPU 跑
  • 优点:differentiable,能直接梯度回传穿物理
  • 缺点:物理保真度还在追赶,接触建模简化(不太能撑接触富集任务)

Isaac Gym 选的路线是第三代的另一支:不重写物理引擎,而是改造已有的 NVIDIA PhysX——给它加两个新能力:

  1. GPU step 不再每步同步回 CPU(之前 step 完默认 CPU 能拿到结果)
  2. 直接 GPU API:用户能从 GPU buffer 读状态、写控制量

这样 PhysX 仍然提供工业级保真的接触求解,但接口不再被 CPU 绑死。

所以这一节是想说:之前要么 CPU 限速、要么 GPU 物理但接口没改造干净;Isaac Gym 是第一个把 NVIDIA 自家成熟物理引擎改造成"全 GPU 数据通路"的方案。


新想法

核心 insight 一句话:数据应该在 GPU 内存里循环,永远不下来。

类比:你在厨房做菜,传统做法是切菜在 A 桌、炒菜在 B 桌、装盘在 C 桌,每一步都端着盘子走过去,路上时间比真做菜还长。Isaac Gym 是把所有工具都搬到一张操作台上——菜不动,工具切换。

具体做法:

  1. 物理状态 = PyTorch tensor:actor 根状态、DOF 状态、刚体状态、接触力,全部以 PyTorch tensor 形式暴露给 Python(通过 CUDA interoperability 直接 wrap,零拷贝
  2. Observation/reward 用 PyTorch 算:你不用写 C++/CUDA kernel,直接用 PyTorch 向量化操作,几千个环境同时算
  3. Action 也是 tensor:policy 输出后直接 view 成 (N_actor, dof) 的 tensor 喂回去,不出 GPU
  4. 同代码 CPU/GPU 切换:开关一个 flag 就能换设备,方便调试

第二个 insight:所有环境塞同一个 scene。 CPU 时代要把 1024 个环境拆成 8 个 scene 各 128,因为单 scene 太大同步开销爆炸。GPU 上反过来:要让 SM(streaming multiprocessor)吃饱,就得把所有 actor 塞进一个大 scene,靠 contact filter 防止互相碰撞。

类比:CPU 像一个有 8 张办公桌的小房间,人多了挤;GPU 像一个仓库,越满越好——它有几千个并行计算单元等着干活,环境不够多反而浪费。

所以这一节是想说:Isaac Gym 的关键不是"GPU 跑物理"这个动作本身(前人做过),而是"数据通路全 GPU 化 + 单 scene 巨型场景"这两条工程哲学。


方法分步

按训练一次 Ant 的时间轴拆开:

步骤 1:搭场景(CPU 跑一次性配置)

类比:开学第一天,老师把 4096 套同样的桌椅摆进同一个礼堂。

  • 用户写 Python,调 gym.create_env() 构造一个环境(比如一只 Ant + 一块地面)
  • 加载 URDF / MJCF(行业标准的机器人描述文件,描述 link、joint、惯量、视觉网格)
  • 复制 N 份(比如 4096)到同一个 PhysX scene
  • 设置每个 actor 的 collision filter,让它们物理上互不干扰但视觉上叠在一起

步骤 2:拿 tensor 句柄(一次性)

类比:你拿到的是一份"共享文档"链接,不是文档拷贝——物理引擎写一笔,你立刻看到。

等等,先慢一拍——这里的 tensor(张量)是什么?可以理解成一张超大表格,每行代表一只蚂蚁,每列是它的一个状态数字(位置、速度等)。Isaac Gym 把 PhysX 内部那张表直接"借"给 PyTorch 看,物理引擎更新一格,PyTorch 这边自动同步,不需要复制一份——这就是"零拷贝"。

root_state_desc = gym.acquire_actor_root_state_tensor(sim)
root_states = gymtorch.wrap_tensor(root_state_desc)  # 零拷贝 wrap
  • root_states 形状 (N_actor, 13):3 位置 + 4 四元数 + 3 线速度 + 3 角速度
  • DOF state 形状 (N_dof, 2):关节位置 + 速度
  • 这些 tensor 从此和 PhysX 内部 buffer 共享内存

步骤 3:训练循环(每帧)

类比:流水线上的厨师——前一道菜还在锅里就准备下一道,所有动作不离这张操作台。

loop:
    # 1. 物理步进(GPU 内)
    gym.simulate(sim)         # PhysX 跑 TGS solver
    gym.fetch_results(sim, True)

    # 2. 算 observation(PyTorch tensor 操作,GPU 内)
    obs = compute_obs(root_states, dof_states)

    # 3. policy 前向(GPU 内)
    action = policy(obs)

    # 4. 算 reward(PyTorch,GPU 内)
    rew = compute_reward(obs, action)

    # 5. 写回 control tensor(GPU 内)
    gym.set_dof_actuation_force_tensor(sim, action)

关键:整个 loop 没有 .cpu() 调用,没有 host↔device 拷贝——数据从头到尾不下 GPU。

步骤 4:物理引擎内部(PhysX TGS solver)

类比:以前是"一步迈大步、反复修正",现在改成"小碎步快走、每步只修一次但累加"——总路程一样,更稳更快。

  • TGS = Temporal Gauss-Seidel,[Macklin et al. 2019] 的变体
  • 思想:把"每步走大步 + 多次迭代"改成"每步走小步 + 单次迭代但累加",收敛更快、单步成本几乎不变
  • 关节用 reduced coordinate articulation(不是 maximal coordinate 自由刚体 + 约束),数值更稳

步骤 5:环境重置(部分子集)

类比:4096 张考卷里第 17、203、999 张写错了,你只擦掉这三张重发,不打扰别人。

  • 当某只 Ant 摔了,需要单独 reset 这只,不影响其他 4095 只
  • 通过 index buffer 指定要 reset 的 actor 子集,把对应 root state / DOF state 写回初始值
  • 这一步是 RL 训练的核心 trick,CPU 时代要么全 reset 要么各种 hack,Isaac Gym 用 tensor index 一次搞定

步骤 6:算法(PPO + rl_games)

类比:教练只让学生在"上次动作的小范围内"调整,避免一夜之间学坏;这就是 PPO(Proximal Policy Optimization,近端策略优化)。

  • 用 [Schulman et al. 2017] 的 Proximal Policy Optimization
  • 跑 rl_games(一个 GPU 端到端向量化的 PPO 实现)
  • 默认对称 actor-critic(policy 和 value 共享网络),sim-to-real 时切到非对称(policy 只看真实可观测的,value 看上帝视角)

所以这一节是想说:训练循环本身没变(还是 PPO + 环境 step),变的是循环里所有步骤都在 GPU tensor 上完成,靠 PhysX 的两个新 API(GPU step 不回 CPU + 直接 GPU buffer 访问)打通最后一环。


关键数字

下面这些数字是论文最有说服力的部分,对照看才知道"2-3 个数量级"是什么概念:

任务 老方案 Isaac Gym (1× A100) 加速比
Ant locomotion (reward 3000) / 20 秒 /
Humanoid locomotion (reward 5000) / 4 分钟 4× 比上代 GPU 物理
ANYmal flat-terrain / <2 分钟 /
ANYmal rough terrain (sim-to-real) / 20 分钟(A6000) /
AMP 角色动画 spin-kick 30 小时 / 16 CPU 核 (PyBullet) 6 分钟 300×(2.48 数量级)
Shadow Hand 立方体旋转(OpenAI 配置 FF) 30 小时 / 384×16 CPU + 8× V100 ~1 小时 30×
Shadow Hand LSTM 37 连续成功 17 小时 / 同上集群 6 小时(最佳种子 2.5 小时) 3–7×
Franka 立方体堆叠 / <25 分钟 /
Shadow Hand Standard 20 连续成功 / <35 分钟 /

吞吐量(FPS = 每秒环境步数,A100 单卡):

  • Ant:70 万 FPS(8192 envs)
  • Humanoid:20–30 万 FPS(4096 envs)
  • Shadow Hand:15 万 FPS(16384 envs)

环境数 sweet spot:

  • 简单环境(Ant)→ 8192 envs,再多反而 horizon 太短学不动
  • 中等(Humanoid)→ 4096 envs
  • 接触富集(Shadow Hand)→ 8192–16384 envs

PhysX 求解器迭代:position iter + velocity iter,关键是 TGS 让每步只需 1 个 solver iter 就有 N 个 iter 的效果。

所以这一节是想说:Isaac Gym 的 "2–3 个数量级加速" 不是吹牛——AMP 是 300×、Shadow Hand 是 30×、单卡 vs 6144 CPU 核的对照证据扎实。


应该懂的新词

术语 日常类比 技术定义
Actor 一个"角色" URDF/MJCF 文件描述的一个连体(机器人/物体),由 rigid bodies + joints 构成
Rigid body 一个不会变形的零件 仿真里最小的物理单元,有 position/orientation/velocity
DOF(Degree of Freedom,自由度) 关节能转动的"轴" 转动 joint = 1 DOF,球关节 = 3 DOF,固定 joint = 0 DOF
Reduced coordinate articulation 描述机器人的"骨架式坐标" 用关节角度直接描述链条状态,对比 maximal coordinate(每个 link 独立 6DOF + 约束)
PhysX NVIDIA 的物理引擎 NVIDIA 自家工业级物理库,原本给游戏用,加了 GPU API 后给 RL 用
TGS solver "小步快跑"的物理积分器 Temporal Gauss-Seidel,每步只跑 1 个 Gauss-Seidel iter 但累加 delta,等价多次 substep
URDF / MJCF 机器人 schematics 行业标准描述文件,URDF 是 ROS 系,MJCF 是 MuJoCo 系
Domain Randomization (DR) "随机化训练场" 训练时随机扰动质量、摩擦、重力等参数,让 policy 学到 robust 行为,迁移真机时不易翻车
Asymmetric actor-critic "学生看真实信息,老师看上帝视角" policy 只能看真机能拿到的 obs,value function 额外看仿真特权信息(接触力等),训练更稳,迁移仍只用 policy
Operational Space Control (OSC) "末端执行器空间控制" 不直接控关节力矩,而是控末端位置/姿态,关节力矩通过逆动力学求出,对接触富集任务更友好
Sim-to-real 在虚拟训练场学完搬去真机 仿真训出 policy 直接(或微调)部署到物理机器人
PPO 一种 RL 算法 Proximal Policy Optimization,2017 OpenAI,工业上最常用的 on-policy 方法
AMP(Adversarial Motion Priors) "GAN 版动作克隆" 用判别器区分专家动作和 policy 动作,给 policy 隐式 reward
CUDA Interoperability GPU 内存"共享文档" 不同 CUDA 库(PhysX / PyTorch)能直接读写同一块显存,不需要拷贝
Horizon length 一次 rollout 走多少步 PPO 里每个 worker 收集多少步样本,再统一更新,环境多了 horizon 通常要变短

所以这一节是想说:要读懂 Isaac Gym,先把"物理仿真术语"(actor / DOF / solver / URDF)和"RL 训练术语"(PPO / DR / asymmetric AC)都过一遍,不然论文的图表数字看不出门道。

补充一个新人最容易混的概念三连:

  • Maximal coordinate:每个刚体独立 6 个自由度(x/y/z/roll/pitch/yaw),关节用约束方程"绑在一起"——直观但数值不稳
  • Reduced coordinate:直接用关节角描述链条,一只 7-DOF 机械臂只用 7 个变量——更稳但要写正运动学
  • Articulation:PhysX 里的术语,一个用 reduced coordinate 描述的"多刚体连体"

Isaac Gym 默认所有机器人都建模为 articulation(reduced coordinate),单个自由刚体(比如桌上的方块)也可以包装成"单链 articulation"统一处理,这就是 Section 3 第一段说的"interchangeable"。


搞不定的

诚实列限制:

  1. 不是 differentiable:Isaac Gym 的物理 step 是黑盒,不能反向传梯度。Brax 的卖点恰恰是 differentiable physics。需要梯度回传穿物理(比如 model-based RL、可微仿真)的话,Isaac Gym 不合适。

  2. 接触建模仍是近似:PhysX 的接触求解很强(比 PyBullet 准),但和 MuJoCo 的 soft constraint 风格不同,部分 sim-to-real 仍需要细调摩擦/restitution;论文也承认 ANYmal sim-to-real 加了 actuator network 才稳。

  3. 必须是 NVIDIA GPU:底层是 CUDA + PhysX,AMD GPU、TPU 不支持。这点 Brax(JAX)就更通用。

  4. 场景大小有上限:所有 actor 塞一个 scene,几万环境后单 scene 的 broadphase(碰撞预筛选)也会变重;论文 Humanoid 在 4096 之后就不再加速。

  5. 只测了 PPO:Isaac Gym 是平台不是算法,但论文 benchmark 全跑 PPO + rl_games,对 SAC、Q-learning 等 off-policy 方法的适配论文没展开。

  6. 观察空间还是手设计:observation 不包含视觉(图片),全部是机器人状态向量。要做视觉 RL(policy 从图片学)需要额外接 NVIDIA Isaac Sim 的渲染管线,论文没在这里展开。

  7. TriFinger sim-to-real 成功率 55%:不算特别高,证明就算有 DR + asymmetric AC,sim-to-real 还是有 gap。

所以这一节是想说:Isaac Gym 是工程胜利,但它*不是万能灵药——不可微、绑 NVIDIA、视觉不直接支持、sim-to-real 仍有 gap,了解这些边界才能用对。*

进一步说,"不可微"这件事在 2021 年看不算大问题(PPO 是 model-free 的,不需要梯度穿物理),但到 2024 年之后,model-based RL、可微 MPC、世界模型这些方向越来越吃可微仿真的红利。所以现在选型要看你做的是不是 model-free——如果是,Isaac 系仍然最快;如果在做可微 / model-based,要认真考虑 Brax、MJX、Genesis 这些后来者。


与别篇关系

把 Isaac Gym 放在 sim 这一支的脉络里看:

  • 上游 / 同代对手

    • MuJoCo(Todorov 2012):CPU 时代的标杆,物理保真度高、接触柔和;现在 DeepMind 有 MJX(JAX 端口)追 GPU
    • PyBullet(Coumans):开源 C++ 物理引擎,业界默认的"够用就行"选项
    • Brax(Freeman et al. 2021):Google 同期作品,JAX 写的可微物理,主打 TPU + 可微,但接触建模初期较弱
    • Liang et al. 2018:Isaac Gym 的"前作",作者基本同一批人,第一次把 GPU 物理用于 RL,但接口没全 GPU 化
  • 下游应用论文(直接建在 Isaac Gym 上):

    • Legged Gym / "Walk in Minutes"(Rudin et al. 2021,作者也在 NVIDIA):用 Isaac Gym 训 ANYmal 在崎岖地形走路,4096 envs,20 分钟训完,是 RL 机器人圈的"破圈代表作"
    • AMP(Peng et al. 2021):角色动画用对抗判别器学动作,Isaac Gym 是它的 6 分钟训练支点
    • TriFinger sim-to-real(Allshire et al. 2021):远程真机操控的 6-DoF 重定位
    • 后续 Eureka / DrEureka(2024):用 LLM 自动生成 reward function,底层都是 Isaac Gym
  • 生态进化

    • Isaac Gym(本论文)→ Isaac Lab(2024,NVIDIA 把 Isaac Gym 重写在 Isaac Sim 之上,加视觉渲染、ROS2 集成)
    • 现在 NVIDIA 主推的是 Isaac Lab,Isaac Gym 维护停滞,但 paradigm 没变
  • 和 Embodied AI 主线的关系

    • 一切机器人 RL 的 sim 训练(locomotion、manipulation、whole-body control)都依赖这种"大规模并行仿真"
    • VLA(Vision-Language-Action)模型像 RT-2、OpenVLA 训练数据中很大一块仍来自仿真采集,Isaac 系列是首选
    • Diffusion Policy / Imitation Learning 不直接用 Isaac Gym 训,但用它做评测

所以这一节是想说:Isaac Gym 不是孤立论文,它是机器人 RL "GPU 端到端时代" 的奠基性基础设施,往上承接 Liang 2018,平行对手是 Brax/MuJoCo MJX,往下衍生 Legged Gym / AMP / TriFinger / Isaac Lab 整条产业链。


阅读顺序

如果你只有 30 分钟:

  1. Abstract + Section 1 Introduction(5min):抓住"端到端 GPU pipeline"+"2–3 数量级加速"这两个核心 claim
  2. Figure 2(pipeline 总图)+ Figure 3(vs 传统方案对比图)(3min):肉眼直观感受为什么省了 CPU↔GPU 拷贝
  3. Section 2.3 Tensor API + Table 1/2(10min):看那段 Python 代码片段,体会 gymtorch.wrap_tensor 的零拷贝是什么意思
  4. Section 5 Characterising Simulation Performance(5min):扫 Figure 5/6/8,看 FPS 随环境数的曲线,理解"为什么单卡能撑 8192 环境"
  5. Section 6.4 Robotic Hands + Figure 14/15(5min):Shadow Hand vs OpenAI 集群的对比是论文最有说服力的实验
  6. Section 7 Summary(2min):复盘三个核心贡献

如果你有 2 小时:

  • 加读 Section 2.1 并行策略哲学(CPU vs GPU 单 scene 的取舍)
  • 加读 Section 3 Physics Simulation(TGS solver 的 intuition,Table 3 调参列表)
  • 加读 Section 6.1.4 ANYmal sim-to-real(看怎么从 flat 扩展到 rough terrain,加 actuator network 和 curriculum)
  • 加读 Section 6.2 AMP(这部分对角色动画 / 物理动画方向特别有启发)

如果要复现 / 上手代码:

  • 跳到 Appendix A.3(Table 17 PPO 超参表)和 A.4.1(DR 范围表 18)
  • 然后去 GitHub 拉 IsaacGymEnvs 仓库,从 tasks/ant.py 这个最简单的 task 读起

所以这一节是想说:论文 25 页正文 + 9 页附录,但*精华其实集中在 Section 2.3 + Section 5 + Section 6.4 三处,剩下的可以按需取用。*


FAQ

Q1:我应该用 Isaac Gym 还是 Isaac Lab? A:新项目直接 Isaac Lab。Isaac Lab 是 Isaac Gym 的精神继承人,2024 年后 NVIDIA 主推,集成 Omniverse 渲染、ROS2、更现代的 Python API。Isaac Gym 已经停止主要更新。但论文里讲的并行哲学、tensor API、TGS solver 全都在 Isaac Lab 里继承下来。

Q2:和 MuJoCo MJX 比怎么选? A:保真度 / 接触富集任务(机械手、操作)选 PhysX 系(Isaac);学术基准 / 机器人 locomotion 经典任务选 MuJoCo MJX;要可微选 Brax 或 MJX。MJX 是 MuJoCo 2024 的 JAX 端口,性能已追上 Isaac Gym 同档次。

Q3:为什么"单 scene 装所有环境"反而更快? A:GPU 的并行单元(SM、warp)只有在数据量够大时才能吃满。多 scene 等于多个小 batch,GPU 反而闲。单 scene 上几千 actor 是 GPU 喜欢的"宽且浅"工作负载。CPU 反过来,单线程单 scene,多 scene 才能用上多核。

Q4:训出来的 policy 真能放真机上跑吗? A:论文给了两个证据——ANYmal 在 rough terrain 上 sim-to-real 成功(外加 actuator network 和 DR)、TriFinger 远程真机 55% 成功率。结论是:可以,但需要 DR + asymmetric AC 等技巧,不是"训好直接搬"。

Q5:为什么 reward 不下 GPU 算更省?我自己 PyTorch 算 reward 慢吗? A:不慢。论文反而推荐你用 PyTorch + TorchScript JIT 写 reward,因为:

  • 数据已经在 GPU tensor 上,PyTorch 直接向量化算几千环境
  • TorchScript 编译后接近 CUDA kernel 速度
  • 不用写 C++/CUDA,调试方便

Q6:horizon length 为什么和环境数有 trade-off? A:PPO 一次更新需要的总样本量大致固定(比如 16384 × 16 = 262144 步)。环境数翻倍,horizon 就要减半才能保持总量不变。但 horizon 太短(比如 8)某些复杂任务(Humanoid)学不到长期回报,policy 退化。所以才有"8192 envs 够用,16384 反而退化"的现象。

Q7:如果我是初学者要复现,最容易踩的坑是什么? A:三个常见坑——(1) acquire_*_tensor 必须在每个 reset / refresh 之后重新 wrap,不然拿到 stale 数据;(2) set_dof_state_tensor_indexed 的 index buffer 要传 int32 不是 int64;(3) PPO 超参(KL threshold、minibatch、epoch)对环境敏感,直接用论文 Table 17 当起点。

Q8:Isaac Gym 能不能做视觉 RL(policy 看图片)? A:本论文版本不直接支持高速渲染(NVIDIA 把视觉部分放在 Isaac Sim / Isaac Lab)。如果你要 vision-based RL,建议用 Isaac Lab 或 Habitat 这种带渲染的仿真器。

所以这一节是想说:常见疑问大致围绕"和谁比 / 怎么选 / 真能 sim-to-real 吗 / 怎么调 / 怎么扩展视觉",把这 8 个回答好,对论文就基本能复述。


延伸阅读

  • Liang et al. 2018, "GPU-Accelerated Robotic Simulation for Distributed RL" — 同一批作者的"前作",理解 Isaac Gym 之前 GPU 物理为什么不够好
  • Macklin et al. 2019, "Small Steps in Physics Simulation" — TGS solver 原始论文,搞懂为什么"小步快跑"等价于"大步多迭代"
  • Rudin et al. 2021, "Learning to Walk in Minutes Using Massively Parallel Deep RL" — 用 Isaac Gym 训 ANYmal 的破圈作,理解大规模并行 RL 在真机上的最强战例
  • Peng et al. 2021, "AMP: Adversarial Motion Priors" — 在 Isaac Gym 上 6 分钟训出 spin-kick 的角色动画论文
  • Allshire et al. 2021, "Transferring Dexterous Manipulation from GPU Sim to Remote Real-World TriFinger" — Isaac Gym sim-to-real 的最完整范例
  • Freeman et al. 2021, "Brax" — Google 的对照组,可微物理 + JAX,理解技术路线分叉
  • NVIDIA Isaac Lab 文档(developer.nvidia.com/isaac-lab)— Isaac Gym 的现代继任者,新项目直接看这个
  • Schulman et al. 2017, "Proximal Policy Optimization Algorithms" — PPO 原论文,论文用的 RL 算法基础
  • OpenAI et al. 2018, "Learning Dexterous In-Hand Manipulation" — Shadow Hand 集群训练的对照组论文,看了才知道 Isaac Gym 加速 30× 是多大的事
  • Tobin et al. 2017, "Domain Randomization for Transferring DNNs from Simulation to the Real World" — DR 的奠基论文,Isaac Gym 的 DR API 就是这套思想的实现

所以这一节是想说:Isaac Gym 这条线最值得继续追的是 Legged Gym(应用爆款)、AMP(动画方向)、Brax(可微对照)和 Isaac Lab(现代版),把这四个看完就摸清整片地形了。

引用本笔记 / Cite this note
BibTeX
@online{eai_isaac_gym_2026,
  title       = {(readable note) Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2021 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/isaac-gym/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim