回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Datasets & Benchmarks · Plate Nº 28

robosuite: A Modular Simulation Framework and Benchmark for Robot Learning

21 min read · 7448 字 · ⭐⭐ · auto 摘要

这是一份给"完全没接触过机器人/AI"的读者看的精读笔记。语言尽量像聊天,遇到术语都展开讲。

一句话讲什么(TL;DR)

robosuite 是机器人 AI 的"标准考场"——同一台仿真机械臂、同一组题目,让全球研究者公平地比谁的算法更聪明。

所以这一节是想说:robosuite 是机器人学习领域的"标准考试卷"。


这是个什么场景

想象你在抖音刷到 10 个"全国厨艺大赛冠军",每个人都端着自己拿手的菜说自己最强。

可问题是:A 用的是自家厨房的德国蒸烤箱,B 用的是夜市路边摊小煤气灶,C 干脆只做了道凉拌黄瓜——你怎么知道谁真的厨艺更好?菜不同、灶不同、评分老师也不同,这"冠军"含金量就成了玄学。

机器人学习(让机器人通过反复试错或模仿人类来学会拧瓶盖、叠衣服这种活)长期就是这种"全是冠军、谁也不服谁"的状态:

  • 每篇论文都用自己写的仿真环境(虚拟的练习场);
  • 每个实验室买不同牌子的机械臂硬件;
  • 同一个算法换个环境跑分能差好几倍。

大家急需一个"中央厨房"——同样的灶、同样的食材、同样的评委。

robosuite 就是来搭这个中央厨房的:给机器人学习提供统一的考场——一台共享的物理引擎、一组固定的题目、一排现成的机械臂、一套统一的"操控方向盘"。这样大家比拼的就是脑子(算法),不是装备。

所以这一节是想说:robosuite 是为了让机器人算法可以"公平比武"而造的标准化场地。


robosuite — 场景示意:这论文要解决的现实问题
Plate Nº Irobosuite — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

  • 每家自己写仿真:清华一套,斯坦福一套,每篇论文跑出的"成功率 92%"根本不能横向比较。就像每家公司自己出考题,自己阅卷——你说你学生考了 95 分,可你的题是不是比别人简单一倍?没人知道。
  • OpenAI Gym 偏游戏:早期通用平台 Gym 主要是 Atari 小游戏和经典控制题(倒立摆等),机器人方面的内容太薄,缺真实机械臂模型。Gym 的几个 mujoco 环境(Reacher、Pusher)也都是小玩具,离真实操作差距大。
  • 真机太贵且难复现:买一台 Franka Panda 机械臂要几十万人民币,故障一停一周;不同实验室的机器还有微小差异(标定误差、磨损),论文里的实验你根本搬不过来跑。Henderson 等人 2018 年专门写了篇 AAAI 论文 ("Deep RL that matters") 痛陈这个问题。
  • 控制器实现五花八门:同样叫"末端位置控制",不同代码库写法不同,对算法学习速度影响巨大。一个人用变阻抗 OSC、另一个人用 PD 控制器,跑同样的算法可能差一个数量级。
  • 没有标配任务套:不存在像图像识别里 ImageNet 那种"用了它大家都能比"的机器人任务集合。每篇论文都"我们自己定义了一个 X 任务"——读者根本不知道难度怎么样。

所以这一节是想说:之前的机器人研究像没有奥运标准的运动会——成绩没法横向比较,复现别人结果也极难。


这篇论文的新想法

把机器人仿真拆成乐高积木——机器人本体、夹爪、底座、控制器、任务、物体、传感器各自独立、可任意拼接,再配套提供 9 个标准任务和现成的强化学习基线。

这样研究者既可以直接套标准任务发论文,也可以快速拼装新场景做研究。

所以这一节是想说:核心创新是"模块化 + 标准化"——既可拼可改,又有公认的考试题。


它分几步做的(方法)

把 robosuite 想成一家"机器人共享厨房",老板帮你备齐了 6 样东西:可拼接的桌台(模块化架构)、一排现成的厨师(10 款机械臂)、统一的方向盘(6 种控制器)、各种监控摄像头(传感器+示教接口)、9 道指定菜(标准任务)、还有自动出题机(程序化生成)。下面一项一项讲。

1. 把机器人仿真拆成模块(Modular APIs)

类比:搭乐高。底盘是一块积木、机械臂是一块、夹爪是一块、桌子是一块、桌上的可乐罐是一块——你想换 Franka 改成 KUKA,只用换一块积木,剩下都不动。

它在干什么:robosuite 提供两套 API——Modeling API 描述场景(哪个机器人 + 哪个夹爪 + 哪个桌面 + 哪些物体),Simulation API 在跑起来之后让外部代码(一个神经网络策略,或者一个戴着 3D 鼠标的人类)发动作、收观测、收奖励。

MuJoCo:一个开源的物理引擎,专门擅长模拟刚体接触动力学(碰撞、摩擦、抓握)。robosuite 是它上层的"机器人专用封装"。

MJCF:MuJoCo 自己的 XML 格式,用来描述场景里有什么物体、它们的形状质量摩擦系数。robosuite 把多个 MJCF 片段(机器人 + 桌子 + 物体)拼成一个完整的仿真世界。

Task / Arena / RobotModel / MujocoObject:分别是"整个场景"、"工作环境(桌、垃圾桶等)"、"机器人本体"、"被操作物体"。组装它们就生成一个完整 Environment。

为什么这步有用:研究者想换实验设置时,原来要改几百行 XML,现在改几行 Python 就行。这把"做实验"的门槛从一周缩到一小时。

所以这一节是想说:robosuite 的乐高式架构让"换机器人 / 换任务 / 换控制器"变成几行代码的事。


2. 配套 10 种真机模型 + 9 种夹爪 + 4 种底座

类比:4S 店的展厅——丰田、宝马、奔驰、特斯拉应有尽有,每辆车的引擎参数都按厂家说明书还原。你试驾哪台都行,参数和真车一致。

它在干什么:robosuite 把市面上常见的商用机器人都做了准确建模,参数(关节扭矩上限、自由度数、连杆长度)直接来自厂家手册。

包括:

  • Panda(Franka Emika,7 自由度),学术界最常用;
  • Sawyer(Rethink Robotics,7 自由度);
  • IIWA(KUKA,工业级,扭矩比别人都大一倍);
  • Jaco / Kinova3(Kinova,三指爪);
  • UR5e(Universal Robots,6 自由度协作机器人);
  • Baxter(双臂机器人);
  • GR1(Fourier Intelligence 的 44 自由度人形机器人);
  • Spot(波士顿动力四足,带 6 自由度机械臂);
  • TIAGo(PAL Robotics 的双臂移动机器人)。

DoF(Degrees of Freedom,自由度):机器人能独立运动的关节数。7 自由度机械臂可以做到"姿态固定也能挪位置",6 自由度则做不到。 dexterous hand(灵巧手):模仿人手五指的多关节夹爪,比简单两指爪能抓更多形状。 bimanual(双臂):两条机械臂共享一个躯干,能做交接、协同抬重物。

为什么这步有用:你不再需要自己花几周建模——开箱就有"和真机对得上"的 10 款机器人随你挑。还能"今天用 Panda 训练,明天换 Sawyer 跑同样代码",验证算法在不同硬件上是否泛化。

所以这一节是想说:robosuite 替你建好了"机器人 4S 店",不必再为找模型烦恼。


3. 把控制器统一成 6 种标配模式

类比:开车时的"驾驶模式"——舒适、运动、雪地、越野。你只用按一下方向盘上的按键,底层油门刹车 ECU 自动配合。机器人控制器干的是同一件事:把"高层意图"翻译成"每个关节多大扭矩"。

它在干什么:robosuite 提供 6 种 body-part 控制器(详见原文 Table 1):

  • OSC_POSE:操作空间控制(含位置 + 姿态),动作维度 6——你说"末端到 (x,y,z) 朝向 (rx,ry,rz)",它算每个关节扭矩;
  • OSC_POSITION:只控位置,动作维度 3;
  • IK_POSE:用逆运动学求解,动作维度 7(位置 + 四元数);
  • JOINT_POSITION:直接给每个关节一个目标角度,动作维度 = 关节数 n;
  • JOINT_VELOCITY:每个关节的目标转速;
  • JOINT_TORQUE:直接给每个关节扭矩值(最底层)。

每种模式下还有 3 个变体(fixed / variable_kp / variable)让你能控制阻抗——也就是机器人遇到障碍时是"硬碰硬"还是"软回弹"。

Operational Space Control(OSC,操作空间控制):你不用关心 7 个关节怎么转,直接告诉机器人"末端要去哪"——控制器自己解出关节扭矩。它和 Khatib 1995 的经典工作一脉相承。 Inverse Kinematics(IK,逆运动学):已知"末端要到哪",反推"每个关节要转到几度"的数学题。 Impedance(阻抗):机器人对外力的反应硬度。变阻抗就是让 RL 算法自己学习"什么时候该硬什么时候该软",这对装配、抹布等接触丰富的任务很重要。 composite controller(组合控制器):v1.5 的新设计——身体不同部位(手臂、底座、头部、躯干)可以各用一种控制模式。比如手臂用 OSC_POSE 精控,底座用 JOINT_VELOCITY 滑行。

为什么这步有用:算法研究者不用自己写控制器(那是一门独立的学科),直接挑一个调用就行。而控制器选得好不好对学习效率影响巨大——论文实验显示 OSC_POSE 比 JOINT_VELOCITY 在多数任务上学得更快。

所以这一节是想说:robosuite 把"怎么动"标准化了——研究者只用关心"做什么"。


4. 多模态传感器 + 人类示教接口

类比:考场不光给你考卷,还配了眼镜、笔、老师录音、监控摄像头——你想用哪种信息答题都行。

它在干什么:robosuite 提供 4 类感知通道:

  • 低维物理状态:物体位置、速度、关节角度(适合做强化学习入门实验);
  • RGB-D 相机:彩色图 + 深度图,可以挂在机器人手腕、桌面斜上方等任意位置;
  • 力/力矩传感器:每个夹爪手腕都有,告诉你"这一抓用了多大力";
  • 本体感知(proprioception):机器人知道自己每个关节角度和角速度——人类闭着眼也知道手在哪是同样的概念。

此外还提供 I/O 设备接口让人类亲自操作机器人收集示教数据:

teleoperation(遥操作):人在屏幕前用键盘 / 3D 鼠标 / GUI 拖拽末端,远程操控机器人完成任务。每收一条数据就是一份"专家演示"。 SpaceMouse:3Dconnexion 的 6 自由度小鼠标,能同时控制 xyz 三个平移和 xyz 三个旋转,是机器人示教的常用工具。 demonstration(示教):模仿学习里的训练数据。比如 RoboMimic、Diffusion Policy 用的就是用 SpaceMouse 录的几百条专家演示。

为什么这步有用:模仿学习(让机器人看人怎么做就跟着学)依赖示教数据。robosuite 顺手把"录数据"的工具也做好了,让模仿学习研究者可以一站式工作——不用自己折腾键盘映射。

所以这一节是想说:传感器和示教接口让 robosuite 既能跑 RL 也能跑模仿学习,覆盖两条主流学习范式。


5. 9 个标准任务 + SAC 基线

类比:高考有 9 道大题,所有考生都做同样的题,结果可比。robosuite 设了 9 个标准任务,覆盖从简单到困难的层次:

单臂任务

  • Block Lifting(举方块)——桌上放一个方块,举到一定高度;
  • Block Stacking(叠方块)——把一个方块叠到另一个上面;
  • Pick-and-Place(分拣)——4 个物体分别放到 4 个对应容器里;
  • Nut Assembly(套螺母)——方螺母套到方螺栓、圆螺母套到圆螺栓;
  • Door Opening(开门)——转把手开门;
  • Table Wiping(擦桌子)——拿橡皮擦把白板上的痕迹全擦干净。

双臂任务

  • Two Arm Lifting(双臂抬锅)——两条机械臂各抓一个把手,把锅抬起且保持水平;
  • Two Arm Peg-in-Hole(插销)——一臂拿带孔板,一臂拿销,插进去;
  • Two Arm Handover(交接锤子)——离锤子近的那条手臂拿起后递给另一条。

每个任务每次开局都会随机化物体初始位置,避免算法死记硬背"放在哪儿"。

它们还配套跑了 SAC(Soft Actor-Critic)这个 SOTA 强化学习算法作为基线:每个 agent 训 500 epoch,每 epoch 500 步,2 CPU + 12G VRAM、约 2 天跑完。结果是:SAC 在 9 个任务里只解决了 3 个(Block Lifting、Door Opening、Two Arm Peg-in-Hole),其余进展缓慢。

SAC(Soft Actor-Critic):2018 年的强化学习算法,能在连续动作空间里学得稳又快。robosuite 选它做基线是因为它当时是 model-free RL 的标杆。

为什么这步有用:基线告诉你 "纯 RL + 状态输入就能拿到这个分"——后来的论文(如 RoboMimic、Diffusion Policy)就在 robosuite 上证明"加上模仿学习能比 SAC 强很多",整个领域因此进步可衡量。每个任务都跑了 5 个随机种子并报告均值±标准差——这种"统计严谨性"也成了后续机器人 benchmark 的标配习惯。

所以这一节是想说:9 个标准任务 + SAC 基线,让 robosuite 成为机器人学习社区的"通用考卷"。


6. 程序化生成 + 自定义物体(Procedural Generation)

类比:考场出题不能永远是同一道——不然学生死记硬背就行。robosuite 让你能"用代码批量生产略有差异的题"。

它在干什么:robosuite 把"物体"分两种来源:

  • MujocoXMLObject:你写一个 MJCF XML 文件描述形状、质量、摩擦,robosuite 直接加载——适合从 ShapeNet、YCB 等 3D 物体数据集导入。
  • MujocoGeneratedObject:用 Python 代码动态拼接基本几何体(box、cylinder、sphere)和它们的相对位姿,跑时再生成——参考 HammerObject 类(一个由头 + 杆组合而成的锤子)。

每次 env.reset() 时,placement_initializer 会在桌面合法范围内随机不碰撞地摆放所有物体——既保证多样性,又避免初始就穿模。

placement_initializer:robosuite 里负责"开局把物体放哪"的对象。它会反复采样直到所有物体都满足"不重叠、在桌面上、姿态稳定"。 domain randomization(域随机化):训练时随机化物体颜色、尺寸、摩擦——让策略不依赖特定外观,提升 sim-to-real 的迁移概率。robosuite 通过程序化生成天然支持这一点。

为什么这步有用:模仿学习需要海量 + 多样化数据。程序化生成让你"一晚上自动生成 10000 个略有差异的任务实例",这是后来 MimicGen(同团队 2023 年的工作,自动扩增示教数据)的基础。

所以这一节是想说:程序化生成把"任务多样性"也做成模块化能力,是大规模数据训练的前提。


robosuite — 方法示意:核心 pipeline
Plate Nº IIrobosuite — 方法示意:核心 pipeline

关键数字(What works)

注意:robosuite 不是"算法论文",它的"关键数字"主要是"工具规模"和"基线表现",而不是"提升了 X 个百分点"。读这节时把它想成"软件 spec sheet"。

  • 10 种机器人模型:从 6 自由度的 UR5e 到 44 自由度的 GR1 人形机器人。对比:早期 OpenAI Gym 几乎不带商用机器人模型。意味着:开箱即用一个"机器人动物园"。
  • 6 种身体部位控制器 + 3 种阻抗变体:OSC_POSE / OSC_POSITION / IK_POSE / JOINT_POSITION / JOINT_VELOCITY / JOINT_TORQUE。对比:很多自家仿真只支持 1-2 种。意味着:研究者可在同一仓库内做"控制器对学习效率影响"的对照实验。
  • 9 个标准任务:6 个单臂 + 3 个双臂。对比:同期 dm_control 偏向 locomotion,缺少操作类。意味着:操作研究有了固定靶子。
  • SAC 在 9 任务里只解决 3 个:Block Lifting / Door Opening / Two Arm Peg-in-Hole 完成;其他 6 个进展缓慢。对比:SAC 在 MuJoCo locomotion 任务上几乎全胜。意味着:操作类任务比走路难得多——这正是后续模仿学习/扩散策略发力的空间。
  • 2 天 / 实验,2 CPU、无 GPU:作者标定的硬件门槛。对比:当时大模型训练动辄 8 卡 A100。意味着:robosuite 把入场券压到一台普通工作站,研究生人手一份。
  • OSC_POSE > JOINT_VELOCITY:在 Block Lifting 和 Door Opening 上消融实验显示 OSC_POSE 学得明显更快。对比:很多人默认 JOINT_VELOCITY 是简单基线。意味着:对一个 RL 算法来说,"动作空间设计"和"算法本身"一样重要。

所以这一节是想说:robosuite 以低硬件门槛把"机器人学习"做成可复现可比较的科学实验。


你应该懂的几个新词

  • MuJoCo(Multi-Joint dynamics with Contact):物理引擎名,2012 年由 Todorov 等人发布,2021 年 DeepMind 收购后开源。专长是接触动力学(碰撞、摩擦),是机器人仿真的事实标准。类比:游戏引擎里的 Unity,但专门为机器人优化。

  • MJCF(MuJoCo XML Format):MuJoCo 用来描述场景的配置文件格式。类比:HTML 描述网页,MJCF 描述虚拟世界。

  • DoF(Degrees of Freedom,自由度):机器人能独立运动的关节数量。类比:人类手臂从肩到指尖大约 27 自由度。

  • End-effector(末端执行器):机械臂最末端的工具,通常是夹爪。类比:你拿筷子时筷子尖就是你的末端执行器。

  • Operational Space Control(OSC,操作空间控制):用末端在三维空间里的位置/姿态作为控制量,让控制器自动解出关节扭矩。类比:开车时你想"靠边停",方向盘和油门怎么打不用你算——OSC 就是机器人的"高级辅助驾驶"。

  • Impedance(阻抗):机器人对外力的"软硬"反应。类比:拍球时球反弹的劲,和球本身的硬度有关。

  • Soft Actor-Critic(SAC):连续动作空间的 model-free RL 算法。类比:教练让你试 1000 次扣篮,每次给个反馈,慢慢调整你的发力姿势。

  • Imitation Learning(模仿学习):让 AI 看专家演示再学着做。类比:学厨先看师傅做 100 遍,再自己上手。robosuite 提供了示教数据采集工具,是后续 RoboMimic / Diffusion Policy 的训练场。

  • Procedural Generation(程序化生成):用代码而不是手画来生成场景/物体。类比:Minecraft 的世界不是预设的,是用代码动态长出来的。

  • Sim-to-Real Transfer(仿真到真实迁移):把仿真里训出的策略部署到真机上。类比:在驾校模拟舱里学会开车后第一次上路——能不能直接开走是个学问。robosuite 的 torque 控制器就是为了这个目标做的——torque 接口在真机上几乎所有主流机械臂都通用。

  • Reward Shaping(奖励塑形):把"任务完成才给 1,否则给 0"这种稀疏奖励改造成"距离目标越近奖励越高"这种密集奖励,加速 RL 学习。类比:教孩子骑车不是只在学会时表扬,而是"今天比昨天多骑两米也表扬"。robosuite 每个任务都给了 sparse / shaped 两套奖励切换。

  • Episode Horizon(回合长度):一次"考试"机器人能用的最大步数。robosuite 默认每回合 500 步——超过还没完成就算失败。类比:考试时间限制 90 分钟,到点就交卷。

所以这一节是想说:这十几个词是机器人学习论文的"基础词汇表"。


它有什么搞不定的

  • Sim-to-Real 鸿沟:再准的仿真也不等于真实世界——纸盒在 MuJoCo 里掉地不会变形,真实世界会。robosuite 不解决这个问题,只是提供尽量准的接触动力学。
  • 缺少柔性/形变物体支持有限:MuJoCo 主打刚体,对布料、绳索、流体等可变形物体的模拟相对薄弱。叠衣服、倒水这类任务做起来吃力(这也是 NVIDIA Isaac、SoftGym 等仿真器的发力点)。
  • 任务库还偏简单:9 个任务覆盖到双臂协同已经不错,但相比家庭/工厂里的"长 horizon、多步骤、跨房间"任务还是短小。后续社区扩展(如 LIBERO、MimicGen)才补上长程任务。
  • 没有原生语言指令支持:每个任务名是固定字符串,不像 BEHAVIOR 或 LIBERO 那样能用自然语言指令驱动 ("把红色方块放进绿色盒子")。VLA 时代的工作如果要用 robosuite 通常要自己加一层语言包装。
  • 渲染质量一般:MuJoCo 的渲染是基于 OpenGL 的简单光照,比起 Unreal/Unity 出来的画面差一截——这意味着如果你想训"从 RGB 图像直接到动作"的策略并部署到真实世界,sim-to-real 的视觉鸿沟会比较明显。NVIDIA Isaac Sim、Habitat 这种基于游戏引擎的仿真器在视觉真实感上更强。

所以这一节是想说:robosuite 解决了"标准化",但"真实化"、"复杂化"、"语言化"都留给后人。


它和别的论文是什么关系

  • vs habitat(Habitat 2.0):Habitat 主打导航类任务(在屋子里走),它的强项是渲染速度(每秒上万帧)和大规模房屋数据。robosuite 主打操作类任务(拧、抓、放),强项是接触动力学。两者其实是互补的——一个解决"机器人去哪",一个解决"机器人到了之后干什么"。

  • vs diffusion-policy:Diffusion Policy 这篇 2023 年的工作把"扩散模型"用作机器人策略生成器,它的实验大量跑在 robosuite 的 Square、Lift、Can 等任务上。所以 robosuite 是 Diffusion Policy 的考场——没有 robosuite 提供统一任务,Diffusion Policy 没法和别的算法横向比。

  • vs ibc / gail:IBC(隐式行为克隆)和 GAIL(生成对抗模仿学习)这类模仿学习算法都需要"专家演示"作为训练数据。robosuite 内置的 SpaceMouse / 键盘示教工具就是为它们准备的弹药库。

  • vs cosmos-policy:Cosmos 是 NVIDIA 2025 年的世界模型 + 策略框架,比 robosuite 上一个层级——它要预测视频未来帧、再生成动作。robosuite 是它常用的下游验证场。可以说 robosuite 是基础设施,diffusion-policy / cosmos-policy / openvla 都跑在上面。

  • vs openvla:OpenVLA 是 2024 年的视觉-语言-动作大模型,训练数据来自真机数据集 Open X-Embodiment(百万级真机轨迹)。它可以在 robosuite 上做仿真验证,但本质上 OpenVLA 是"真机时代"的产物,而 robosuite 是"仿真为主"时代的代表。两者一起读你能感受到机器人学习从"小数据 + 仿真"向"大数据 + 真机"的范式迁移。

  • vs gail / ibc:GAIL 用对抗训练(生成器 vs 判别器)让策略模仿专家,IBC 用能量模型隐式表达策略。它们在 robosuite 任务上的表现是"模仿学习成熟度"的标尺——RoboMimic 论文做了大量这类对比实验。读这两篇前,先理解 robosuite 提供了什么样的"考场",会事半功倍。

所以这一节是想说:robosuite 是机器人学习社区的"地基"——后来很多明星算法都把它当跑分平台。


我建议这样读这篇

  1. 先看 Figure 2 的系统图(论文里 Section 2 开头):理清 Environment / Task / Robot / Controller / Sensor / Device 这 6 个概念怎么串起来。这张图本身就是 robosuite 的"灵魂图",值得花 10 分钟弄清楚每条箭头。
  2. 跳到 Section 3.1 看 9 个任务:每个任务配一句描述,看图理解机器人要做什么——这一步建立"业务需求"直觉。脑子里要能想象出每个任务的视频片段。
  3. 回看 Section 2.3 控制器表(Table 1):把 OSC、IK、JOINT 三大类、6 种 + 阻抗变体的对应关系背一遍——这是后面读 RL/模仿学习论文时绕不过去的基础。重点理解动作维度(3、6、7、9、12、15、n、2n、3n)分别对应什么控制语义。
  4. 跑一遍 GitHub README 的 Quick Start:装好 robosuite 后用 4 行代码 reset 环境 + step 一次 + render——比读论文多 100 倍直觉。第一次看到机械臂在你电脑上动起来时,前面 19 页论文全部"豁然开朗"。
  5. 挑一篇用 robosuite 的下游论文(比如 Diffusion Policy 或 RoboMimic):看它怎么调用 robosuite、用了哪些任务、复现它的图——这一步把 robosuite 从"概念"变成"工具"。
  6. 如果对控制器细节感兴趣:精读 Khatib 1995(OSC 经典论文)和 Mart´ın-Mart´ın 2019(变阻抗 RL 论文,IROS)。这两篇会告诉你"为什么 OSC 在仿真里就是比 JOINT_VELOCITY 学得快"的物理学道理。

所以这一节是想说:先看图建直觉,再动手跑代码,最后读下游论文反推 robosuite 的设计取舍。


一些好奇心问答

Q1:为什么不用 Unity 或 Unreal 做机器人仿真? A:游戏引擎的物理求解器对接触动力学不够准确——夹爪抓物体时容易"穿模"或"打滑"。MuJoCo 用了一种更适合接触求解的算法(凸优化形式的接触求解器),代价是渲染没游戏引擎漂亮。所以"研究用 MuJoCo,演示视频用 Unreal"是常见组合。

Q2:robosuite 和 Gym、dm_control 啥区别? A:Gym 是接口标准(reset / step / render 那一套),任务以 Atari 和经典控制为主;dm_control 是 DeepMind 出的 MuJoCo 任务集,偏向 locomotion(如 cheetah 跑步);robosuite 是机械臂操作专用,三者算"上下游"——robosuite 沿用 Gym 的 API 风格,调底层 MuJoCo(dm_control 调的也是同一个)。

Q3:v1.5 比 v1.0 多了啥? A:最大的两个升级是:(1) 加了人形和移动机器人(GR1、Spot、TIAGo),把 robosuite 从"纯桌面机械臂"扩展到"全身机器人";(2) composite controller——身体不同部位可以挂不同控制器(手臂用 OSC、底座用 JOINT_VELOCITY),符合移动操作的需要。

Q4:为啥 SAC 在 9 个任务里只解决 3 个?是 SAC 不行吗? A:不是 SAC 不行,是操作类任务从纯奖励信号学起来太难。Pick-and-Place 要先抓对、再走对路线、再放进对的容器,奖励信号稀疏(成功才给奖励)。这种长时序、稀疏奖励、精细接触的任务需要更多机制——比如人类演示(imitation)、密集奖励设计(reward shaping)、分层 RL。这正是后来研究的方向。

Q5:为什么 OSC 比 JOINT_VELOCITY 学得快? A:直觉解释——RL 算法的"探索"在动作空间里随机抖。在 OSC 空间里抖一下,末端在桌面上移动 1cm;在 JOINT_VELOCITY 空间里抖一下,7 个关节角速度同时变,末端可能跳到一米外。OSC 的探索"和任务结构对齐",所以学得快。这也是 Mart´ın-Mart´ın 2019 那篇变阻抗论文的核心论点。

Q6:能在 robosuite 上跑 VLA(视觉-语言-动作)模型吗? A:可以,但 robosuite 自身不带语言指令——任务名是固定的(Block Lifting 不会随机变成"擦桌子")。OpenVLA、Octo 等 VLA 工作通常会在 robosuite 上加一层任务描述包装层,或转用 LIBERO(基于 robosuite 扩展的语言条件任务集)。

Q7:为啥论文这么短(19 页 + 大量图表)? A:robosuite 不是"算法论文",是软件论文。它的价值不在于一个新数学公式,而在于"我做了一个工具、你拿去用"。这类论文的标准写法就是讲架构、列功能、给基线,类似软件工程文档。

Q8:我学完 robosuite 之后下一步推荐学啥? A:建议沿这条线走:(1) 先在 robosuite 跑通官方 Quick Start;(2) 看 RoboMimic(同团队的模仿学习数据集);(3) 看 Diffusion Policy(用扩散模型做策略);(4) 看 LIBERO(语言条件任务);(5) 最后看 OpenVLA 这种集大成的 VLA 模型——你会发现 robosuite 像个底层基础设施,越往后越隐形。

Q9:robosuite 的"composite controller"和真实机器人有什么对应? A:真实人形机器人(如波士顿动力 Atlas、特斯拉 Optimus)的工程实现也是分体控制——头部、躯干、上肢、腿部各自有自己的控制循环(频率不同、控制律不同)。robosuite v1.5 的 composite controller 设计就在向这个方向靠拢,让仿真里的控制结构更接近真机部署。

Q10:我自己装 robosuite 大概需要啥配置? A:CPU 单机就能跑(论文里 SAC 实验是 2 CPU + 12G VRAM、无 GPU)。如果用 RGB 渲染做视觉策略学习,加一块 RTX 3060 级别 GPU 就够。装的时候装 mujoco-py 或新版 mujoco(DeepMind 收购后的 Python binding)即可,不再需要旧版的 license 文件——MuJoCo 2021 后开源。

所以这一节是想说:robosuite 自己很简单,但它带出来的整个机器人学习生态值得你顺藤摸瓜。


如果你想再深入

  • Khatib 1995, "Inertial properties in robotic manipulation: An object-level framework"——OSC(操作空间控制)的理论原典。读完才能真正理解 robosuite 控制器章节。
  • Todorov, Erez, Tassa 2012, "MuJoCo: A physics engine for model-based control"(IROS)——MuJoCo 引擎设计论文。理解仿真器底层求解。
  • Fan, Zhu et al. 2018, "SURREAL: Open-source reinforcement learning framework"(CoRL)——robosuite 的前身项目,分布式 RL 框架。
  • Mart´ın-Mart´ın et al. 2019, "Variable impedance control in end-effector space"(IROS)——变阻抗动作空间论文,解释 robosuite 阻抗模式的研究价值。
  • robosuite 官方文档与示例 robosuite.ai——比论文更新更快,含 v1.5 的 composite controller 教程。
  • Mandlekar et al. 2021, "What Matters in Learning from Offline Human Demonstrations for Robot Manipulation"(CoRL,即 RoboMimic 论文)——大量基于 robosuite 的模仿学习消融实验,是 robosuite 最重要的下游用户之一。

所以这一节是想说:把 robosuite 当一个生态入口——往上读控制器理论,往下看模仿学习实证,整套链条会越来越清晰。

引用本笔记 / Cite this note
BibTeX
@online{eai_robosuite_2026,
  title       = {(readable note) robosuite: A Modular Simulation Framework and Benchmark for Robot Learning},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2020 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/robosuite/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim