robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
这是一份给"完全没接触过机器人/AI"的读者看的精读笔记。语言尽量像聊天,遇到术语都展开讲。
一句话讲什么(TL;DR)
robosuite 是机器人 AI 的"标准考场"——同一台仿真机械臂、同一组题目,让全球研究者公平地比谁的算法更聪明。
所以这一节是想说:robosuite 是机器人学习领域的"标准考试卷"。
这是个什么场景
想象你在抖音刷到 10 个"全国厨艺大赛冠军",每个人都端着自己拿手的菜说自己最强。
可问题是:A 用的是自家厨房的德国蒸烤箱,B 用的是夜市路边摊小煤气灶,C 干脆只做了道凉拌黄瓜——你怎么知道谁真的厨艺更好?菜不同、灶不同、评分老师也不同,这"冠军"含金量就成了玄学。
机器人学习(让机器人通过反复试错或模仿人类来学会拧瓶盖、叠衣服这种活)长期就是这种"全是冠军、谁也不服谁"的状态:
- 每篇论文都用自己写的仿真环境(虚拟的练习场);
- 每个实验室买不同牌子的机械臂硬件;
- 同一个算法换个环境跑分能差好几倍。
大家急需一个"中央厨房"——同样的灶、同样的食材、同样的评委。
robosuite 就是来搭这个中央厨房的:给机器人学习提供统一的考场——一台共享的物理引擎、一组固定的题目、一排现成的机械臂、一套统一的"操控方向盘"。这样大家比拼的就是脑子(算法),不是装备。
所以这一节是想说:robosuite 是为了让机器人算法可以"公平比武"而造的标准化场地。

之前的人怎么做的,为什么不够好
- 每家自己写仿真:清华一套,斯坦福一套,每篇论文跑出的"成功率 92%"根本不能横向比较。就像每家公司自己出考题,自己阅卷——你说你学生考了 95 分,可你的题是不是比别人简单一倍?没人知道。
- OpenAI Gym 偏游戏:早期通用平台 Gym 主要是 Atari 小游戏和经典控制题(倒立摆等),机器人方面的内容太薄,缺真实机械臂模型。Gym 的几个 mujoco 环境(Reacher、Pusher)也都是小玩具,离真实操作差距大。
- 真机太贵且难复现:买一台 Franka Panda 机械臂要几十万人民币,故障一停一周;不同实验室的机器还有微小差异(标定误差、磨损),论文里的实验你根本搬不过来跑。Henderson 等人 2018 年专门写了篇 AAAI 论文 ("Deep RL that matters") 痛陈这个问题。
- 控制器实现五花八门:同样叫"末端位置控制",不同代码库写法不同,对算法学习速度影响巨大。一个人用变阻抗 OSC、另一个人用 PD 控制器,跑同样的算法可能差一个数量级。
- 没有标配任务套:不存在像图像识别里 ImageNet 那种"用了它大家都能比"的机器人任务集合。每篇论文都"我们自己定义了一个 X 任务"——读者根本不知道难度怎么样。
所以这一节是想说:之前的机器人研究像没有奥运标准的运动会——成绩没法横向比较,复现别人结果也极难。
这篇论文的新想法
把机器人仿真拆成乐高积木——机器人本体、夹爪、底座、控制器、任务、物体、传感器各自独立、可任意拼接,再配套提供 9 个标准任务和现成的强化学习基线。
这样研究者既可以直接套标准任务发论文,也可以快速拼装新场景做研究。
所以这一节是想说:核心创新是"模块化 + 标准化"——既可拼可改,又有公认的考试题。
它分几步做的(方法)
把 robosuite 想成一家"机器人共享厨房",老板帮你备齐了 6 样东西:可拼接的桌台(模块化架构)、一排现成的厨师(10 款机械臂)、统一的方向盘(6 种控制器)、各种监控摄像头(传感器+示教接口)、9 道指定菜(标准任务)、还有自动出题机(程序化生成)。下面一项一项讲。
1. 把机器人仿真拆成模块(Modular APIs)
类比:搭乐高。底盘是一块积木、机械臂是一块、夹爪是一块、桌子是一块、桌上的可乐罐是一块——你想换 Franka 改成 KUKA,只用换一块积木,剩下都不动。
它在干什么:robosuite 提供两套 API——Modeling API 描述场景(哪个机器人 + 哪个夹爪 + 哪个桌面 + 哪些物体),Simulation API 在跑起来之后让外部代码(一个神经网络策略,或者一个戴着 3D 鼠标的人类)发动作、收观测、收奖励。
MuJoCo:一个开源的物理引擎,专门擅长模拟刚体接触动力学(碰撞、摩擦、抓握)。robosuite 是它上层的"机器人专用封装"。
MJCF:MuJoCo 自己的 XML 格式,用来描述场景里有什么物体、它们的形状质量摩擦系数。robosuite 把多个 MJCF 片段(机器人 + 桌子 + 物体)拼成一个完整的仿真世界。
Task / Arena / RobotModel / MujocoObject:分别是"整个场景"、"工作环境(桌、垃圾桶等)"、"机器人本体"、"被操作物体"。组装它们就生成一个完整 Environment。
为什么这步有用:研究者想换实验设置时,原来要改几百行 XML,现在改几行 Python 就行。这把"做实验"的门槛从一周缩到一小时。
所以这一节是想说:robosuite 的乐高式架构让"换机器人 / 换任务 / 换控制器"变成几行代码的事。
2. 配套 10 种真机模型 + 9 种夹爪 + 4 种底座
类比:4S 店的展厅——丰田、宝马、奔驰、特斯拉应有尽有,每辆车的引擎参数都按厂家说明书还原。你试驾哪台都行,参数和真车一致。
它在干什么:robosuite 把市面上常见的商用机器人都做了准确建模,参数(关节扭矩上限、自由度数、连杆长度)直接来自厂家手册。
包括:
- Panda(Franka Emika,7 自由度),学术界最常用;
- Sawyer(Rethink Robotics,7 自由度);
- IIWA(KUKA,工业级,扭矩比别人都大一倍);
- Jaco / Kinova3(Kinova,三指爪);
- UR5e(Universal Robots,6 自由度协作机器人);
- Baxter(双臂机器人);
- GR1(Fourier Intelligence 的 44 自由度人形机器人);
- Spot(波士顿动力四足,带 6 自由度机械臂);
- TIAGo(PAL Robotics 的双臂移动机器人)。
DoF(Degrees of Freedom,自由度):机器人能独立运动的关节数。7 自由度机械臂可以做到"姿态固定也能挪位置",6 自由度则做不到。 dexterous hand(灵巧手):模仿人手五指的多关节夹爪,比简单两指爪能抓更多形状。 bimanual(双臂):两条机械臂共享一个躯干,能做交接、协同抬重物。
为什么这步有用:你不再需要自己花几周建模——开箱就有"和真机对得上"的 10 款机器人随你挑。还能"今天用 Panda 训练,明天换 Sawyer 跑同样代码",验证算法在不同硬件上是否泛化。
所以这一节是想说:robosuite 替你建好了"机器人 4S 店",不必再为找模型烦恼。
3. 把控制器统一成 6 种标配模式
类比:开车时的"驾驶模式"——舒适、运动、雪地、越野。你只用按一下方向盘上的按键,底层油门刹车 ECU 自动配合。机器人控制器干的是同一件事:把"高层意图"翻译成"每个关节多大扭矩"。
它在干什么:robosuite 提供 6 种 body-part 控制器(详见原文 Table 1):
OSC_POSE:操作空间控制(含位置 + 姿态),动作维度 6——你说"末端到 (x,y,z) 朝向 (rx,ry,rz)",它算每个关节扭矩;OSC_POSITION:只控位置,动作维度 3;IK_POSE:用逆运动学求解,动作维度 7(位置 + 四元数);JOINT_POSITION:直接给每个关节一个目标角度,动作维度 = 关节数 n;JOINT_VELOCITY:每个关节的目标转速;JOINT_TORQUE:直接给每个关节扭矩值(最底层)。
每种模式下还有 3 个变体(fixed / variable_kp / variable)让你能控制阻抗——也就是机器人遇到障碍时是"硬碰硬"还是"软回弹"。
Operational Space Control(OSC,操作空间控制):你不用关心 7 个关节怎么转,直接告诉机器人"末端要去哪"——控制器自己解出关节扭矩。它和 Khatib 1995 的经典工作一脉相承。 Inverse Kinematics(IK,逆运动学):已知"末端要到哪",反推"每个关节要转到几度"的数学题。 Impedance(阻抗):机器人对外力的反应硬度。变阻抗就是让 RL 算法自己学习"什么时候该硬什么时候该软",这对装配、抹布等接触丰富的任务很重要。 composite controller(组合控制器):v1.5 的新设计——身体不同部位(手臂、底座、头部、躯干)可以各用一种控制模式。比如手臂用 OSC_POSE 精控,底座用 JOINT_VELOCITY 滑行。
为什么这步有用:算法研究者不用自己写控制器(那是一门独立的学科),直接挑一个调用就行。而控制器选得好不好对学习效率影响巨大——论文实验显示 OSC_POSE 比 JOINT_VELOCITY 在多数任务上学得更快。
所以这一节是想说:robosuite 把"怎么动"标准化了——研究者只用关心"做什么"。
4. 多模态传感器 + 人类示教接口
类比:考场不光给你考卷,还配了眼镜、笔、老师录音、监控摄像头——你想用哪种信息答题都行。
它在干什么:robosuite 提供 4 类感知通道:
- 低维物理状态:物体位置、速度、关节角度(适合做强化学习入门实验);
- RGB-D 相机:彩色图 + 深度图,可以挂在机器人手腕、桌面斜上方等任意位置;
- 力/力矩传感器:每个夹爪手腕都有,告诉你"这一抓用了多大力";
- 本体感知(proprioception):机器人知道自己每个关节角度和角速度——人类闭着眼也知道手在哪是同样的概念。
此外还提供 I/O 设备接口让人类亲自操作机器人收集示教数据:
teleoperation(遥操作):人在屏幕前用键盘 / 3D 鼠标 / GUI 拖拽末端,远程操控机器人完成任务。每收一条数据就是一份"专家演示"。 SpaceMouse:3Dconnexion 的 6 自由度小鼠标,能同时控制 xyz 三个平移和 xyz 三个旋转,是机器人示教的常用工具。 demonstration(示教):模仿学习里的训练数据。比如 RoboMimic、Diffusion Policy 用的就是用 SpaceMouse 录的几百条专家演示。
为什么这步有用:模仿学习(让机器人看人怎么做就跟着学)依赖示教数据。robosuite 顺手把"录数据"的工具也做好了,让模仿学习研究者可以一站式工作——不用自己折腾键盘映射。
所以这一节是想说:传感器和示教接口让 robosuite 既能跑 RL 也能跑模仿学习,覆盖两条主流学习范式。
5. 9 个标准任务 + SAC 基线
类比:高考有 9 道大题,所有考生都做同样的题,结果可比。robosuite 设了 9 个标准任务,覆盖从简单到困难的层次:
单臂任务:
- Block Lifting(举方块)——桌上放一个方块,举到一定高度;
- Block Stacking(叠方块)——把一个方块叠到另一个上面;
- Pick-and-Place(分拣)——4 个物体分别放到 4 个对应容器里;
- Nut Assembly(套螺母)——方螺母套到方螺栓、圆螺母套到圆螺栓;
- Door Opening(开门)——转把手开门;
- Table Wiping(擦桌子)——拿橡皮擦把白板上的痕迹全擦干净。
双臂任务:
- Two Arm Lifting(双臂抬锅)——两条机械臂各抓一个把手,把锅抬起且保持水平;
- Two Arm Peg-in-Hole(插销)——一臂拿带孔板,一臂拿销,插进去;
- Two Arm Handover(交接锤子)——离锤子近的那条手臂拿起后递给另一条。
每个任务每次开局都会随机化物体初始位置,避免算法死记硬背"放在哪儿"。
它们还配套跑了 SAC(Soft Actor-Critic)这个 SOTA 强化学习算法作为基线:每个 agent 训 500 epoch,每 epoch 500 步,2 CPU + 12G VRAM、约 2 天跑完。结果是:SAC 在 9 个任务里只解决了 3 个(Block Lifting、Door Opening、Two Arm Peg-in-Hole),其余进展缓慢。
SAC(Soft Actor-Critic):2018 年的强化学习算法,能在连续动作空间里学得稳又快。robosuite 选它做基线是因为它当时是 model-free RL 的标杆。
为什么这步有用:基线告诉你 "纯 RL + 状态输入就能拿到这个分"——后来的论文(如 RoboMimic、Diffusion Policy)就在 robosuite 上证明"加上模仿学习能比 SAC 强很多",整个领域因此进步可衡量。每个任务都跑了 5 个随机种子并报告均值±标准差——这种"统计严谨性"也成了后续机器人 benchmark 的标配习惯。
所以这一节是想说:9 个标准任务 + SAC 基线,让 robosuite 成为机器人学习社区的"通用考卷"。
6. 程序化生成 + 自定义物体(Procedural Generation)
类比:考场出题不能永远是同一道——不然学生死记硬背就行。robosuite 让你能"用代码批量生产略有差异的题"。
它在干什么:robosuite 把"物体"分两种来源:
- MujocoXMLObject:你写一个 MJCF XML 文件描述形状、质量、摩擦,robosuite 直接加载——适合从 ShapeNet、YCB 等 3D 物体数据集导入。
- MujocoGeneratedObject:用 Python 代码动态拼接基本几何体(box、cylinder、sphere)和它们的相对位姿,跑时再生成——参考
HammerObject类(一个由头 + 杆组合而成的锤子)。
每次 env.reset() 时,placement_initializer 会在桌面合法范围内随机不碰撞地摆放所有物体——既保证多样性,又避免初始就穿模。
placement_initializer:robosuite 里负责"开局把物体放哪"的对象。它会反复采样直到所有物体都满足"不重叠、在桌面上、姿态稳定"。 domain randomization(域随机化):训练时随机化物体颜色、尺寸、摩擦——让策略不依赖特定外观,提升 sim-to-real 的迁移概率。robosuite 通过程序化生成天然支持这一点。
为什么这步有用:模仿学习需要海量 + 多样化数据。程序化生成让你"一晚上自动生成 10000 个略有差异的任务实例",这是后来 MimicGen(同团队 2023 年的工作,自动扩增示教数据)的基础。
所以这一节是想说:程序化生成把"任务多样性"也做成模块化能力,是大规模数据训练的前提。

关键数字(What works)
注意:robosuite 不是"算法论文",它的"关键数字"主要是"工具规模"和"基线表现",而不是"提升了 X 个百分点"。读这节时把它想成"软件 spec sheet"。
- 10 种机器人模型:从 6 自由度的 UR5e 到 44 自由度的 GR1 人形机器人。对比:早期 OpenAI Gym 几乎不带商用机器人模型。意味着:开箱即用一个"机器人动物园"。
- 6 种身体部位控制器 + 3 种阻抗变体:OSC_POSE / OSC_POSITION / IK_POSE / JOINT_POSITION / JOINT_VELOCITY / JOINT_TORQUE。对比:很多自家仿真只支持 1-2 种。意味着:研究者可在同一仓库内做"控制器对学习效率影响"的对照实验。
- 9 个标准任务:6 个单臂 + 3 个双臂。对比:同期 dm_control 偏向 locomotion,缺少操作类。意味着:操作研究有了固定靶子。
- SAC 在 9 任务里只解决 3 个:Block Lifting / Door Opening / Two Arm Peg-in-Hole 完成;其他 6 个进展缓慢。对比:SAC 在 MuJoCo locomotion 任务上几乎全胜。意味着:操作类任务比走路难得多——这正是后续模仿学习/扩散策略发力的空间。
- 2 天 / 实验,2 CPU、无 GPU:作者标定的硬件门槛。对比:当时大模型训练动辄 8 卡 A100。意味着:robosuite 把入场券压到一台普通工作站,研究生人手一份。
- OSC_POSE > JOINT_VELOCITY:在 Block Lifting 和 Door Opening 上消融实验显示 OSC_POSE 学得明显更快。对比:很多人默认 JOINT_VELOCITY 是简单基线。意味着:对一个 RL 算法来说,"动作空间设计"和"算法本身"一样重要。
所以这一节是想说:robosuite 以低硬件门槛把"机器人学习"做成可复现可比较的科学实验。
你应该懂的几个新词
MuJoCo(Multi-Joint dynamics with Contact):物理引擎名,2012 年由 Todorov 等人发布,2021 年 DeepMind 收购后开源。专长是接触动力学(碰撞、摩擦),是机器人仿真的事实标准。类比:游戏引擎里的 Unity,但专门为机器人优化。
MJCF(MuJoCo XML Format):MuJoCo 用来描述场景的配置文件格式。类比:HTML 描述网页,MJCF 描述虚拟世界。
DoF(Degrees of Freedom,自由度):机器人能独立运动的关节数量。类比:人类手臂从肩到指尖大约 27 自由度。
End-effector(末端执行器):机械臂最末端的工具,通常是夹爪。类比:你拿筷子时筷子尖就是你的末端执行器。
Operational Space Control(OSC,操作空间控制):用末端在三维空间里的位置/姿态作为控制量,让控制器自动解出关节扭矩。类比:开车时你想"靠边停",方向盘和油门怎么打不用你算——OSC 就是机器人的"高级辅助驾驶"。
Impedance(阻抗):机器人对外力的"软硬"反应。类比:拍球时球反弹的劲,和球本身的硬度有关。
Soft Actor-Critic(SAC):连续动作空间的 model-free RL 算法。类比:教练让你试 1000 次扣篮,每次给个反馈,慢慢调整你的发力姿势。
Imitation Learning(模仿学习):让 AI 看专家演示再学着做。类比:学厨先看师傅做 100 遍,再自己上手。robosuite 提供了示教数据采集工具,是后续 RoboMimic / Diffusion Policy 的训练场。
Procedural Generation(程序化生成):用代码而不是手画来生成场景/物体。类比:Minecraft 的世界不是预设的,是用代码动态长出来的。
Sim-to-Real Transfer(仿真到真实迁移):把仿真里训出的策略部署到真机上。类比:在驾校模拟舱里学会开车后第一次上路——能不能直接开走是个学问。robosuite 的 torque 控制器就是为了这个目标做的——torque 接口在真机上几乎所有主流机械臂都通用。
Reward Shaping(奖励塑形):把"任务完成才给 1,否则给 0"这种稀疏奖励改造成"距离目标越近奖励越高"这种密集奖励,加速 RL 学习。类比:教孩子骑车不是只在学会时表扬,而是"今天比昨天多骑两米也表扬"。robosuite 每个任务都给了 sparse / shaped 两套奖励切换。
Episode Horizon(回合长度):一次"考试"机器人能用的最大步数。robosuite 默认每回合 500 步——超过还没完成就算失败。类比:考试时间限制 90 分钟,到点就交卷。
所以这一节是想说:这十几个词是机器人学习论文的"基础词汇表"。
它有什么搞不定的
- Sim-to-Real 鸿沟:再准的仿真也不等于真实世界——纸盒在 MuJoCo 里掉地不会变形,真实世界会。robosuite 不解决这个问题,只是提供尽量准的接触动力学。
- 缺少柔性/形变物体支持有限:MuJoCo 主打刚体,对布料、绳索、流体等可变形物体的模拟相对薄弱。叠衣服、倒水这类任务做起来吃力(这也是 NVIDIA Isaac、SoftGym 等仿真器的发力点)。
- 任务库还偏简单:9 个任务覆盖到双臂协同已经不错,但相比家庭/工厂里的"长 horizon、多步骤、跨房间"任务还是短小。后续社区扩展(如 LIBERO、MimicGen)才补上长程任务。
- 没有原生语言指令支持:每个任务名是固定字符串,不像 BEHAVIOR 或 LIBERO 那样能用自然语言指令驱动 ("把红色方块放进绿色盒子")。VLA 时代的工作如果要用 robosuite 通常要自己加一层语言包装。
- 渲染质量一般:MuJoCo 的渲染是基于 OpenGL 的简单光照,比起 Unreal/Unity 出来的画面差一截——这意味着如果你想训"从 RGB 图像直接到动作"的策略并部署到真实世界,sim-to-real 的视觉鸿沟会比较明显。NVIDIA Isaac Sim、Habitat 这种基于游戏引擎的仿真器在视觉真实感上更强。
所以这一节是想说:robosuite 解决了"标准化",但"真实化"、"复杂化"、"语言化"都留给后人。
它和别的论文是什么关系
vs habitat(Habitat 2.0):Habitat 主打导航类任务(在屋子里走),它的强项是渲染速度(每秒上万帧)和大规模房屋数据。robosuite 主打操作类任务(拧、抓、放),强项是接触动力学。两者其实是互补的——一个解决"机器人去哪",一个解决"机器人到了之后干什么"。
vs diffusion-policy:Diffusion Policy 这篇 2023 年的工作把"扩散模型"用作机器人策略生成器,它的实验大量跑在 robosuite 的 Square、Lift、Can 等任务上。所以 robosuite 是 Diffusion Policy 的考场——没有 robosuite 提供统一任务,Diffusion Policy 没法和别的算法横向比。
vs ibc / gail:IBC(隐式行为克隆)和 GAIL(生成对抗模仿学习)这类模仿学习算法都需要"专家演示"作为训练数据。robosuite 内置的 SpaceMouse / 键盘示教工具就是为它们准备的弹药库。
vs cosmos-policy:Cosmos 是 NVIDIA 2025 年的世界模型 + 策略框架,比 robosuite 上一个层级——它要预测视频未来帧、再生成动作。robosuite 是它常用的下游验证场。可以说 robosuite 是基础设施,diffusion-policy / cosmos-policy / openvla 都跑在上面。
vs openvla:OpenVLA 是 2024 年的视觉-语言-动作大模型,训练数据来自真机数据集 Open X-Embodiment(百万级真机轨迹)。它可以在 robosuite 上做仿真验证,但本质上 OpenVLA 是"真机时代"的产物,而 robosuite 是"仿真为主"时代的代表。两者一起读你能感受到机器人学习从"小数据 + 仿真"向"大数据 + 真机"的范式迁移。
vs gail / ibc:GAIL 用对抗训练(生成器 vs 判别器)让策略模仿专家,IBC 用能量模型隐式表达策略。它们在 robosuite 任务上的表现是"模仿学习成熟度"的标尺——RoboMimic 论文做了大量这类对比实验。读这两篇前,先理解 robosuite 提供了什么样的"考场",会事半功倍。
所以这一节是想说:robosuite 是机器人学习社区的"地基"——后来很多明星算法都把它当跑分平台。
我建议这样读这篇
- 先看 Figure 2 的系统图(论文里 Section 2 开头):理清 Environment / Task / Robot / Controller / Sensor / Device 这 6 个概念怎么串起来。这张图本身就是 robosuite 的"灵魂图",值得花 10 分钟弄清楚每条箭头。
- 跳到 Section 3.1 看 9 个任务:每个任务配一句描述,看图理解机器人要做什么——这一步建立"业务需求"直觉。脑子里要能想象出每个任务的视频片段。
- 回看 Section 2.3 控制器表(Table 1):把 OSC、IK、JOINT 三大类、6 种 + 阻抗变体的对应关系背一遍——这是后面读 RL/模仿学习论文时绕不过去的基础。重点理解动作维度(3、6、7、9、12、15、n、2n、3n)分别对应什么控制语义。
- 跑一遍 GitHub README 的 Quick Start:装好 robosuite 后用 4 行代码 reset 环境 + step 一次 + render——比读论文多 100 倍直觉。第一次看到机械臂在你电脑上动起来时,前面 19 页论文全部"豁然开朗"。
- 挑一篇用 robosuite 的下游论文(比如 Diffusion Policy 或 RoboMimic):看它怎么调用 robosuite、用了哪些任务、复现它的图——这一步把 robosuite 从"概念"变成"工具"。
- 如果对控制器细节感兴趣:精读 Khatib 1995(OSC 经典论文)和 Mart´ın-Mart´ın 2019(变阻抗 RL 论文,IROS)。这两篇会告诉你"为什么 OSC 在仿真里就是比 JOINT_VELOCITY 学得快"的物理学道理。
所以这一节是想说:先看图建直觉,再动手跑代码,最后读下游论文反推 robosuite 的设计取舍。
一些好奇心问答
Q1:为什么不用 Unity 或 Unreal 做机器人仿真? A:游戏引擎的物理求解器对接触动力学不够准确——夹爪抓物体时容易"穿模"或"打滑"。MuJoCo 用了一种更适合接触求解的算法(凸优化形式的接触求解器),代价是渲染没游戏引擎漂亮。所以"研究用 MuJoCo,演示视频用 Unreal"是常见组合。
Q2:robosuite 和 Gym、dm_control 啥区别? A:Gym 是接口标准(reset / step / render 那一套),任务以 Atari 和经典控制为主;dm_control 是 DeepMind 出的 MuJoCo 任务集,偏向 locomotion(如 cheetah 跑步);robosuite 是机械臂操作专用,三者算"上下游"——robosuite 沿用 Gym 的 API 风格,调底层 MuJoCo(dm_control 调的也是同一个)。
Q3:v1.5 比 v1.0 多了啥? A:最大的两个升级是:(1) 加了人形和移动机器人(GR1、Spot、TIAGo),把 robosuite 从"纯桌面机械臂"扩展到"全身机器人";(2) composite controller——身体不同部位可以挂不同控制器(手臂用 OSC、底座用 JOINT_VELOCITY),符合移动操作的需要。
Q4:为啥 SAC 在 9 个任务里只解决 3 个?是 SAC 不行吗? A:不是 SAC 不行,是操作类任务从纯奖励信号学起来太难。Pick-and-Place 要先抓对、再走对路线、再放进对的容器,奖励信号稀疏(成功才给奖励)。这种长时序、稀疏奖励、精细接触的任务需要更多机制——比如人类演示(imitation)、密集奖励设计(reward shaping)、分层 RL。这正是后来研究的方向。
Q5:为什么 OSC 比 JOINT_VELOCITY 学得快? A:直觉解释——RL 算法的"探索"在动作空间里随机抖。在 OSC 空间里抖一下,末端在桌面上移动 1cm;在 JOINT_VELOCITY 空间里抖一下,7 个关节角速度同时变,末端可能跳到一米外。OSC 的探索"和任务结构对齐",所以学得快。这也是 Mart´ın-Mart´ın 2019 那篇变阻抗论文的核心论点。
Q6:能在 robosuite 上跑 VLA(视觉-语言-动作)模型吗? A:可以,但 robosuite 自身不带语言指令——任务名是固定的(Block Lifting 不会随机变成"擦桌子")。OpenVLA、Octo 等 VLA 工作通常会在 robosuite 上加一层任务描述包装层,或转用 LIBERO(基于 robosuite 扩展的语言条件任务集)。
Q7:为啥论文这么短(19 页 + 大量图表)? A:robosuite 不是"算法论文",是软件论文。它的价值不在于一个新数学公式,而在于"我做了一个工具、你拿去用"。这类论文的标准写法就是讲架构、列功能、给基线,类似软件工程文档。
Q8:我学完 robosuite 之后下一步推荐学啥? A:建议沿这条线走:(1) 先在 robosuite 跑通官方 Quick Start;(2) 看 RoboMimic(同团队的模仿学习数据集);(3) 看 Diffusion Policy(用扩散模型做策略);(4) 看 LIBERO(语言条件任务);(5) 最后看 OpenVLA 这种集大成的 VLA 模型——你会发现 robosuite 像个底层基础设施,越往后越隐形。
Q9:robosuite 的"composite controller"和真实机器人有什么对应? A:真实人形机器人(如波士顿动力 Atlas、特斯拉 Optimus)的工程实现也是分体控制——头部、躯干、上肢、腿部各自有自己的控制循环(频率不同、控制律不同)。robosuite v1.5 的 composite controller 设计就在向这个方向靠拢,让仿真里的控制结构更接近真机部署。
Q10:我自己装 robosuite 大概需要啥配置? A:CPU 单机就能跑(论文里 SAC 实验是 2 CPU + 12G VRAM、无 GPU)。如果用 RGB 渲染做视觉策略学习,加一块 RTX 3060 级别 GPU 就够。装的时候装 mujoco-py 或新版 mujoco(DeepMind 收购后的 Python binding)即可,不再需要旧版的 license 文件——MuJoCo 2021 后开源。
所以这一节是想说:robosuite 自己很简单,但它带出来的整个机器人学习生态值得你顺藤摸瓜。
如果你想再深入
- Khatib 1995, "Inertial properties in robotic manipulation: An object-level framework"——OSC(操作空间控制)的理论原典。读完才能真正理解 robosuite 控制器章节。
- Todorov, Erez, Tassa 2012, "MuJoCo: A physics engine for model-based control"(IROS)——MuJoCo 引擎设计论文。理解仿真器底层求解。
- Fan, Zhu et al. 2018, "SURREAL: Open-source reinforcement learning framework"(CoRL)——robosuite 的前身项目,分布式 RL 框架。
- Mart´ın-Mart´ın et al. 2019, "Variable impedance control in end-effector space"(IROS)——变阻抗动作空间论文,解释 robosuite 阻抗模式的研究价值。
- robosuite 官方文档与示例 robosuite.ai——比论文更新更快,含 v1.5 的 composite controller 教程。
- Mandlekar et al. 2021, "What Matters in Learning from Offline Human Demonstrations for Robot Manipulation"(CoRL,即 RoboMimic 论文)——大量基于 robosuite 的模仿学习消融实验,是 robosuite 最重要的下游用户之一。
所以这一节是想说:把 robosuite 当一个生态入口——往上读控制器理论,往下看模仿学习实证,整套链条会越来越清晰。
◼
引用本笔记 / Cite this note
@online{eai_robosuite_2026,
title = {(readable note) robosuite: A Modular Simulation Framework and Benchmark for Robot Learning},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2020 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/robosuite/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim