回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Simulation & Sim2Real · Plate Nº 104

SAPIEN: A SimulAted Part-based Interactive ENvironment

18 min read · 6256 字 · ⭐⭐⭐ · auto 摘要

这是一份给"完全没接触过机器人 / 仿真"的读者看的精读笔记。语言尽量像聊天,公式和术语全部翻成人话。

一句话讲什么(TL;DR)

给机器人造了一个虚拟宜家展厅,2,346 件家具每个抽屉、每扇门、每个瓶盖都能真的拉开、推开、拧开。

所以这一节是想说:这篇论文做的是一个"零件级"的仿真环境,不是新算法。


这是个什么场景

想象你下班回家,肚子饿了,想从冰箱里拿瓶牛奶。

你做这事不到 5 秒:

看到冰箱 → 瞄准把手 → 伸手抓住 → 往外一拉 → 拿出牛奶 → 顺手关门。

但同一件事让机器人来做,每一步都崩溃。最难的不是"认出这是冰箱"——是要搞懂这扇门会动、合页在哪、得往外拉而不是往上推、把手要捏住不能松、拉到 90 度才算开。这一整套关于"零件怎么动"的常识,人脑里是天生的,机器人脑里是空白。

2020 年之前,研究机器人的人主要在两种世界里训练算法:

  • 导航世界(如 Habitat、Gibson):场景是真房子的 3D 扫描,渲染很美,但所有家具都"焊死了"——机器人能在房间里走,但走到冰箱前只能干瞪眼。
  • 抓积木世界(如 OpenAI Gym + MuJoCo):物理引擎很硬核,能算出每一根手指的受力,但场景里就是一根杆、一块积木、一张桌——离"家"差着十万八千里。

第三类(AI2-THOR、VirtualHome)算"半交互":机器人靠近冰箱会触发"门变成打开状态"——但这个"开"是程序员用一行代码切换的标志位,不是真有把手、真有铰链、真有摩擦力。机器人根本没学过"怎么用手指捏住把手"。这种环境里训出来的策略,搬到真机器人面前,立刻原形毕露。

SAPIEN 想做的,是把"导航世界的场景丰富度"和"抓积木世界的物理真实度"缝起来:每件家具都是零件级别可动的,每个零件都有真实的铰链、滑轨、摩擦、限位。机器人在里面学会的"开抽屉",是手指真的捏住把手、用真实的力拉出来——能直接迁移到现实。

所以这一节是想说:SAPIEN 想做"零件都能真的动"的家用仿真环境,让机器人学到的技能能搬到现实。


SAPIEN — 场景示意:这论文要解决的现实问题
Plate Nº ISAPIEN — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

  • 导航类(Habitat / Gibson / MINOS):用真实扫描的场景做漂亮渲染,但物理是静态的。机器人能走,但碰到柜门像撞墙。当时这一类几乎没有交互
  • 游戏引擎类(AI2-THOR / VirtualHome / HoME):靠 Unity 引擎搭家居场景,能做"状态机式"的交互——机器人靠近冰箱就触发"门变开状态"。问题是这是编程开关,不是物理意义上的开门,没有把手要抓、没有力的传递。
  • 物理引擎类(OpenAI Gym + MuJoCo / PyBullet):物理仿真精确,但家具内容贫瘠——大多数任务是抓木块、推方形、走路、平衡杆。你想让机器人学"打开洗碗机"?没素材。
  • RLBench(同期对手):用 V-REP 做了一套漂亮任务,但任务硬编码,每个任务的物体是开发者手工搭的,不能随意换不同型号的微波炉、不同款式的柜子。多样性差。
  • 专门的零件运动数据集(Shape2Motion / RPM-Net):有标注但没纹理、没运动限位、不能直接送进物理引擎跑

核心痛点:要做"家用机器人",最缺的是一个**"零件可动 + 物理真实 + 海量家具 + 易用接口"四合一**的仿真平台。每家都补了一两块,没人四块都补全。

所以这一节是想说:之前的环境要么不能动、要么动得假、要么家具太少、要么不能改,没有"四合一"的家用机器人训练场。


这篇论文的新想法

用 PhysX 物理引擎 + ROS 机器人接口 + 14K 个手工标注的可动零件 + 双模式渲染器,造出第一个支持"零件级别"操作的家用仿真平台。

听起来不复杂,但关键是把铰链/滑轨/螺旋三种运动类型精确建模到 2,346 件家具上——这是一个超大规模的标注 + 工程项目,做完之后整个领域才有了能学"开柜子"的训练场。

所以这一节是想说:核心贡献是把"零件可动"这件事一次性做齐了——物理 + 数据 + 渲染 + 接口都在一起。


它分几步做的(方法)

整个 SAPIEN 由三大组件 + 一套数据 + 两类示范任务组成。

1. 物理引擎层(SAPIEN Engine):让铰链真的会转

类比

像玩一套带"机关"的乐高——柜门有合页、抽屉有滑轨、瓶盖有螺纹。你拉一下抽屉,它有摩擦、停在限位上、撒手还会被重力拉回来一点。SAPIEN 的物理引擎做的就是把这套乐高搬进电脑里完整模拟出来。

等等,先慢一拍——"物理引擎"是啥?

可以理解成"一个专门算物体怎么受力、怎么动、撞了会反弹多少"的小程序。游戏里子弹飞行、车撞墙翻滚,背后都是物理引擎在算。SAPIEN 用的这个引擎叫 PhysX,是 NVIDIA 写的,免费开源。

它在干什么

  • 用 NVIDIA 的开源物理引擎 PhysX 4.1 做底层。PhysX 比 MuJoCo 简单、比 PyBullet 性能更好,且免费开源——意味着任何实验室都能直接拿来用。
  • 提供三种"零件连接方式",相当于给家具装铰链时挑不同档次的零件:
    • 运动学关节(kinematic joint):当成"无视小力的死物"——大冰箱、墙角橱柜,不希望机器人碰一下就晃,用这种。
    • 动力学关节(dynamic joint):能受力反应,但精度要求不高,比如普通橱柜门。
    • PhysX 关节铰接(articulation):专门为机器人手臂设计,支持精确的力控制 / PD 控制 / 反向动力学,但速度慢一点

关节(joint):两个刚体之间的连接,决定它们能怎么相对运动。比如门和门框之间的铰链就是一个"旋转关节"。

PD 控制器:一种最经典的反馈控制——根据"当前位置和目标位置的差距"+"当前速度"算出该输出多少力。像开车时眼睛盯着限速 60 而你现在 50:你按下油门的力度,就是 PD 控制器在工作。

反向动力学(Inverse Dynamics):已知机器人末端要怎么动,反推每个关节该出多少力矩。

  • 集成 ROS 接口(机器人操作系统)。这意味着仿真里写的代码,几乎可以直接搬到真机器人上跑——sensor 接口、controller 接口、消息格式都对齐。
  • 支持同步(每步等 RL 算法决策)和异步(仿真照样跑,机器人代码独立通信)两种模式——前者用于训练,后者用于贴近真机调试。

为什么这步有用

  • 用真实力学而不是状态机切换,机器人学到的是"把手得用 5N 的力沿门把手切线方向拉",搬到现实仍然成立。
  • ROS 兼容意味着学校已经有的真机代码,几乎不用改就能在 SAPIEN 里测。
  • 三种关节系统让用户在"仿真精度"和"仿真速度"之间灵活权衡——5000Hz 仿真速度足够快,可以让 RL 训练在合理时间内收敛。

所以这一节是想说:SAPIEN 的物理引擎做到了"既精准、又快、又能无缝接真机"。

2. 数据层(PartNet-Mobility 数据集):14K 个能动的零件

类比

像宜家给你一份超详细的组装说明书 + 零件清单——不仅画出每件家具长啥样,还逐零件标注:"这扇门绕这根轴转、最大开 110 度""这个抽屉沿这条滑轨平移、最长拉出 0.4 米"。

光有说明书还不够——你还得把每件家具的 3D 模型 + 表面贴图 + 重量 + 摩擦力一起打包好,物理引擎一加载就能直接用。这就是 PartNet-Mobility 数据集做的事。

它在干什么

  • 2,346 个 3D 物体模型,覆盖 46 个常见室内类别:瓶子、柜子、剪刀、烤箱、电脑屏幕……
  • 14,068 个可动零件——平均每个物体有 6 个可动零件。比如一个柜子可能有 3 个抽屉 + 2 扇门 = 5 个零件。
  • 每个零件标注三种运动类型之一:
    • 铰链(hinge):绕轴旋转。门、瓶盖(普通拧的)、剪刀。
    • 滑轨(slider):沿轴平移。抽屉、推拉门、键盘的按键。
    • 螺旋(screw):旋转 + 平移耦合。汽水瓶盖、旋转椅升降柱。
  • 每个零件都标注了运动范围限位——门最多开 110 度,抽屉最多拉出 35 厘米。
  • 配套 URDF 文件(机器人通用描述格式),加载即用。

URDF(Unified Robot Description Format):机器人圈的"零件清单 + 关节图纸"标准格式,XML 写成。物理引擎读了就知道整个机器人/物体怎么连、怎么动。

凸分解(convex decomposition):把一个复杂形状的物体拆成多个凸多面体的并集。物理引擎处理凸多面体之间的碰撞速度快得多,所以加载时要先做这一步。

为什么这步有用

  • 14,068 个可动零件 vs 之前最大数据集的 6,762 个,多 1 倍
  • 同时拥有"纹理 + 运动限位 + URDF"是少数——之前的 Shape2Motion 没纹理,做不了视觉训练。
  • 标注是用一个自研网页工具做的:基于 PartNet 已有的零件树自动出题,标注员只需回答"这个子树有相对运动吗"——保证不漏标也不重复问,效率高。

所以这一节是想说:PartNet-Mobility 把"零件级标注 + 物理可仿真 + 视觉可训练"合一,撑起了整个仿真平台的"内容池"。

3. 渲染层(SAPIEN Renderer):从图像来看,是真实的

类比

像同一间样板房让你选两种"看法":

  • 玩游戏模式:60 帧不卡,画面流畅,但光影细节糙——像 PS3 时代的画面。
  • 拍电影模式:光线追踪,玻璃折射、桌面反光、阴影边缘都精确,但每帧要渲半小时。

SAPIEN 两种都给你,按需切换:训练时开"游戏模式"求快,做最终评测时切"电影模式"求真。

它在干什么

  • 默认用 OpenGL 4.5 + GLSL 着色器做实时渲染(700Hz),用延迟光照管线输出 RGB / 法向量 / 深度 / 分割掩码。
  • 想要"电影级"画面时切换到 NVIDIA OptiX 光线追踪器,得到物理精确的阴影、反射、折射,代价是慢。
  • 整个渲染管线是可定制的——你能自己写 shader,甚至完全替换渲染器。这点比"商业软件锁死"的 V-REP 灵活得多。

延迟光照(deferred shading):先把场景每个像素的几何信息(法向、深度、材质)画到一组缓冲,再统一计算光照。比"边画边算"快得多,但内存吃得多。

法向量图(surface normal map):每个像素记录该点表面的朝向。机器人靠这个判断"这个面是朝上还是朝侧",决定怎么放手指。

分割掩码(segmentation mask):把图像里每个像素标上它属于哪个零件。比如"这一块像素属于柜门 1,那一块像素属于把手"。

为什么这步有用

  • 训练 RL 时用快渲染(700Hz)保证速度。
  • 评估或合成数据集时用慢渲染(光线追踪)保证视觉真实,缩小 sim-to-real 的视觉差距。
  • 直接吐出 RGB-D + 法向 + 分割四种通道,省去研究者自己写预处理。

所以这一节是想说:渲染器做到了"训练时快、合成时真、二选一不用重写代码"。

4. 任务层 1:感知任务——先认出哪些零件能动

类比

像玩"找不同"游戏的升级版:给你一张柜子的照片,让你用马克笔圈出哪是门、哪是抽屉、哪是把手——还要说出每个零件能往哪个方向动。这一步叫可动零件检测。机器人要开柜门,得先有这双"会圈零件的眼睛"。

它在干什么

  • 在 PartNet-Mobility 上跑两个经典视觉算法:
    • Mask R-CNN:拿 RGB 或 RGB-D 图,输出每个零件的 2D 边框 + 掩码。
    • PartNet-InsSeg(基于 PointNet++):拿 3D 点云,对每个点分类是哪个零件。
  • 75% 的物体(1,772 个)做训练,25%(574 个)做测试。
  • 同时定义运动属性估计任务:除了识别零件,还要预测它的运动类型(铰链 / 滑轨)+ 旋转轴方向 + 当前开合状态。

为什么这步有用

  • 直接给后续学界一套可比较的基准——Mask R-CNN 在 RGB 上跑出 53.0% mAP,PointNet++ 在点云上 36.1% mAP。后人改进算法时有一把尺。
  • 暴露了一个深刻问题:小零件(按钮、开关、把手)检测都很差——而恰恰这些小零件才是机器人最需要操作的对象。后续多年研究都在攻这个点。

所以这一节是想说:感知任务给"零件级视觉理解"立了第一根标杆,并暴露出"小零件难检测"的核心难题。

5. 任务层 2:交互任务——拉抽屉、开柜门

类比

像教小孩学做家务——光会"看"还不够,还得真上手干。SAPIEN 让一只**"会飘的夹子"**(Kinova Gripper 3,一只能在空中任意位置出现的简化机械手,省掉了机械臂关节的复杂性)来干两件具体的事:

  • 抽屉拉出:在 108 个柜子上学。
  • 柜门打开:在 77 个柜子上学。

判定成功的标准是:把目标零件挪到它能动范围的 90% 那么远(抽屉拉到几乎全开、门推到接近最大角度)。

它在干什么

两条路线对照:

  • 启发式管线(人写规则):从点云里识别把手位置→生成抓取姿态→用速度控制器拉到底。如果是开门,先小角度打开,再用 PBVS(基于位置的视觉伺服)追踪门边缘。
    • 抽屉成功率 95.3%
    • 门成功率 81.8%
  • 强化学习(Soft Actor-Critic):在 2 / 4 / 8 / 16 个柜子上训练,在没见过的柜子上测试。提供三种"状态表示":
    • raw-exp:所有零件的位置 + 速度。
    • mobility-exp:只看目标零件的运动轴 + 法向 + 当前角度。
    • visual-exp:相机的 RGB-D + 分割掩码。

PBVS(基于位置的视觉伺服):用相机算出"目标在 3D 空间哪里",再用机械臂控制器把末端开过去。和"图像伺服(IBVS)"不同——后者直接在 2D 图像空间纠错。

Soft Actor-Critic(SAC):一类强化学习算法,在最大化奖励的同时最大化策略的熵(让动作有点随机),收敛稳定,是连续控制的标杆。

为什么这步有用

  • 启发式 vs RL 放在一起对比,第一次让人看清"现在 RL 在多物体多样性下还远不如硬编码规则"。
  • 三种状态表示的对比给后人很重要的信号:视觉输入还远不够好——尤其在"相机不动、画面不变"的场景(拉抽屉时镜头看不出零件被拉了多少),visual-exp 反而比 raw-exp 差。

所以这一节是想说:交互任务把仿真平台真正"用起来",并暴露出 RL 的泛化和视觉表征的两大短板。


SAPIEN — 方法示意:核心 pipeline
Plate Nº IISAPIEN — 方法示意:核心 pipeline

关键数字(What works)

数字 原文 对比 / 意味着什么
14,068 个可动零件 数据集规模 之前最大 Shape2Motion 是 6,762,翻了一倍
2,346 个 3D 模型,46 数据集广度 覆盖瓶子、柜子、键盘、剪刀、灯、洗衣机等几乎所有常见家居
5,000Hz 仿真,700Hz 渲染 笔记本上 RTX 2070 + i7-8750 普通台式机就能 RL 训练,门槛低
53.0% mAP Mask R-CNN(RGB) 可动零件检测 算很差,但当时没有这个基准。后人改进的起点
95.3% 抽屉拉出(启发式) 拿 ground-truth 视觉 硬编码规则在简单任务上仍是 SOTA
81.8% 开门(PBVS) 比 RL 高出一截 多步任务上规则方法不输 RL,证明"先抓后追"的几何思路有效
88.7% → 22.9%(RL 门,训练 vs 测试) 训练 16 个柜子的 SAC RL 严重过拟合训练物体,泛化是当时最大的开放问题

所以这一节是想说:SAPIEN 量级足够大、跑得足够快,但它做的更多是"立基准"——具体方法的天花板才刚开始往上摸。


你应该懂的几个新词

  • Articulated object(铰接物体):由多个刚体零件通过关节连起来的物体。门 + 门框、抽屉 + 柜身、机器人手臂全都算。和"刚体"相对——刚体是一整块。
  • Joint(关节):两个零件之间的连接,规定它们之间能怎么相对运动。常见类型:铰链(rotation)/ 滑轨(translation)/ 螺旋(兼具二者)/ 球铰(球面旋转)。
  • URDF(Unified Robot Description Format):机器人圈通用的 XML 格式,描述一个机器人/铰接物体的零件、关节、传感器。SAPIEN 里所有家具都有 URDF。
  • PhysX:NVIDIA 开发的开源物理引擎,做刚体动力学和关节模拟。SAPIEN 的核心物理基础。
  • ROS(Robot Operating System):不是真正的操作系统,是一套机器人开发框架——定义传感器/控制器接口、消息总线。仿真和真机能共用一套代码全靠它。
  • Convex decomposition(凸分解):把复杂形状拆成凸多面体之集合,物理引擎才能高效检测碰撞。
  • Inverse Kinematics(反向运动学):已知"末端要到哪个位置",反推"每个关节该转多少度"。
  • Inverse Dynamics(反向动力学):已知"末端要怎么动",反推"每个关节该出多少力矩"。
  • Sim-to-real gap(仿真到现实的差距):在仿真里训练好的策略搬到真机器人上往往失效,因为物理 / 视觉 / 噪声都对不上。SAPIEN 努力缩小的就是这个 gap。
  • Soft Actor-Critic(SAC):连续控制 RL 的代表算法,加入"熵奖励"鼓励探索,2018 年提出,至今仍是基线。

所以这一节是想说:这些词构成了"机器人仿真"领域的最小词汇表,往后读这条线的论文都会反复见。


它有什么搞不定的

  • 没有柔性物体 / 流体:所有家具都假设是刚体。布、绳、水都不在范围内。要研究"叠衣服 / 倒水"得用别的环境(如 SoftGym)。
  • 小零件检测仍然糟糕:开关、按钮、握柄这种 1cm 量级的关键操作目标,Mask R-CNN 接近 0% AP。这意味着即使 SAPIEN 放任无穷多家具,视觉这一关还过不去
  • RL 泛化能力差:训练 16 个柜子,测试性能从 88% 掉到 22%。模型在"没见过的把手形状"前几乎崩盘。这个问题到 2024 年才在 RT-2、OpenVLA 这一线开始有像样的答案。

所以这一节是想说:SAPIEN 把舞台搭好了,但舞台上的演员(视觉算法 + RL 算法)当时并不达标。


它和别的论文是什么关系

  • vs RLBench(这套笔记里也有):两者都是 2019-2020 年的机器人仿真平台。RLBench 的核心是"100 个手工任务 + 无限示范"——任务定义清楚,但物体多样性弱(每个任务的物体是手搭的)。SAPIEN 反过来——物体多样性极强(2,346 件家具)但任务定义少(开门、拉抽屉)。两者互补:用 RLBench 学"标准任务"、用 SAPIEN 学"任务跨家具泛化"。
  • vs Habitat(也在这套笔记里):Habitat 主打导航——大场景、真实扫描、没有交互。SAPIEN 主打操作——单件家具、合成模型、深度交互。一个解决"在房子里走",一个解决"在家具上动手"。
  • vs RoboSuite / Meta-World / DoorGym:这些是更"专业化"的训练台——RoboSuite 偏机械臂控制原语、Meta-World 偏多任务 RL、DoorGym 只做门。SAPIEN 是"超集" + 内容池。
  • 后续影响:SAPIEN 的 PartNet-Mobility 数据集后来被 Where2Act、AdaAfford、UMPNet、ManiSkill 等一系列论文复用。ManiSkill 就是 SAPIEN 团队 2021 年之后做的"任务挑战赛",把 SAPIEN 升级成 RL benchmark。可以说 SAPIEN 是 2020 年代家用机器人仿真的"水电煤"。

所以这一节是想说:SAPIEN 在那个时代和 RLBench 一起把机器人仿真分成了"任务驱动 vs 内容驱动"两条路,并直接孵化了后来的 ManiSkill 系列。


我建议这样读这篇

  1. 先读 Section 3(SAPIEN Engine / Asset / Renderer):搞清三大组件在干什么,结构图(Figure 2)必看。
  2. 再读 Table 1:把 SAPIEN 和 Habitat / AI2-THOR / OpenAI Gym / RLBench 横向对照,理解定位差异。
  3. 跳到 PartNet-Mobility 标注流程(Appendix A):看那个网页 QA 工具怎么实现"不漏标 + 不重复",工程含金量高。
  4. 回到 Section 4.1 感知任务:注意"小零件 AP 接近 0"的这一行,是后续整条研究线的痛点。
  5. 再看 Section 4.2 交互任务:对比 heuristic 和 RL,体会"为什么强化学习还远不够"。
  6. 最后看 Table 6 的 RL 结果:训练分高、测试分低这个 gap 是后续 5 年都在攻的目标。

所以这一节是想说:先理框架、再看数据、最后挖痛点,能在 1 小时内吃透这篇。


一些好奇心问答

Q1:为什么不用游戏引擎(Unity / Unreal)做仿真?AI2-THOR 不就是 Unity 吗? 游戏引擎渲染好但物理糙——为了帧率,碰撞往往简化为状态切换。SAPIEN 选 PhysX 是因为它专为机器人精度设计,而且开源、免授权费、和 Gazebo / PyBullet 同根。

Q2:14K 个可动零件是怎么标的?标这一万多个不会标到死吗? 他们做了一个自动出题的网页工具:先用 PartNet 已有的零件树自动列出所有"可能动的子树",标注员只需回答二选一问题。这意味着不会漏标、也不会重复问,把人工压到最低。 (详见 Appendix A,Figure 2 是工具截图。)

Q3:什么是"螺旋(screw)"运动?日常哪里见? 旋转 + 平移耦合的运动。最常见的是汽水瓶盖——你拧的时候它一边转一边升起来。还有旋转座椅的升降柱老式螺丝。SAPIEN 把这种当成一种独立运动类型来标注。

Q4:5000Hz 仿真速度听起来很快,是单线程吗? 是的,单 CPU 物理步进。PhysX 4.1 在简单关节系统下能跑到这个速度。如果用 PhysX articulation(精度更高),会降到几百 Hz。

Q5:SAPIEN 能模拟两只手协作开瓶子吗? 能,但效果有限。SAPIEN 主要在"单飞行夹爪"上做基线。多臂协作需要更复杂的接触建模(如手套与盖子的多点接触),不是 SAPIEN 的强项。后续 ManiSkill 2 做了一些扩展。

Q6:为什么 visual-exp 在抽屉任务上反而比 raw-exp 差? 因为相机视角是固定的,且抽屉拉出的过程中画面几乎不变——把手从近到远移了几厘米,相机看上去没动。视觉信号没了,反而 raw-exp(直接读关节角度)更稳。这是仿真里很有意思的"传感器选择"问题。

Q7:SAPIEN 能直接 pip install 用吗? 可以。SAPIEN 提供 Python wrapper,pip install sapien 即可。后续版本(SAPIEN 3)已经支持 GPU 加速、并行环境、更精细的接触模型。

Q8:如果我只想用它的家具数据,不用引擎,行吗? 可以。PartNet-Mobility 数据集本身就是独立的 URDF + 纹理 + 标注,可以加载到 PyBullet、MuJoCo、IsaacGym 等任何支持 URDF 的引擎里。这也是为什么后来这个数据集被这么多论文借用。

所以这一节是想说:SAPIEN 既是仿真器也是数据池,使用方式很灵活。


如果你想再深入

  • PartNet(Mo et al., CVPR 2019):SAPIEN 数据集的"父亲"——3D 物体的层次化零件分割数据。读完它再看 PartNet-Mobility 标注流程会很顺。
  • ManiSkill / ManiSkill2(SAPIEN 团队后续作):把 SAPIEN 升级成正经 RL benchmark,定义了 30+ 操作任务和泛化分级。是 SAPIEN 的直接续集。
  • Where2Act(Mo et al., ICCV 2021):基于 PartNet-Mobility,让机器人学"在哪一点推 / 拉"。SAPIEN 内容池的最早一批高引用论文之一。
  • RLBench(同套笔记里有):和 SAPIEN 互补的另一条仿真路线,对比着读能搞清"任务驱动 vs 内容驱动"的设计哲学差异。
  • Habitat(同套笔记里有):导航类仿真的代表,理解和 SAPIEN 的分工。

所以这一节是想说:从 PartNet 到 SAPIEN 到 ManiSkill 到 Where2Act 是一条完整的研究脉络,按顺序读能看清"零件级机器人操作"这门子学科是怎么长起来的。

引用本笔记 / Cite this note
BibTeX
@online{eai_sapien_2026,
  title       = {(readable note) SAPIEN: A SimulAted Part-based Interactive ENvironment},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2020 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/sapien/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim