回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Datasets & Benchmarks · Plate Nº 27

RLBench: The Robot Learning Benchmark & Learning Environment

22 min read · 7554 字 · ⭐⭐ · auto 摘要

这是一份给"完全没接触过机器人 / AI"的读者看的精读笔记。语言尽量像聊天,公式和术语全部翻成人话。

一句话讲什么(TL;DR)

给机器人手臂出了一套 100 道题的"统考卷",从此大家都做同一套题,第一次能公平比谁更厉害。

所以这一节是想说:这篇论文做的是一套"统一考卷",不是新算法。


这是个什么场景

想象你和朋友都说自己厨艺好。你晒一张番茄炒蛋,他晒一份红烧肉,菜不一样、用的锅不一样、连"好吃"的标准都不一样——你们怎么比?

2019 年的机器人研究圈就是这副样子:

北京实验室让机器人学"开门",写论文说成功率 85%。 上海实验室让机器人学"叠杯子",写论文说成功率 92%。 你想问:到底哪家方法更强?

答不出来。因为每家:

  • 用的机器人不一样(这家是 UR5,那家是 Sawyer)
  • 摆的桌子不一样(这家有摄像头在头顶,那家在手腕)
  • 出的题不一样(开门 vs 叠杯子,根本没法比)
  • 评分标准不一样(这家算"碰到了就算赢",那家要求"完全闭合")

就像每个学校都自己出高考卷、自己阅卷,然后宣布"我们学校理科满分率最高"。没有统一卷子,所有"我比你强"都是空话

更糟的是:算法被偷偷"为题目量身定做"。如果一个方法在某个难任务上不行,研究者就只报告它在简单任务上的分数。读者根本看不出来。

RLBench 想做的事,是给机器人圈造一场"高考":

  • 100 道全国统一题
  • 同一种机器人手臂(Franka Panda 7 自由度)
  • 同一种摄像头布置(一个头顶相机 + 一个手腕相机)
  • 同一种评分(任务完成 +1 分,没完成 0 分)
  • 同一种数据接口(一行 Python 代码就能取题)

只要大家都用这套,第一次能光明正大说"我的方法比你强 5 个点"。

所以这一节是想说:RLBench 要做机器人圈的"普通高考"——一套谁都得用的统一卷子。


RLBench — 场景示意:这论文要解决的现实问题
Plate Nº IRLBench — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

  • OpenAI Gym / DeepMind Control Suite:游戏型基准,比如让虚拟人形走路、平衡杆。问题是太抽象——和真实机器人在桌上抓东西完全不像。在这种基准上跑得好的算法,搬到真实机器人就崩。
  • OpenAI Gym 里的少数机器人任务:太简单,几个抓取就完事,没有长链条任务(比如"开烤箱→把托盘放进去")。
  • Amazon Robotics Challenge / RoboCup@Home:是真正的机器人比赛,但每年只搞一次,需要实体场地,普通实验室根本复现不了。没法当日常评测用
  • RoboTurk:用众包让人类远程操作机器人录数据,但只有 3 个任务——多样性根本不够。
  • Meta-World(同期对手):也是 19 年提出的多任务基准,方向相近,但当时文档还没齐,定位不清。
  • 大家各自造任务:最常见的做法。每篇论文设计自己的几个抓取任务、自己的奖励函数。结果就是上面说的"没法横向比较"。

所以这一节是想说:之前要么是过家家级别的玩具任务、要么是一年一次的大赛、要么是各家自造,没有"日常用、能复现、覆盖广"的统一题库。


这篇论文的新想法

用一套带"任务建造工具"的仿真环境,造出 100 个手工设计的真实操作任务,每个任务能自动生成无限示范数据;并且首次定义"机器人少样本挑战"作为这套基准的最高难度赛道。

听起来朴素,但当时没人愿意花这个力气把"100 个任务 + 无限示范 + 共享接口 + 难度分层 + 工具链"全做齐。

所以这一节是想说:核心创新是工程"狠"——把一个分散领域真正缺的基础设施一次性铺平。


它分几步做的(方法)

把这套"机器人高考"做出来,作者其实在干 5 件事——就像办一场高考要准备的东西:考场、题型、答题示范、出题工具、加试赛道。一件件来:

  1. 统一仿真场景(搭考场)
  2. 任务三层结构(定义"题型 / 题目 / 实测")
  3. 自动生成示范(请数学算法当陪练)
  4. 任务建造工具(让别人也能加题)
  5. 少样本挑战(设一条加试赛道)

1. 统一仿真场景:所有 100 道题共用一张桌子

类比

想象一个大学物理实验室。所有实验都在同一张实验台上做:力学题、光学题、电学题——桌子不变、灯不变、椅子不变,只换桌上的实验器材。

RLBench 就是这种统一实验台:

  • 机器人:一台 Franka Emika Panda 7 自由度机械臂,固定在一张木桌上。
  • 摄像头:一个头顶立体相机(双目,能算深度)+ 一个绑在手腕上的单目相机。
  • 数据:每帧返回 RGB 彩图、深度图、分割图(每个像素属于哪个物体)。
  • 机器人状态:关节角度、关节速度、关节力、末端位置和姿态(姿态 = 朝哪个方向、转了多少)。
  • 光线:3 盏定向灯。

自由度(DoF, Degrees of Freedom):机械臂能独立动的关节数。7 自由度意味着臂可以从任何角度伸到目标点,比 6 自由度灵活得多。

立体相机(stereo camera):两个并排的镜头,像人的两只眼睛。两个视角的差异可以反推距离,得到"深度图"。

深度图(depth map):和 RGB 图一样大的一张灰度图,每个像素的"亮度"=该点离相机的距离(米)。

分割图(segmentation mask):和 RGB 图一样大,每个像素填一个物体 ID。仿真器能直接吐出来,不像现实世界要用 AI 才能算。

末端位置和姿态(end-effector pose):手腕这一头在 3D 空间里的坐标(x, y, z)+ 它朝哪个方向(用四元数或欧拉角表示)。

它在干什么

每道题开始时:

  1. 把机器人手归位到固定起始姿势(不抓任何东西)。
  2. 在桌子中央生成这道题需要的物体(比如一个锅、一个锅盖)。
  3. 物体的位置每次随机扰动(防止模型死记位置)。
  4. 用户的 Agent 开始接收摄像头流和机器人状态,输出动作。

为什么这步有用

  • 桌子和机器人不变 = 所有论文都在比"同一个考场",公平。
  • 同时给 RGB / 深度 / 分割三种视觉数据 = 不同流派的方法都能用:纯像素派用 RGB、几何派用深度、有标签派用分割。
  • 不带初始抓握 = 模拟现实情况——家里的机器人不会自动握着勺子站着。

所以这一节是想说:所有 100 道题用一张同款实验台,把硬件不一致这个噪音先消掉。


2. 任务的三层结构:Task / Variation / Episode

类比

把这套结构想成"题型 → 题目 → 实测":

  • Task(题型):比如"叠积木"。
  • Variation(题目):题型下的具体版本——"叠 3 块红色积木"是一道,"叠 5 块蓝色积木"是另一道。变的通常是颜色、数量、目标物。
  • Episode(实测):同一道题目里,物体每次摆放位置都不一样——这叫一次实测。可以无限抽。

任务(Task):题型,相当于一个 Python 类。比如 StackBlocks

变种(Variation):题型下用整数索引的不同子配置。比如变种 0 = 红积木,变种 1 = 蓝积木。每个变种自带一段文字描述(比如"stack 3 red blocks"),未来给 NLP / 自然语言指令用。

片段(Episode):从某个变种随机抽出的一次"开局"。每次只换物体初始位置。

轨迹(trajectory):一次 episode 里所有时刻的"观察 + 动作"序列。论文写成 τ = [(o₁, a₁), …, (o_T, a_T)]。说人话:一段时间里"机器人看到的画面 + 它做的动作"按时间排好。

它在干什么

为啥要分三层?因为研究者对"任务"的定义吵不清。"拿苹果"和"拿香蕉"算一个任务还是两个?吵了很多年。RLBench 干脆说:

  • 这两件事属于"拿东西"这一个 Task。
  • 但是不同的 Variation。
  • 多变种放一起就能训练"听话"——给一句话指令,机器人去执行。
  • 多片段放一起就能训练"鲁棒"——同一道题每次摆得不一样,机器人都要做对。

100 道题里很多自带十几个变种,所以总变种数远超 100。

为什么这步有用

  • 一刀切:清空所有"这是不是同一个任务"的吵架。
  • 自然支持多任务、少样本、自然语言指令三个研究方向——你想测哪个,就在哪一层切分训练 / 测试就行。

所以这一节是想说:用三层抽象一次性解决了"任务到底是啥"的定义之争。


3. 自动生成无限示范:让运动规划器当"陪练"

类比

教学徒做菜,最贵的是请大厨示范。100 道菜每道演 50 遍,请大厨累死。

RLBench 的方案:在仿真里让数学算法当大厨——在每道题创建时,作者手工标好"先到这个点,再到那个点"的几个关键路标,剩下的由"运动规划器"自动算出怎么走过去。

运动规划器(motion planner):一种数学算法,输入是"机械臂现在在哪、要走到哪、桌上哪些地方有障碍",输出是一段不撞东西的关节角度序列。RLBench 用的是 OMPL(Open Motion Planning Library),开源、成熟。

路标(waypoint):3D 空间里的一个点 + 一个姿态。任务设计者先在仿真里手动放几个"必经点",规划器负责把它们连成完整轨迹。

示范(demonstration):完整的一段"专家"轨迹,让机器人模仿。

专家策略(expert policy π*):理论上"会做这道题"的最优做法。这里就是"路标 + 运动规划器"组合。

它在干什么

  1. 设计者建任务时,在仿真里手动拖几个路标("先飞到锅上方、再下降抓锅盖、再抬起来")。
  2. 调用 OMPL 把路标连成一条不撞物体的关节序列。
  3. 物体位置随机扰动后,重新算一遍——每次都是新示范。
  4. 想要 1 万条示范?跑 1 万次就好,仿真不要钱

为什么这步有用

  • 模仿学习(让 AI 模仿专家)最大的瓶颈是"哪来这么多专家数据"。RLBench 把这个瓶颈直接抹掉。
  • 后来很多重磅论文(CLIPort、PerAct、RVT、3D Diffuser Actor、Diffusion Policy 的部分变体)能爆发出来,就是因为 RLBench 提供了海量免费示范
  • 但代价:示范都是"运动规划器"风格——动作流畅但不像人手会的"摸索 + 校正"。这一点后面会有论文(如 RoboMimic)补刀。

所以这一节是想说:用"路标 + 数学规划器"造出无限示范,让模仿学习的训练数据成本降为零。


4. 任务建造工具:让别人能给题库添题

类比

Wikipedia 之所以能成今天这样,不是因为创始人写了所有词条,而是因为他们造了一个"任何人都能加词条"的编辑器。

RLBench 也是这个思路。每个任务由两个文件组成:

  • 场景文件(.ttm):用 V-REP 图形界面拖出来的 3D 场景(锅、锅盖、桌子摆好)+ 路标位置。像在 PowerPoint 里画演示文稿——拖拖拽拽,不用编程。
  • Python 文件(.py):30 行左右的代码,告诉系统"什么算成功"。比如 TakeLidOffSaucepan 这道题,只要"夹爪握着锅盖" + "锅盖被检测到在'成功区'里"两个条件同时满足就赢。

V-REP(即后来的 CoppeliaSim):一个图形化机器人仿真器,可以拖拽建场景。论文用的版本叫 V-REP。

PyRep:作者团队自己写的 Python 库,给 V-REP 套一层快速接口,让深度学习代码能高频调用。这是 RLBench 能跑起来的关键工程。

成功条件(success condition):一组判断逻辑,决定这一 episode 算不算赢。RLBench 提供了一组现成的判断模块("被夹住"、"被传感器检测到"、"两个物体重叠"等),用户像搭积木一样组合。

它在干什么

  • 设计者在 V-REP 里拖出场景。
  • 写一个 Python 类,注册"哪些物体可以抓 / 什么算成功 / 这道题有几种变种 / 描述文字是什么"。
  • 用任务校验工具自动跑 N 遍,确保运动规划器至少能成功 95%(不然这题本身有 bug)。
  • 校验通过后通过 GitHub PR 提交到主仓库。

为什么这步有用

  • 这是 RLBench 能从 100 道题持续扩展的根本——论文发布后社区源源不断加题。
  • 把"机器人任务设计"从"研究员的私房菜"变成"开放协作",类似游戏圈的 Mod 社区。
  • 同样的思路 5 年后被 Meta 的 Habitat、NVIDIA 的 Isaac Lab 等更大平台继承。

所以这一节是想说:作者不只是建了 100 道题,还把"建第 101 道题"的工具开放给所有人。


5. 首次定义机器人少样本挑战

类比

你已经会包饺子。现在请你在看 5 遍"包烧麦"演示之后,能自己包烧麦——这就叫少样本学习:人类天生擅长,机器学起来很难。

RLBench 把它做成正式比赛:

把 100 道题里 10% 拿出来当"测试卷"(meta-test),其他当"训练卷"(meta-train)。允许你在训练卷上随便用——海量示范、强化学习、什么都可以。

测试时,给你 K 段"测试卷"上某道题的演示视频(K=1、5、20 三档),你的系统要立刻能在这道题的新摆放上做对。

元训练 / 元测试(meta-train / meta-test):机器学习里"训练集 / 测试集"这一对的"上一层"——元训练里的整个任务集合是你"学经验"的地方;元测试里的任务你之前完全没见过,要快速适应。

K-shot:测试时只给你 K 个示范。1-shot 几乎是"看一眼就要会",20-shot 算很慷慨了。

少样本学习(few-shot learning):在极少示范下学会新任务的能力。当时主要在图像分类领域火过(Matching Networks、Prototypical Networks、MAML),机器人圈这是第一个大规模评测协议。

它在干什么

  • 锁定固定的 train / test 划分(公开在网站上,所有人用同一份)。
  • 报告 1-shot、5-shot、20-shot 三个数字——支持的算法谱系:循环网络派([41,42,43])、度量学习派(Matching Net、Prototypical Net)、梯度派(MAML)。
  • 随时间扩任务,叫成 v1.0 / v2.0 / v3.0,避免"以后题变了,老分数没意义"。

为什么这步有用

  • 当时图像少样本学界已经热闹了几年,机器人界一直没有可比的协议。RLBench 把"训练 80 道题、测试 10 道未见过的题"这个流程标准化了。
  • 这条路 5 年后开花结果:CLIPort、PerAct、RT-1、RT-2、OpenVLA 等都是奔"通用多任务 / 少样本机器人"去的。RLBench 是它们的早期跑分场。

所以这一节是想说:第一次给机器人圈定义了什么叫"少样本评测",开启了通用机器人这条路线。


RLBench — 方法示意:核心 pipeline
Plate Nº IIRLBench — 方法示意:核心 pipeline

关键数字(What works)

这篇论文的"成绩"不是某个算法的分数(它本身不提算法),而是"基准本身的规模"。

数字 1:100 个完全独特的手工设计任务

  • 怎么算的:作者团队人工设计、手动建场景、写代码、调路标,每道题都是从零搭出来的。
  • 对比:当时最大的同类基准 Meta-World 是 50 个任务,OpenAI Gym 机器人模块只有几个,RoboTurk 只有 3 个。
  • 生活语言:之前是题目荒,RLBench 一次性把题量翻倍——这本身就是底层基础设施工程的胜利。

数字 2:每道题自带"无限"示范

  • 怎么算的:因为运动规划器是程序,调用一次出一条示范,理论上要多少有多少。论文测试时常用 1k-10k 条。
  • 对比:RoboTurk 是众包采集,每道题只有几百条,且只覆盖 3 个任务。
  • 生活语言:从"练习题贵"变成"练习题免费"。这是后来一系列模仿学习论文能在 RLBench 上爆发的原因。

数字 3:任务长度 100-1000 时间步

  • 怎么算的:作者从 75 个任务里随机抽样,统计每条示范要多少帧才能完成。
  • 对比:OpenAI Gym 大部分任务 100 步内结束。RLBench 长任务(比如清空洗碗机)要 1000 步——动作链:开门 → 拉托盘 → 抓盘子 → 抬起 → 放外面。
  • 生活语言:RLBench 真正提供了"长时序"挑战。短任务测反应力,长任务测规划力,前者好做,后者后来才被 Diffusion Policy / VLA 系列攻破。

数字 4:任务三层结构 = Task × Variation × ∞ Episodes

  • 怎么算的:100 个 Task,每个 Task 平均若干 Variation,每个 Variation 可抽无限 Episode。
  • 对比:之前的基准只有"任务"一层,没有"题型 / 题目 / 实测"的层级。
  • 生活语言:用户能精细切分"哪些是已学过的题型 / 哪些是同题型新变种 / 哪些是同变种新摆放",研究问题更清晰。

数字 5:动作空间 8 选 1

  • 怎么算的:用户可选 8 种动作格式:绝对/相对 关节速度 / 关节位置 / 关节力矩 / 末端位姿。
  • 对比:很多基准只让你用一种。
  • 生活语言:你想做的研究是"控制层"还是"决策层"?RLBench 都让你用——做底层控制的用关节力矩,做高层规划的用末端位姿。一套基准跨多个层级

数字 6:奖励 = 完全稀疏(成功 +1,否则 0)

  • 怎么算的:作者刻意不设计"中间奖励"。
  • 对比:很多 RL 基准会给"靠近目标"等密集奖励,让算法更容易训。
  • 生活语言:稀疏奖励是 RL 的"地狱难度"——大部分时间都是 0 反馈。RLBench 选稀疏,是想测算法的"探索能力",不靠人类调奖励帮忙。代价是当时纯 RL 在很多 RLBench 任务上根本跑不动,模仿学习路线先吃饱了红利。

所以这一节是想说:这套基准的"分量"来自规模、长度、稀疏奖励、三层结构、多动作接口五个维度叠加,是一套真正"重量级"的考卷。


你应该懂的几个新词

基准(benchmark):一套统一的任务和评测协议。AI 圈所有"我比你强"的论文都得在某个基准上比。RLBench 就是机器人操作领域的一个基准。

仿真环境(simulator):用代码模拟物理世界。机器人能在仿真里摔 1 万次不报废。RLBench 用的是 V-REP(现叫 CoppeliaSim)。

运动规划器(motion planner):给定起点、终点、障碍物,自动算一条不撞东西的路径。RLBench 用 OMPL。它是无限示范的核心。

路标(waypoint):3D 空间里的一个"必经点"。任务设计者手工放几个,规划器负责连。

末端执行器(end-effector):机械臂最末端的工具,这里是夹爪。"末端位姿"指夹爪的位置和朝向。

自由度(DoF):机械臂能独立动的关节数。Franka Panda 是 7 DoF,比 6 DoF 灵活,能从更多角度伸到同一个点。

示范 / 演示(demonstration):一段"专家"完整完成任务的动作记录。模仿学习就是让模型学这种轨迹。

模仿学习(imitation learning, IL):让模型学专家的动作。给一段"看到这个画面,专家做了这个动作"的配对数据,让模型记住。

强化学习(reinforcement learning, RL):让模型自己试错。做对加分、做错扣分,反复试一万次后慢慢学会。在稀疏奖励的 RLBench 上很难直接跑通,所以早期更多用 IL。

少样本学习(few-shot learning):只给极少(1-20)示范就要学会新任务的能力。RLBench 第一次给机器人圈定义了正式的少样本协议。

多任务学习(multi-task learning):一次训一个模型,同时会做多个任务,互相借力。

稀疏奖励(sparse reward):只有"完成"才有 +1,其余时间都是 0。是 RL 的最难模式。

PyRep:作者团队自己写的 Python-V-REP 桥梁库,让仿真和深度学习代码高效通信。是 RLBench 跑得动的工程基础。

所以这一节是想说:这十几个词以后看任何机器人学习论文都会反复出现,先和"考试 / 教学徒 / 实验台"这些日常类比挂钩。


它有什么搞不定的

RLBench 不是万能的,作者也老实讲了几个硬伤:

  • 不够真:物理与渲染的 sim-to-real gap。仿真里的物体摩擦、形变、光影都比真实世界粗糙。一个在仿真里 90% 成功的策略,搬到真实 Franka Panda 上常常掉到 30%。这是 RLBench 时代的核心痛点,后续 Domain Randomization、Real2Sim 等路线都是为了缩这个差距。
  • 示范都是"机器手"风格。运动规划器生成的轨迹是平滑、最优的,不像人手那种"摸一下、校正一下"。模型学到的是"理想专家"的动作分布,遇到真实的乱糟糟世界容易抓瞎。
  • 奖励太稀疏,纯 RL 几乎跑不动。RL 在 RLBench 上"硬刚"基本不出活,得先模仿学习起步。这导致几年里 RLBench 上的论文几乎都是 IL 派的。
  • 任务多样但仍偏桌面操作。所有任务都在一张桌子上、用一个机械臂——没有移动机器人、没有双臂协作、没有人机交互。这些维度后来由别的基准(如 LIBERO、Habitat、ManiSkill)补上。

所以这一节是想说:RLBench 让"桌面单臂操作"变成可比、可复现的领域,但仿真真实度、双臂、移动操作都得后人补。


它和别的论文是什么关系

把 RLBench 放进我们读过的论文坐标系里看:

  • 和 Habitat(同年同期,dataset-eval):方向互补。Habitat 解决的是"室内导航"基准——机器人在家里走来走去找东西;RLBench 解决的是"桌面操作"基准——机器人手伸出去做事。两套合起来覆盖了"具身 AI"的两大支柱。机器人要既会走又会动手。
  • 和 Diffusion Policy / IBC(imitation 类):这些是后来在 RLBench 这套题上跑出顶尖分数的算法。没有 RLBench 这种统一题库,就没有它们的可比性。RLBench 是"考场",它们是"考生"。
  • 和 OpenVLA / VLAs / SayCan(vla / planning 类):VLA 时代的工作开始把"语言指令 + 视觉"当成机器人输入。RLBench 早期就给每个 Variation 配了文字描述,本质上预留了这个接口——只是 2019 年还没有大模型来用。后来 RT-2、OpenVLA 等都把 RLBench 当跑分场之一。
  • 和 GAIL(imitation foundation):GAIL 是模仿学习的算法范式(用对抗训练学专家分布),RLBench 给它提供"用什么数据来学"。两者是"算法 ↔ 数据"的关系。

简单类比:RLBench 像高考的命题委员会,Diffusion Policy / OpenVLA 这些是来考试的学生。命题委员会本身不当学霸,但没有它就没有"全国卷之争"。

所以这一节是想说:RLBench 是后续一大批操作论文得以横向比较的基础设施,是机器人圈的 ImageNet 雏形之一。


我建议这样读这篇

零基础读者建议这样走,大约 30-45 分钟:

  1. 看 Figure 1 那张 24 任务拼图(2 分钟):把 100 道题的画风感受一下。从"开门"到"摆国际象棋"再到"清空洗碗机",体会跨度。
  2. 跳到 Section IV-B "Tasks, Variations & Episodes"(5 分钟):把三层结构搞清楚。其余内容都建立在这上面。
  3. 读 Section IV-D + IV-E "Demonstrations + Task Builder"(10 分钟):明白"运动规划器 + 路标"为什么能造出无限示范——这是 RLBench 影响力的根本。
  4. 跳到 Section V "Few-Shot Challenge"(10 分钟):理解 K-shot 协议是怎么定义的,这是后来一大类论文的评测口径
  5. 跳过引言里的相关工作综述(除非你想了解 2019 年前的机器人基准史):相关工作非常密但和现在已经过时。
  6. 看 Figure 6 那 30 行 Python 代码(5 分钟):感受"加一道新题原来这么简单"——这是 RLBench 能持续扩展的工程关键。

读完这 6 步你就能在和别人讨论机器人基准时说出 RLBench 的核心定位、三层结构、少样本协议。

所以这一节是想说:精华在三层结构 + 无限示范 + 少样本协议三处,相关工作和场景细节可以略读。


一些好奇心问答(FAQ)

Q1:100 道题都是什么样的?

涵盖从"伸手碰目标"(最简单)到"清空洗碗机"(要 1000 步、多步骤)。中间有摆水果、插积木、按下按钮、开门、抓螺丝刀、转水龙头、堆 6 块积木金字塔、设置棋盘等。你可以在论文配套网站 sites.google.com/view/rlbench 看视频。

Q2:能不能跑在我自己电脑上?

能。RLBench + V-REP + PyRep 都是开源的。普通 CPU 就能跑(不像训神经网络要 GPU),但渲染图像的速度可能不快。如果只是收集数据,一台普通电脑跑一晚上能采几千条示范。训练神经网络的话才需要 GPU。

Q3:为什么用 V-REP 不用 MuJoCo / PyBullet?

作者解释:MuJoCo 和 PyBullet 是物理引擎,不是机器人仿真器。建一个带相机、灯光、可拖拽路标、IK 求解器的完整场景,在 V-REP 里几分钟就能拖出来,在 MuJoCo 里要写很多 XML。后来 MuJoCo 也加强了机器人方向(如 MuJoCo Menagerie),但 2019 年时 V-REP 工具链更成熟。

Q4:示范都是运动规划器跑出来的,会不会"太完美"导致模型学不到真实噪声?

会。这是 RLBench 的已知短板。后来一些论文用更接近人类的示范——比如 RoboMimic 提供人类遥操作数据,模型在这上面训练后泛化更好。RLBench 的示范适合做"基础动作模仿"训练,不适合做"鲁棒性"训练。

Q5:100 个任务里 RL 算法能解几道?

2019 年发表时,纯 RL 用稀疏奖励基本只能解最简单几道(比如伸手碰目标)。绝大多数任务必须靠模仿学习起步、或加上密集奖励。这一现象推动了后续"模仿 + RL 混合"路线的兴起。

Q6:少样本挑战的 v1.0 划分具体哪 10 道?

论文里没列具体清单(让网站去维护,因为版本会更新)。重点是**"划分公开、所有人用同一份"**——这个原则比具体哪 10 道更重要。

Q7:RLBench 和 Meta-World 谁赢了?

两者方向不同:RLBench 偏"操作种类多 + 视觉为主 + 含长任务";Meta-World 偏"机械任务结构清晰 + 强 RL 友好"。后来 Meta-World 在 RL 圈用得多,RLBench 在视觉操作 / 模仿学习 / VLA 圈用得多。可以理解为两个并存的标准,覆盖不同子领域。

Q8:现在(2026 年)还有人用 RLBench 吗?

用,但不是唯一选择。CLIPort、PerAct、RVT、3D Diffuser Actor 这一系列经典论文都在 RLBench 上跑分,所以新论文为了和它们比仍会用 RLBench。但同时 LIBERO、ManiSkill、Robosuite、Habitat 等新基准也在分流。RLBench 现在更像是"必跑之一"而不是"唯一基准"。

所以这一节是想说:RLBench 是机器人操作圈的"老大哥基准",可用、可复现、有传承,但不再唯一。


如果你想再深入

按"前传 → 同期对手 → 用 RLBench 跑出名的论文 → 后继基准"四类排:

  1. 前传:PyRep(James 等,2019) — RLBench 的工程基础,论文短,看完能理解 V-REP 怎么和 Python 高效通信。
  2. 同期对手:Meta-World(Yu 等,2019) — 同年的多任务 / 元学习基准,方向相近。读完能看出"为啥两套基准没有互相吃掉对方"——它们做了不同的取舍。
  3. 用 RLBench 跑出名:CLIPort / PerAct / RVT / 3D Diffuser Actor — 这些是 2021-2023 年的代表作,把 RLBench 上的成绩从"勉强能做"拉到"基本能解"。读它们能直观看到 RLBench 这个"考场"的演化。
  4. 后继基准:LIBERO(2023) — 专门为"语言指令 + 长任务 + 持续学习"设计的下一代操作基准。可以看作 RLBench 思路 + VLA 时代需求的更新版。
  5. 后继基准:ManiSkill(2021 起) — 用 SAPIEN 仿真器的同类基准,强调更真实的物理和更大规模并行采样。
  6. 延伸方向:Habitat(同年) — 不在桌面而在室内导航。把 Habitat + RLBench 一起读,能看到 2019 年具身 AI 基础设施同时在两个方向铺路。

所以这一节是想说:把 RLBench + Meta-World + CLIPort/PerAct + LIBERO 这一串串起来读,能看到机器人操作基准从 2019 到 2026 的整条演化线。


最后一个画面

一个 Franka Panda 机械臂,固定在一张木桌上。桌上轮换出现 100 种道具:锅、积木、棋盘、洗碗机、水壶、螺丝刀……每一种都被仿真生成 1000 次,每一次位置都不一样。

一个研究员坐在电脑前,敲了 5 行 Python:

env = Environment(...)
task = env.sample_task()
demos = task.get_demos(2)

屏幕上跳出两段示范视频。他保存下来,去训他的新算法。

这就是 RLBench 想做到的:"让机器人圈像 ImageNet 之于视觉圈那样,有一套谁都能用的、不要钱的、跑得快的、覆盖广的题库。"

虽然它没解决任何具体的算法问题,但它解决了"算法之间到底谁强"这个元问题。这种工作不性感,但每个领域真正起飞之前都需要有人来做。

所以最后一节是想说:RLBench 是 2019 年机器人操作领域那个"看起来不性感、但所有后来的论文都在它身上踩着才能起飞"的基础设施。

引用本笔记 / Cite this note
BibTeX
@online{eai_rlbench_2026,
  title       = {(readable note) RLBench: The Robot Learning Benchmark & Learning Environment},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2019 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/rlbench/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim