Datasets & Benchmarks · Plate Nº 27

RLBench: The Robot Learning Benchmark & Learning Environment

22 min read · 7554 字 · ⭐⭐ · auto 摘要

#vision #dataset

这是一份给"完全没接触过机器人 / AI"的读者看的精读笔记。语言尽量像聊天，公式和术语全部翻成人话。

一句话讲什么（TL;DR）

给机器人手臂出了一套 100 道题的"统考卷"，从此大家都做同一套题，第一次能公平比谁更厉害。

所以这一节是想说：这篇论文做的是一套"统一考卷"，不是新算法。

这是个什么场景

想象你和朋友都说自己厨艺好。你晒一张番茄炒蛋，他晒一份红烧肉，菜不一样、用的锅不一样、连"好吃"的标准都不一样——你们怎么比？

2019 年的机器人研究圈就是这副样子：

北京实验室让机器人学"开门"，写论文说成功率 85%。上海实验室让机器人学"叠杯子"，写论文说成功率 92%。你想问：到底哪家方法更强？

答不出来。因为每家：

用的机器人不一样（这家是 UR5，那家是 Sawyer）
摆的桌子不一样（这家有摄像头在头顶，那家在手腕）
出的题不一样（开门 vs 叠杯子，根本没法比）
评分标准不一样（这家算"碰到了就算赢"，那家要求"完全闭合"）

就像每个学校都自己出高考卷、自己阅卷，然后宣布"我们学校理科满分率最高"。没有统一卷子，所有"我比你强"都是空话。

更糟的是：算法被偷偷"为题目量身定做"。如果一个方法在某个难任务上不行，研究者就只报告它在简单任务上的分数。读者根本看不出来。

RLBench 想做的事，是给机器人圈造一场"高考"：

100 道全国统一题
同一种机器人手臂（Franka Panda 7 自由度）
同一种摄像头布置（一个头顶相机 + 一个手腕相机）
同一种评分（任务完成 +1 分，没完成 0 分）
同一种数据接口（一行 Python 代码就能取题）

只要大家都用这套，第一次能光明正大说"我的方法比你强 5 个点"。

所以这一节是想说：RLBench 要做机器人圈的"普通高考"——一套谁都得用的统一卷子。

之前的人怎么做的，为什么不够好

OpenAI Gym / DeepMind Control Suite：游戏型基准，比如让虚拟人形走路、平衡杆。问题是太抽象——和真实机器人在桌上抓东西完全不像。在这种基准上跑得好的算法，搬到真实机器人就崩。
OpenAI Gym 里的少数机器人任务：太简单，几个抓取就完事，没有长链条任务（比如"开烤箱→把托盘放进去"）。
Amazon Robotics Challenge / RoboCup@Home：是真正的机器人比赛，但每年只搞一次，需要实体场地，普通实验室根本复现不了。没法当日常评测用。
RoboTurk：用众包让人类远程操作机器人录数据，但只有 3 个任务——多样性根本不够。
Meta-World（同期对手）：也是 19 年提出的多任务基准，方向相近，但当时文档还没齐，定位不清。
大家各自造任务：最常见的做法。每篇论文设计自己的几个抓取任务、自己的奖励函数。结果就是上面说的"没法横向比较"。

所以这一节是想说：之前要么是过家家级别的玩具任务、要么是一年一次的大赛、要么是各家自造，没有"日常用、能复现、覆盖广"的统一题库。

这篇论文的新想法

用一套带"任务建造工具"的仿真环境，造出 100 个手工设计的真实操作任务，每个任务能自动生成无限示范数据；并且首次定义"机器人少样本挑战"作为这套基准的最高难度赛道。

听起来朴素，但当时没人愿意花这个力气把"100 个任务 + 无限示范 + 共享接口 + 难度分层 + 工具链"全做齐。

所以这一节是想说：核心创新是工程"狠"——把一个分散领域真正缺的基础设施一次性铺平。

它分几步做的（方法）

把这套"机器人高考"做出来，作者其实在干 5 件事——就像办一场高考要准备的东西：考场、题型、答题示范、出题工具、加试赛道。一件件来：

统一仿真场景（搭考场）
任务三层结构（定义"题型 / 题目 / 实测"）
自动生成示范（请数学算法当陪练）
任务建造工具（让别人也能加题）
少样本挑战（设一条加试赛道）

1. 统一仿真场景：所有 100 道题共用一张桌子

类比

想象一个大学物理实验室。所有实验都在同一张实验台上做：力学题、光学题、电学题——桌子不变、灯不变、椅子不变，只换桌上的实验器材。

RLBench 就是这种统一实验台：

机器人：一台 Franka Emika Panda 7 自由度机械臂，固定在一张木桌上。
摄像头：一个头顶立体相机（双目，能算深度）+ 一个绑在手腕上的单目相机。
数据：每帧返回 RGB 彩图、深度图、分割图（每个像素属于哪个物体）。
机器人状态：关节角度、关节速度、关节力、末端位置和姿态（姿态 = 朝哪个方向、转了多少）。
光线：3 盏定向灯。

自由度（DoF, Degrees of Freedom）：机械臂能独立动的关节数。7 自由度意味着臂可以从任何角度伸到目标点，比 6 自由度灵活得多。

立体相机（stereo camera）：两个并排的镜头，像人的两只眼睛。两个视角的差异可以反推距离，得到"深度图"。

深度图（depth map）：和 RGB 图一样大的一张灰度图，每个像素的"亮度"=该点离相机的距离（米）。

分割图（segmentation mask）：和 RGB 图一样大，每个像素填一个物体 ID。仿真器能直接吐出来，不像现实世界要用 AI 才能算。

末端位置和姿态（end-effector pose）：手腕这一头在 3D 空间里的坐标（x, y, z）+ 它朝哪个方向（用四元数或欧拉角表示）。

它在干什么

每道题开始时：

把机器人手归位到固定起始姿势（不抓任何东西）。
在桌子中央生成这道题需要的物体（比如一个锅、一个锅盖）。
物体的位置每次随机扰动（防止模型死记位置）。
用户的 Agent 开始接收摄像头流和机器人状态，输出动作。

为什么这步有用

桌子和机器人不变 = 所有论文都在比"同一个考场"，公平。
同时给 RGB / 深度 / 分割三种视觉数据 = 不同流派的方法都能用：纯像素派用 RGB、几何派用深度、有标签派用分割。
不带初始抓握 = 模拟现实情况——家里的机器人不会自动握着勺子站着。

所以这一节是想说：所有 100 道题用一张同款实验台，把硬件不一致这个噪音先消掉。

2. 任务的三层结构：Task / Variation / Episode

类比

把这套结构想成"题型 → 题目 → 实测"：

Task（题型）：比如"叠积木"。
Variation（题目）：题型下的具体版本——"叠 3 块红色积木"是一道，"叠 5 块蓝色积木"是另一道。变的通常是颜色、数量、目标物。
Episode（实测）：同一道题目里，物体每次摆放位置都不一样——这叫一次实测。可以无限抽。

任务（Task）：题型，相当于一个 Python 类。比如 StackBlocks。

变种（Variation）：题型下用整数索引的不同子配置。比如变种 0 = 红积木，变种 1 = 蓝积木。每个变种自带一段文字描述（比如"stack 3 red blocks"），未来给 NLP / 自然语言指令用。

片段（Episode）：从某个变种随机抽出的一次"开局"。每次只换物体初始位置。

轨迹（trajectory）：一次 episode 里所有时刻的"观察 + 动作"序列。论文写成 τ = [(o₁, a₁), …, (o_T, a_T)]。说人话：一段时间里"机器人看到的画面 + 它做的动作"按时间排好。

它在干什么

为啥要分三层？因为研究者对"任务"的定义吵不清。"拿苹果"和"拿香蕉"算一个任务还是两个？吵了很多年。RLBench 干脆说：

这两件事属于"拿东西"这一个 Task。
但是不同的 Variation。
多变种放一起就能训练"听话"——给一句话指令，机器人去执行。
多片段放一起就能训练"鲁棒"——同一道题每次摆得不一样，机器人都要做对。

100 道题里很多自带十几个变种，所以总变种数远超 100。

为什么这步有用

一刀切：清空所有"这是不是同一个任务"的吵架。
自然支持多任务、少样本、自然语言指令三个研究方向——你想测哪个，就在哪一层切分训练 / 测试就行。

所以这一节是想说：用三层抽象一次性解决了"任务到底是啥"的定义之争。

3. 自动生成无限示范：让运动规划器当"陪练"

类比

教学徒做菜，最贵的是请大厨示范。100 道菜每道演 50 遍，请大厨累死。

RLBench 的方案：在仿真里让数学算法当大厨——在每道题创建时，作者手工标好"先到这个点，再到那个点"的几个关键路标，剩下的由"运动规划器"自动算出怎么走过去。

运动规划器（motion planner）：一种数学算法，输入是"机械臂现在在哪、要走到哪、桌上哪些地方有障碍"，输出是一段不撞东西的关节角度序列。RLBench 用的是 OMPL（Open Motion Planning Library），开源、成熟。

路标（waypoint）：3D 空间里的一个点 + 一个姿态。任务设计者先在仿真里手动放几个"必经点"，规划器负责把它们连成完整轨迹。

示范（demonstration）：完整的一段"专家"轨迹，让机器人模仿。

专家策略（expert policy π*）：理论上"会做这道题"的最优做法。这里就是"路标 + 运动规划器"组合。

它在干什么

设计者建任务时，在仿真里手动拖几个路标（"先飞到锅上方、再下降抓锅盖、再抬起来"）。
调用 OMPL 把路标连成一条不撞物体的关节序列。
物体位置随机扰动后，重新算一遍——每次都是新示范。
想要 1 万条示范？跑 1 万次就好，仿真不要钱。

为什么这步有用

模仿学习（让 AI 模仿专家）最大的瓶颈是"哪来这么多专家数据"。RLBench 把这个瓶颈直接抹掉。
后来很多重磅论文（CLIPort、PerAct、RVT、3D Diffuser Actor、Diffusion Policy 的部分变体）能爆发出来，就是因为 RLBench 提供了海量免费示范。
但代价：示范都是"运动规划器"风格——动作流畅但不像人手会的"摸索 + 校正"。这一点后面会有论文（如 RoboMimic）补刀。

所以这一节是想说：用"路标 + 数学规划器"造出无限示范，让模仿学习的训练数据成本降为零。

4. 任务建造工具：让别人能给题库添题

类比

Wikipedia 之所以能成今天这样，不是因为创始人写了所有词条，而是因为他们造了一个"任何人都能加词条"的编辑器。

RLBench 也是这个思路。每个任务由两个文件组成：

场景文件（.ttm）：用 V-REP 图形界面拖出来的 3D 场景（锅、锅盖、桌子摆好）+ 路标位置。像在 PowerPoint 里画演示文稿——拖拖拽拽，不用编程。
Python 文件（.py）：30 行左右的代码，告诉系统"什么算成功"。比如 TakeLidOffSaucepan 这道题，只要"夹爪握着锅盖" + "锅盖被检测到在'成功区'里"两个条件同时满足就赢。

V-REP（即后来的 CoppeliaSim）：一个图形化机器人仿真器，可以拖拽建场景。论文用的版本叫 V-REP。

PyRep：作者团队自己写的 Python 库，给 V-REP 套一层快速接口，让深度学习代码能高频调用。这是 RLBench 能跑起来的关键工程。

成功条件（success condition）：一组判断逻辑，决定这一 episode 算不算赢。RLBench 提供了一组现成的判断模块（"被夹住"、"被传感器检测到"、"两个物体重叠"等），用户像搭积木一样组合。

它在干什么

设计者在 V-REP 里拖出场景。
写一个 Python 类，注册"哪些物体可以抓 / 什么算成功 / 这道题有几种变种 / 描述文字是什么"。
用任务校验工具自动跑 N 遍，确保运动规划器至少能成功 95%（不然这题本身有 bug）。
校验通过后通过 GitHub PR 提交到主仓库。

为什么这步有用

这是 RLBench 能从 100 道题持续扩展的根本——论文发布后社区源源不断加题。
把"机器人任务设计"从"研究员的私房菜"变成"开放协作"，类似游戏圈的 Mod 社区。
同样的思路 5 年后被 Meta 的 Habitat、NVIDIA 的 Isaac Lab 等更大平台继承。

所以这一节是想说：作者不只是建了 100 道题，还把"建第 101 道题"的工具开放给所有人。

5. 首次定义机器人少样本挑战

类比

你已经会包饺子。现在请你在看 5 遍"包烧麦"演示之后，能自己包烧麦——这就叫少样本学习：人类天生擅长，机器学起来很难。

RLBench 把它做成正式比赛：

把 100 道题里 10% 拿出来当"测试卷"（meta-test），其他当"训练卷"（meta-train）。允许你在训练卷上随便用——海量示范、强化学习、什么都可以。

测试时，给你 K 段"测试卷"上某道题的演示视频（K=1、5、20 三档），你的系统要立刻能在这道题的新摆放上做对。

元训练 / 元测试（meta-train / meta-test）：机器学习里"训练集 / 测试集"这一对的"上一层"——元训练里的整个任务集合是你"学经验"的地方；元测试里的任务你之前完全没见过，要快速适应。

K-shot：测试时只给你 K 个示范。1-shot 几乎是"看一眼就要会"，20-shot 算很慷慨了。

少样本学习（few-shot learning）：在极少示范下学会新任务的能力。当时主要在图像分类领域火过（Matching Networks、Prototypical Networks、MAML），机器人圈这是第一个大规模评测协议。

它在干什么

锁定固定的 train / test 划分（公开在网站上，所有人用同一份）。
报告 1-shot、5-shot、20-shot 三个数字——支持的算法谱系：循环网络派（[41,42,43]）、度量学习派（Matching Net、Prototypical Net）、梯度派（MAML）。
随时间扩任务，叫成 v1.0 / v2.0 / v3.0，避免"以后题变了，老分数没意义"。

为什么这步有用

当时图像少样本学界已经热闹了几年，机器人界一直没有可比的协议。RLBench 把"训练 80 道题、测试 10 道未见过的题"这个流程标准化了。
这条路 5 年后开花结果：CLIPort、PerAct、RT-1、RT-2、OpenVLA 等都是奔"通用多任务 / 少样本机器人"去的。RLBench 是它们的早期跑分场。

所以这一节是想说：第一次给机器人圈定义了什么叫"少样本评测"，开启了通用机器人这条路线。

关键数字（What works）

这篇论文的"成绩"不是某个算法的分数（它本身不提算法），而是"基准本身的规模"。

数字 1：100 个完全独特的手工设计任务

怎么算的：作者团队人工设计、手动建场景、写代码、调路标，每道题都是从零搭出来的。
对比：当时最大的同类基准 Meta-World 是 50 个任务，OpenAI Gym 机器人模块只有几个，RoboTurk 只有 3 个。
生活语言：之前是题目荒，RLBench 一次性把题量翻倍——这本身就是底层基础设施工程的胜利。

数字 2：每道题自带"无限"示范

怎么算的：因为运动规划器是程序，调用一次出一条示范，理论上要多少有多少。论文测试时常用 1k-10k 条。
对比：RoboTurk 是众包采集，每道题只有几百条，且只覆盖 3 个任务。
生活语言：从"练习题贵"变成"练习题免费"。这是后来一系列模仿学习论文能在 RLBench 上爆发的原因。

数字 3：任务长度 100-1000 时间步

怎么算的：作者从 75 个任务里随机抽样，统计每条示范要多少帧才能完成。
对比：OpenAI Gym 大部分任务 100 步内结束。RLBench 长任务（比如清空洗碗机）要 1000 步——动作链：开门 → 拉托盘 → 抓盘子 → 抬起 → 放外面。
生活语言：RLBench 真正提供了"长时序"挑战。短任务测反应力，长任务测规划力，前者好做，后者后来才被 Diffusion Policy / VLA 系列攻破。

数字 4：任务三层结构 = Task × Variation × ∞ Episodes

怎么算的：100 个 Task，每个 Task 平均若干 Variation，每个 Variation 可抽无限 Episode。
对比：之前的基准只有"任务"一层，没有"题型 / 题目 / 实测"的层级。
生活语言：用户能精细切分"哪些是已学过的题型 / 哪些是同题型新变种 / 哪些是同变种新摆放"，研究问题更清晰。

数字 5：动作空间 8 选 1

怎么算的：用户可选 8 种动作格式：绝对/相对关节速度 / 关节位置 / 关节力矩 / 末端位姿。
对比：很多基准只让你用一种。
生活语言：你想做的研究是"控制层"还是"决策层"？RLBench 都让你用——做底层控制的用关节力矩，做高层规划的用末端位姿。一套基准跨多个层级。

数字 6：奖励 = 完全稀疏（成功 +1，否则 0）

怎么算的：作者刻意不设计"中间奖励"。
对比：很多 RL 基准会给"靠近目标"等密集奖励，让算法更容易训。
生活语言：稀疏奖励是 RL 的"地狱难度"——大部分时间都是 0 反馈。RLBench 选稀疏，是想测算法的"探索能力"，不靠人类调奖励帮忙。代价是当时纯 RL 在很多 RLBench 任务上根本跑不动，模仿学习路线先吃饱了红利。

所以这一节是想说：这套基准的"分量"来自规模、长度、稀疏奖励、三层结构、多动作接口五个维度叠加，是一套真正"重量级"的考卷。

你应该懂的几个新词

基准（benchmark）：一套统一的任务和评测协议。AI 圈所有"我比你强"的论文都得在某个基准上比。RLBench 就是机器人操作领域的一个基准。

仿真环境（simulator）：用代码模拟物理世界。机器人能在仿真里摔 1 万次不报废。RLBench 用的是 V-REP（现叫 CoppeliaSim）。

运动规划器（motion planner）：给定起点、终点、障碍物，自动算一条不撞东西的路径。RLBench 用 OMPL。它是无限示范的核心。

路标（waypoint）：3D 空间里的一个"必经点"。任务设计者手工放几个，规划器负责连。

末端执行器（end-effector）：机械臂最末端的工具，这里是夹爪。"末端位姿"指夹爪的位置和朝向。

自由度（DoF）：机械臂能独立动的关节数。Franka Panda 是 7 DoF，比 6 DoF 灵活，能从更多角度伸到同一个点。

示范 / 演示（demonstration）：一段"专家"完整完成任务的动作记录。模仿学习就是让模型学这种轨迹。

模仿学习（imitation learning, IL）：让模型学专家的动作。给一段"看到这个画面，专家做了这个动作"的配对数据，让模型记住。

强化学习（reinforcement learning, RL）：让模型自己试错。做对加分、做错扣分，反复试一万次后慢慢学会。在稀疏奖励的 RLBench 上很难直接跑通，所以早期更多用 IL。

少样本学习（few-shot learning）：只给极少（1-20）示范就要学会新任务的能力。RLBench 第一次给机器人圈定义了正式的少样本协议。

多任务学习（multi-task learning）：一次训一个模型，同时会做多个任务，互相借力。

稀疏奖励（sparse reward）：只有"完成"才有 +1，其余时间都是 0。是 RL 的最难模式。

PyRep：作者团队自己写的 Python-V-REP 桥梁库，让仿真和深度学习代码高效通信。是 RLBench 跑得动的工程基础。

所以这一节是想说：这十几个词以后看任何机器人学习论文都会反复出现，先和"考试 / 教学徒 / 实验台"这些日常类比挂钩。

它有什么搞不定的

RLBench 不是万能的，作者也老实讲了几个硬伤：

不够真：物理与渲染的 sim-to-real gap。仿真里的物体摩擦、形变、光影都比真实世界粗糙。一个在仿真里 90% 成功的策略，搬到真实 Franka Panda 上常常掉到 30%。这是 RLBench 时代的核心痛点，后续 Domain Randomization、Real2Sim 等路线都是为了缩这个差距。
示范都是"机器手"风格。运动规划器生成的轨迹是平滑、最优的，不像人手那种"摸一下、校正一下"。模型学到的是"理想专家"的动作分布，遇到真实的乱糟糟世界容易抓瞎。
奖励太稀疏，纯 RL 几乎跑不动。RL 在 RLBench 上"硬刚"基本不出活，得先模仿学习起步。这导致几年里 RLBench 上的论文几乎都是 IL 派的。
任务多样但仍偏桌面操作。所有任务都在一张桌子上、用一个机械臂——没有移动机器人、没有双臂协作、没有人机交互。这些维度后来由别的基准（如 LIBERO、Habitat、ManiSkill）补上。

所以这一节是想说：RLBench 让"桌面单臂操作"变成可比、可复现的领域，但仿真真实度、双臂、移动操作都得后人补。

它和别的论文是什么关系

把 RLBench 放进我们读过的论文坐标系里看：

和 Habitat（同年同期，dataset-eval）：方向互补。Habitat 解决的是"室内导航"基准——机器人在家里走来走去找东西；RLBench 解决的是"桌面操作"基准——机器人手伸出去做事。两套合起来覆盖了"具身 AI"的两大支柱。机器人要既会走又会动手。
和 Diffusion Policy / IBC（imitation 类）：这些是后来在 RLBench 这套题上跑出顶尖分数的算法。没有 RLBench 这种统一题库，就没有它们的可比性。RLBench 是"考场"，它们是"考生"。
和 OpenVLA / VLAs / SayCan（vla / planning 类）：VLA 时代的工作开始把"语言指令 + 视觉"当成机器人输入。RLBench 早期就给每个 Variation 配了文字描述，本质上预留了这个接口——只是 2019 年还没有大模型来用。后来 RT-2、OpenVLA 等都把 RLBench 当跑分场之一。
和 GAIL（imitation foundation）：GAIL 是模仿学习的算法范式（用对抗训练学专家分布），RLBench 给它提供"用什么数据来学"。两者是"算法 ↔ 数据"的关系。

简单类比：RLBench 像高考的命题委员会，Diffusion Policy / OpenVLA 这些是来考试的学生。命题委员会本身不当学霸，但没有它就没有"全国卷之争"。

所以这一节是想说：RLBench 是后续一大批操作论文得以横向比较的基础设施，是机器人圈的 ImageNet 雏形之一。

我建议这样读这篇

零基础读者建议这样走，大约 30-45 分钟：

看 Figure 1 那张 24 任务拼图（2 分钟）：把 100 道题的画风感受一下。从"开门"到"摆国际象棋"再到"清空洗碗机"，体会跨度。
跳到 Section IV-B "Tasks, Variations & Episodes"（5 分钟）：把三层结构搞清楚。其余内容都建立在这上面。
读 Section IV-D + IV-E "Demonstrations + Task Builder"（10 分钟）：明白"运动规划器 + 路标"为什么能造出无限示范——这是 RLBench 影响力的根本。
跳到 Section V "Few-Shot Challenge"（10 分钟）：理解 K-shot 协议是怎么定义的，这是后来一大类论文的评测口径。
跳过引言里的相关工作综述（除非你想了解 2019 年前的机器人基准史）：相关工作非常密但和现在已经过时。
看 Figure 6 那 30 行 Python 代码（5 分钟）：感受"加一道新题原来这么简单"——这是 RLBench 能持续扩展的工程关键。

读完这 6 步你就能在和别人讨论机器人基准时说出 RLBench 的核心定位、三层结构、少样本协议。

所以这一节是想说：精华在三层结构 + 无限示范 + 少样本协议三处，相关工作和场景细节可以略读。

一些好奇心问答（FAQ）

Q1：100 道题都是什么样的？

涵盖从"伸手碰目标"（最简单）到"清空洗碗机"（要 1000 步、多步骤）。中间有摆水果、插积木、按下按钮、开门、抓螺丝刀、转水龙头、堆 6 块积木金字塔、设置棋盘等。你可以在论文配套网站 sites.google.com/view/rlbench 看视频。

Q2：能不能跑在我自己电脑上？

能。RLBench + V-REP + PyRep 都是开源的。普通 CPU 就能跑（不像训神经网络要 GPU），但渲染图像的速度可能不快。如果只是收集数据，一台普通电脑跑一晚上能采几千条示范。训练神经网络的话才需要 GPU。

Q3：为什么用 V-REP 不用 MuJoCo / PyBullet？

作者解释：MuJoCo 和 PyBullet 是物理引擎，不是机器人仿真器。建一个带相机、灯光、可拖拽路标、IK 求解器的完整场景，在 V-REP 里几分钟就能拖出来，在 MuJoCo 里要写很多 XML。后来 MuJoCo 也加强了机器人方向（如 MuJoCo Menagerie），但 2019 年时 V-REP 工具链更成熟。

Q4：示范都是运动规划器跑出来的，会不会"太完美"导致模型学不到真实噪声？

会。这是 RLBench 的已知短板。后来一些论文用更接近人类的示范——比如 RoboMimic 提供人类遥操作数据，模型在这上面训练后泛化更好。RLBench 的示范适合做"基础动作模仿"训练，不适合做"鲁棒性"训练。

Q5：100 个任务里 RL 算法能解几道？

2019 年发表时，纯 RL 用稀疏奖励基本只能解最简单几道（比如伸手碰目标）。绝大多数任务必须靠模仿学习起步、或加上密集奖励。这一现象推动了后续"模仿 + RL 混合"路线的兴起。

Q6：少样本挑战的 v1.0 划分具体哪 10 道？

论文里没列具体清单（让网站去维护，因为版本会更新）。重点是**"划分公开、所有人用同一份"**——这个原则比具体哪 10 道更重要。

Q7：RLBench 和 Meta-World 谁赢了？

两者方向不同：RLBench 偏"操作种类多 + 视觉为主 + 含长任务"；Meta-World 偏"机械任务结构清晰 + 强 RL 友好"。后来 Meta-World 在 RL 圈用得多，RLBench 在视觉操作 / 模仿学习 / VLA 圈用得多。可以理解为两个并存的标准，覆盖不同子领域。

Q8：现在（2026 年）还有人用 RLBench 吗？

用，但不是唯一选择。CLIPort、PerAct、RVT、3D Diffuser Actor 这一系列经典论文都在 RLBench 上跑分，所以新论文为了和它们比仍会用 RLBench。但同时 LIBERO、ManiSkill、Robosuite、Habitat 等新基准也在分流。RLBench 现在更像是"必跑之一"而不是"唯一基准"。

所以这一节是想说：RLBench 是机器人操作圈的"老大哥基准"，可用、可复现、有传承，但不再唯一。

如果你想再深入

按"前传 → 同期对手 → 用 RLBench 跑出名的论文 → 后继基准"四类排：

前传：PyRep（James 等，2019） — RLBench 的工程基础，论文短，看完能理解 V-REP 怎么和 Python 高效通信。
同期对手：Meta-World（Yu 等，2019） — 同年的多任务 / 元学习基准，方向相近。读完能看出"为啥两套基准没有互相吃掉对方"——它们做了不同的取舍。
用 RLBench 跑出名：CLIPort / PerAct / RVT / 3D Diffuser Actor — 这些是 2021-2023 年的代表作，把 RLBench 上的成绩从"勉强能做"拉到"基本能解"。读它们能直观看到 RLBench 这个"考场"的演化。
后继基准：LIBERO（2023） — 专门为"语言指令 + 长任务 + 持续学习"设计的下一代操作基准。可以看作 RLBench 思路 + VLA 时代需求的更新版。
后继基准：ManiSkill（2021 起） — 用 SAPIEN 仿真器的同类基准，强调更真实的物理和更大规模并行采样。
延伸方向：Habitat（同年） — 不在桌面而在室内导航。把 Habitat + RLBench 一起读，能看到 2019 年具身 AI 基础设施同时在两个方向铺路。

所以这一节是想说：把 RLBench + Meta-World + CLIPort/PerAct + LIBERO 这一串串起来读，能看到机器人操作基准从 2019 到 2026 的整条演化线。

最后一个画面

一个 Franka Panda 机械臂，固定在一张木桌上。桌上轮换出现 100 种道具：锅、积木、棋盘、洗碗机、水壶、螺丝刀……每一种都被仿真生成 1000 次，每一次位置都不一样。

一个研究员坐在电脑前，敲了 5 行 Python：
env = Environment(...)
task = env.sample_task()
demos = task.get_demos(2)
屏幕上跳出两段示范视频。他保存下来，去训他的新算法。

这就是 RLBench 想做到的："让机器人圈像 ImageNet 之于视觉圈那样，有一套谁都能用的、不要钱的、跑得快的、覆盖广的题库。"

虽然它没解决任何具体的算法问题，但它解决了"算法之间到底谁强"这个元问题。这种工作不性感，但每个领域真正起飞之前都需要有人来做。

所以最后一节是想说：RLBench 是 2019 年机器人操作领域那个"看起来不性感、但所有后来的论文都在它身上踩着才能起飞"的基础设施。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_rlbench_2026,
  title       = {(readable note) RLBench: The Robot Learning Benchmark & Learning Environment},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2019 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/rlbench/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)