RLBench: The Robot Learning Benchmark & Learning Environment
这是一份给"完全没接触过机器人 / AI"的读者看的精读笔记。语言尽量像聊天,公式和术语全部翻成人话。
一句话讲什么(TL;DR)
给机器人手臂出了一套 100 道题的"统考卷",从此大家都做同一套题,第一次能公平比谁更厉害。
所以这一节是想说:这篇论文做的是一套"统一考卷",不是新算法。
这是个什么场景
想象你和朋友都说自己厨艺好。你晒一张番茄炒蛋,他晒一份红烧肉,菜不一样、用的锅不一样、连"好吃"的标准都不一样——你们怎么比?
2019 年的机器人研究圈就是这副样子:
北京实验室让机器人学"开门",写论文说成功率 85%。 上海实验室让机器人学"叠杯子",写论文说成功率 92%。 你想问:到底哪家方法更强?
答不出来。因为每家:
- 用的机器人不一样(这家是 UR5,那家是 Sawyer)
- 摆的桌子不一样(这家有摄像头在头顶,那家在手腕)
- 出的题不一样(开门 vs 叠杯子,根本没法比)
- 评分标准不一样(这家算"碰到了就算赢",那家要求"完全闭合")
就像每个学校都自己出高考卷、自己阅卷,然后宣布"我们学校理科满分率最高"。没有统一卷子,所有"我比你强"都是空话。
更糟的是:算法被偷偷"为题目量身定做"。如果一个方法在某个难任务上不行,研究者就只报告它在简单任务上的分数。读者根本看不出来。
RLBench 想做的事,是给机器人圈造一场"高考":
- 100 道全国统一题
- 同一种机器人手臂(Franka Panda 7 自由度)
- 同一种摄像头布置(一个头顶相机 + 一个手腕相机)
- 同一种评分(任务完成 +1 分,没完成 0 分)
- 同一种数据接口(一行 Python 代码就能取题)
只要大家都用这套,第一次能光明正大说"我的方法比你强 5 个点"。
所以这一节是想说:RLBench 要做机器人圈的"普通高考"——一套谁都得用的统一卷子。

之前的人怎么做的,为什么不够好
- OpenAI Gym / DeepMind Control Suite:游戏型基准,比如让虚拟人形走路、平衡杆。问题是太抽象——和真实机器人在桌上抓东西完全不像。在这种基准上跑得好的算法,搬到真实机器人就崩。
- OpenAI Gym 里的少数机器人任务:太简单,几个抓取就完事,没有长链条任务(比如"开烤箱→把托盘放进去")。
- Amazon Robotics Challenge / RoboCup@Home:是真正的机器人比赛,但每年只搞一次,需要实体场地,普通实验室根本复现不了。没法当日常评测用。
- RoboTurk:用众包让人类远程操作机器人录数据,但只有 3 个任务——多样性根本不够。
- Meta-World(同期对手):也是 19 年提出的多任务基准,方向相近,但当时文档还没齐,定位不清。
- 大家各自造任务:最常见的做法。每篇论文设计自己的几个抓取任务、自己的奖励函数。结果就是上面说的"没法横向比较"。
所以这一节是想说:之前要么是过家家级别的玩具任务、要么是一年一次的大赛、要么是各家自造,没有"日常用、能复现、覆盖广"的统一题库。
这篇论文的新想法
用一套带"任务建造工具"的仿真环境,造出 100 个手工设计的真实操作任务,每个任务能自动生成无限示范数据;并且首次定义"机器人少样本挑战"作为这套基准的最高难度赛道。
听起来朴素,但当时没人愿意花这个力气把"100 个任务 + 无限示范 + 共享接口 + 难度分层 + 工具链"全做齐。
所以这一节是想说:核心创新是工程"狠"——把一个分散领域真正缺的基础设施一次性铺平。
它分几步做的(方法)
把这套"机器人高考"做出来,作者其实在干 5 件事——就像办一场高考要准备的东西:考场、题型、答题示范、出题工具、加试赛道。一件件来:
- 统一仿真场景(搭考场)
- 任务三层结构(定义"题型 / 题目 / 实测")
- 自动生成示范(请数学算法当陪练)
- 任务建造工具(让别人也能加题)
- 少样本挑战(设一条加试赛道)
1. 统一仿真场景:所有 100 道题共用一张桌子
类比
想象一个大学物理实验室。所有实验都在同一张实验台上做:力学题、光学题、电学题——桌子不变、灯不变、椅子不变,只换桌上的实验器材。
RLBench 就是这种统一实验台:
- 机器人:一台 Franka Emika Panda 7 自由度机械臂,固定在一张木桌上。
- 摄像头:一个头顶立体相机(双目,能算深度)+ 一个绑在手腕上的单目相机。
- 数据:每帧返回 RGB 彩图、深度图、分割图(每个像素属于哪个物体)。
- 机器人状态:关节角度、关节速度、关节力、末端位置和姿态(姿态 = 朝哪个方向、转了多少)。
- 光线:3 盏定向灯。
自由度(DoF, Degrees of Freedom):机械臂能独立动的关节数。7 自由度意味着臂可以从任何角度伸到目标点,比 6 自由度灵活得多。
立体相机(stereo camera):两个并排的镜头,像人的两只眼睛。两个视角的差异可以反推距离,得到"深度图"。
深度图(depth map):和 RGB 图一样大的一张灰度图,每个像素的"亮度"=该点离相机的距离(米)。
分割图(segmentation mask):和 RGB 图一样大,每个像素填一个物体 ID。仿真器能直接吐出来,不像现实世界要用 AI 才能算。
末端位置和姿态(end-effector pose):手腕这一头在 3D 空间里的坐标(x, y, z)+ 它朝哪个方向(用四元数或欧拉角表示)。
它在干什么
每道题开始时:
- 把机器人手归位到固定起始姿势(不抓任何东西)。
- 在桌子中央生成这道题需要的物体(比如一个锅、一个锅盖)。
- 物体的位置每次随机扰动(防止模型死记位置)。
- 用户的 Agent 开始接收摄像头流和机器人状态,输出动作。
为什么这步有用
- 桌子和机器人不变 = 所有论文都在比"同一个考场",公平。
- 同时给 RGB / 深度 / 分割三种视觉数据 = 不同流派的方法都能用:纯像素派用 RGB、几何派用深度、有标签派用分割。
- 不带初始抓握 = 模拟现实情况——家里的机器人不会自动握着勺子站着。
所以这一节是想说:所有 100 道题用一张同款实验台,把硬件不一致这个噪音先消掉。
2. 任务的三层结构:Task / Variation / Episode
类比
把这套结构想成"题型 → 题目 → 实测":
- Task(题型):比如"叠积木"。
- Variation(题目):题型下的具体版本——"叠 3 块红色积木"是一道,"叠 5 块蓝色积木"是另一道。变的通常是颜色、数量、目标物。
- Episode(实测):同一道题目里,物体每次摆放位置都不一样——这叫一次实测。可以无限抽。
任务(Task):题型,相当于一个 Python 类。比如
StackBlocks。变种(Variation):题型下用整数索引的不同子配置。比如变种 0 = 红积木,变种 1 = 蓝积木。每个变种自带一段文字描述(比如"stack 3 red blocks"),未来给 NLP / 自然语言指令用。
片段(Episode):从某个变种随机抽出的一次"开局"。每次只换物体初始位置。
轨迹(trajectory):一次 episode 里所有时刻的"观察 + 动作"序列。论文写成
τ = [(o₁, a₁), …, (o_T, a_T)]。说人话:一段时间里"机器人看到的画面 + 它做的动作"按时间排好。
它在干什么
为啥要分三层?因为研究者对"任务"的定义吵不清。"拿苹果"和"拿香蕉"算一个任务还是两个?吵了很多年。RLBench 干脆说:
- 这两件事属于"拿东西"这一个 Task。
- 但是不同的 Variation。
- 多变种放一起就能训练"听话"——给一句话指令,机器人去执行。
- 多片段放一起就能训练"鲁棒"——同一道题每次摆得不一样,机器人都要做对。
100 道题里很多自带十几个变种,所以总变种数远超 100。
为什么这步有用
- 一刀切:清空所有"这是不是同一个任务"的吵架。
- 自然支持多任务、少样本、自然语言指令三个研究方向——你想测哪个,就在哪一层切分训练 / 测试就行。
所以这一节是想说:用三层抽象一次性解决了"任务到底是啥"的定义之争。
3. 自动生成无限示范:让运动规划器当"陪练"
类比
教学徒做菜,最贵的是请大厨示范。100 道菜每道演 50 遍,请大厨累死。
RLBench 的方案:在仿真里让数学算法当大厨——在每道题创建时,作者手工标好"先到这个点,再到那个点"的几个关键路标,剩下的由"运动规划器"自动算出怎么走过去。
运动规划器(motion planner):一种数学算法,输入是"机械臂现在在哪、要走到哪、桌上哪些地方有障碍",输出是一段不撞东西的关节角度序列。RLBench 用的是 OMPL(Open Motion Planning Library),开源、成熟。
路标(waypoint):3D 空间里的一个点 + 一个姿态。任务设计者先在仿真里手动放几个"必经点",规划器负责把它们连成完整轨迹。
示范(demonstration):完整的一段"专家"轨迹,让机器人模仿。
专家策略(expert policy π*):理论上"会做这道题"的最优做法。这里就是"路标 + 运动规划器"组合。
它在干什么
- 设计者建任务时,在仿真里手动拖几个路标("先飞到锅上方、再下降抓锅盖、再抬起来")。
- 调用 OMPL 把路标连成一条不撞物体的关节序列。
- 物体位置随机扰动后,重新算一遍——每次都是新示范。
- 想要 1 万条示范?跑 1 万次就好,仿真不要钱。
为什么这步有用
- 模仿学习(让 AI 模仿专家)最大的瓶颈是"哪来这么多专家数据"。RLBench 把这个瓶颈直接抹掉。
- 后来很多重磅论文(CLIPort、PerAct、RVT、3D Diffuser Actor、Diffusion Policy 的部分变体)能爆发出来,就是因为 RLBench 提供了海量免费示范。
- 但代价:示范都是"运动规划器"风格——动作流畅但不像人手会的"摸索 + 校正"。这一点后面会有论文(如 RoboMimic)补刀。
所以这一节是想说:用"路标 + 数学规划器"造出无限示范,让模仿学习的训练数据成本降为零。
4. 任务建造工具:让别人能给题库添题
类比
Wikipedia 之所以能成今天这样,不是因为创始人写了所有词条,而是因为他们造了一个"任何人都能加词条"的编辑器。
RLBench 也是这个思路。每个任务由两个文件组成:
- 场景文件(.ttm):用 V-REP 图形界面拖出来的 3D 场景(锅、锅盖、桌子摆好)+ 路标位置。像在 PowerPoint 里画演示文稿——拖拖拽拽,不用编程。
- Python 文件(.py):30 行左右的代码,告诉系统"什么算成功"。比如
TakeLidOffSaucepan这道题,只要"夹爪握着锅盖" + "锅盖被检测到在'成功区'里"两个条件同时满足就赢。
V-REP(即后来的 CoppeliaSim):一个图形化机器人仿真器,可以拖拽建场景。论文用的版本叫 V-REP。
PyRep:作者团队自己写的 Python 库,给 V-REP 套一层快速接口,让深度学习代码能高频调用。这是 RLBench 能跑起来的关键工程。
成功条件(success condition):一组判断逻辑,决定这一 episode 算不算赢。RLBench 提供了一组现成的判断模块("被夹住"、"被传感器检测到"、"两个物体重叠"等),用户像搭积木一样组合。
它在干什么
- 设计者在 V-REP 里拖出场景。
- 写一个 Python 类,注册"哪些物体可以抓 / 什么算成功 / 这道题有几种变种 / 描述文字是什么"。
- 用任务校验工具自动跑 N 遍,确保运动规划器至少能成功 95%(不然这题本身有 bug)。
- 校验通过后通过 GitHub PR 提交到主仓库。
为什么这步有用
- 这是 RLBench 能从 100 道题持续扩展的根本——论文发布后社区源源不断加题。
- 把"机器人任务设计"从"研究员的私房菜"变成"开放协作",类似游戏圈的 Mod 社区。
- 同样的思路 5 年后被 Meta 的 Habitat、NVIDIA 的 Isaac Lab 等更大平台继承。
所以这一节是想说:作者不只是建了 100 道题,还把"建第 101 道题"的工具开放给所有人。
5. 首次定义机器人少样本挑战
类比
你已经会包饺子。现在请你在看 5 遍"包烧麦"演示之后,能自己包烧麦——这就叫少样本学习:人类天生擅长,机器学起来很难。
RLBench 把它做成正式比赛:
把 100 道题里 10% 拿出来当"测试卷"(meta-test),其他当"训练卷"(meta-train)。允许你在训练卷上随便用——海量示范、强化学习、什么都可以。
测试时,给你 K 段"测试卷"上某道题的演示视频(K=1、5、20 三档),你的系统要立刻能在这道题的新摆放上做对。
元训练 / 元测试(meta-train / meta-test):机器学习里"训练集 / 测试集"这一对的"上一层"——元训练里的整个任务集合是你"学经验"的地方;元测试里的任务你之前完全没见过,要快速适应。
K-shot:测试时只给你 K 个示范。1-shot 几乎是"看一眼就要会",20-shot 算很慷慨了。
少样本学习(few-shot learning):在极少示范下学会新任务的能力。当时主要在图像分类领域火过(Matching Networks、Prototypical Networks、MAML),机器人圈这是第一个大规模评测协议。
它在干什么
- 锁定固定的 train / test 划分(公开在网站上,所有人用同一份)。
- 报告 1-shot、5-shot、20-shot 三个数字——支持的算法谱系:循环网络派([41,42,43])、度量学习派(Matching Net、Prototypical Net)、梯度派(MAML)。
- 随时间扩任务,叫成 v1.0 / v2.0 / v3.0,避免"以后题变了,老分数没意义"。
为什么这步有用
- 当时图像少样本学界已经热闹了几年,机器人界一直没有可比的协议。RLBench 把"训练 80 道题、测试 10 道未见过的题"这个流程标准化了。
- 这条路 5 年后开花结果:CLIPort、PerAct、RT-1、RT-2、OpenVLA 等都是奔"通用多任务 / 少样本机器人"去的。RLBench 是它们的早期跑分场。
所以这一节是想说:第一次给机器人圈定义了什么叫"少样本评测",开启了通用机器人这条路线。

关键数字(What works)
这篇论文的"成绩"不是某个算法的分数(它本身不提算法),而是"基准本身的规模"。
数字 1:100 个完全独特的手工设计任务
- 怎么算的:作者团队人工设计、手动建场景、写代码、调路标,每道题都是从零搭出来的。
- 对比:当时最大的同类基准 Meta-World 是 50 个任务,OpenAI Gym 机器人模块只有几个,RoboTurk 只有 3 个。
- 生活语言:之前是题目荒,RLBench 一次性把题量翻倍——这本身就是底层基础设施工程的胜利。
数字 2:每道题自带"无限"示范
- 怎么算的:因为运动规划器是程序,调用一次出一条示范,理论上要多少有多少。论文测试时常用 1k-10k 条。
- 对比:RoboTurk 是众包采集,每道题只有几百条,且只覆盖 3 个任务。
- 生活语言:从"练习题贵"变成"练习题免费"。这是后来一系列模仿学习论文能在 RLBench 上爆发的原因。
数字 3:任务长度 100-1000 时间步
- 怎么算的:作者从 75 个任务里随机抽样,统计每条示范要多少帧才能完成。
- 对比:OpenAI Gym 大部分任务 100 步内结束。RLBench 长任务(比如清空洗碗机)要 1000 步——动作链:开门 → 拉托盘 → 抓盘子 → 抬起 → 放外面。
- 生活语言:RLBench 真正提供了"长时序"挑战。短任务测反应力,长任务测规划力,前者好做,后者后来才被 Diffusion Policy / VLA 系列攻破。
数字 4:任务三层结构 = Task × Variation × ∞ Episodes
- 怎么算的:100 个 Task,每个 Task 平均若干 Variation,每个 Variation 可抽无限 Episode。
- 对比:之前的基准只有"任务"一层,没有"题型 / 题目 / 实测"的层级。
- 生活语言:用户能精细切分"哪些是已学过的题型 / 哪些是同题型新变种 / 哪些是同变种新摆放",研究问题更清晰。
数字 5:动作空间 8 选 1
- 怎么算的:用户可选 8 种动作格式:绝对/相对 关节速度 / 关节位置 / 关节力矩 / 末端位姿。
- 对比:很多基准只让你用一种。
- 生活语言:你想做的研究是"控制层"还是"决策层"?RLBench 都让你用——做底层控制的用关节力矩,做高层规划的用末端位姿。一套基准跨多个层级。
数字 6:奖励 = 完全稀疏(成功 +1,否则 0)
- 怎么算的:作者刻意不设计"中间奖励"。
- 对比:很多 RL 基准会给"靠近目标"等密集奖励,让算法更容易训。
- 生活语言:稀疏奖励是 RL 的"地狱难度"——大部分时间都是 0 反馈。RLBench 选稀疏,是想测算法的"探索能力",不靠人类调奖励帮忙。代价是当时纯 RL 在很多 RLBench 任务上根本跑不动,模仿学习路线先吃饱了红利。
所以这一节是想说:这套基准的"分量"来自规模、长度、稀疏奖励、三层结构、多动作接口五个维度叠加,是一套真正"重量级"的考卷。
你应该懂的几个新词
基准(benchmark):一套统一的任务和评测协议。AI 圈所有"我比你强"的论文都得在某个基准上比。RLBench 就是机器人操作领域的一个基准。
仿真环境(simulator):用代码模拟物理世界。机器人能在仿真里摔 1 万次不报废。RLBench 用的是 V-REP(现叫 CoppeliaSim)。
运动规划器(motion planner):给定起点、终点、障碍物,自动算一条不撞东西的路径。RLBench 用 OMPL。它是无限示范的核心。
路标(waypoint):3D 空间里的一个"必经点"。任务设计者手工放几个,规划器负责连。
末端执行器(end-effector):机械臂最末端的工具,这里是夹爪。"末端位姿"指夹爪的位置和朝向。
自由度(DoF):机械臂能独立动的关节数。Franka Panda 是 7 DoF,比 6 DoF 灵活,能从更多角度伸到同一个点。
示范 / 演示(demonstration):一段"专家"完整完成任务的动作记录。模仿学习就是让模型学这种轨迹。
模仿学习(imitation learning, IL):让模型学专家的动作。给一段"看到这个画面,专家做了这个动作"的配对数据,让模型记住。
强化学习(reinforcement learning, RL):让模型自己试错。做对加分、做错扣分,反复试一万次后慢慢学会。在稀疏奖励的 RLBench 上很难直接跑通,所以早期更多用 IL。
少样本学习(few-shot learning):只给极少(1-20)示范就要学会新任务的能力。RLBench 第一次给机器人圈定义了正式的少样本协议。
多任务学习(multi-task learning):一次训一个模型,同时会做多个任务,互相借力。
稀疏奖励(sparse reward):只有"完成"才有 +1,其余时间都是 0。是 RL 的最难模式。
PyRep:作者团队自己写的 Python-V-REP 桥梁库,让仿真和深度学习代码高效通信。是 RLBench 跑得动的工程基础。
所以这一节是想说:这十几个词以后看任何机器人学习论文都会反复出现,先和"考试 / 教学徒 / 实验台"这些日常类比挂钩。
它有什么搞不定的
RLBench 不是万能的,作者也老实讲了几个硬伤:
- 不够真:物理与渲染的 sim-to-real gap。仿真里的物体摩擦、形变、光影都比真实世界粗糙。一个在仿真里 90% 成功的策略,搬到真实 Franka Panda 上常常掉到 30%。这是 RLBench 时代的核心痛点,后续 Domain Randomization、Real2Sim 等路线都是为了缩这个差距。
- 示范都是"机器手"风格。运动规划器生成的轨迹是平滑、最优的,不像人手那种"摸一下、校正一下"。模型学到的是"理想专家"的动作分布,遇到真实的乱糟糟世界容易抓瞎。
- 奖励太稀疏,纯 RL 几乎跑不动。RL 在 RLBench 上"硬刚"基本不出活,得先模仿学习起步。这导致几年里 RLBench 上的论文几乎都是 IL 派的。
- 任务多样但仍偏桌面操作。所有任务都在一张桌子上、用一个机械臂——没有移动机器人、没有双臂协作、没有人机交互。这些维度后来由别的基准(如 LIBERO、Habitat、ManiSkill)补上。
所以这一节是想说:RLBench 让"桌面单臂操作"变成可比、可复现的领域,但仿真真实度、双臂、移动操作都得后人补。
它和别的论文是什么关系
把 RLBench 放进我们读过的论文坐标系里看:
- 和 Habitat(同年同期,dataset-eval):方向互补。Habitat 解决的是"室内导航"基准——机器人在家里走来走去找东西;RLBench 解决的是"桌面操作"基准——机器人手伸出去做事。两套合起来覆盖了"具身 AI"的两大支柱。机器人要既会走又会动手。
- 和 Diffusion Policy / IBC(imitation 类):这些是后来在 RLBench 这套题上跑出顶尖分数的算法。没有 RLBench 这种统一题库,就没有它们的可比性。RLBench 是"考场",它们是"考生"。
- 和 OpenVLA / VLAs / SayCan(vla / planning 类):VLA 时代的工作开始把"语言指令 + 视觉"当成机器人输入。RLBench 早期就给每个 Variation 配了文字描述,本质上预留了这个接口——只是 2019 年还没有大模型来用。后来 RT-2、OpenVLA 等都把 RLBench 当跑分场之一。
- 和 GAIL(imitation foundation):GAIL 是模仿学习的算法范式(用对抗训练学专家分布),RLBench 给它提供"用什么数据来学"。两者是"算法 ↔ 数据"的关系。
简单类比:RLBench 像高考的命题委员会,Diffusion Policy / OpenVLA 这些是来考试的学生。命题委员会本身不当学霸,但没有它就没有"全国卷之争"。
所以这一节是想说:RLBench 是后续一大批操作论文得以横向比较的基础设施,是机器人圈的 ImageNet 雏形之一。
我建议这样读这篇
零基础读者建议这样走,大约 30-45 分钟:
- 看 Figure 1 那张 24 任务拼图(2 分钟):把 100 道题的画风感受一下。从"开门"到"摆国际象棋"再到"清空洗碗机",体会跨度。
- 跳到 Section IV-B "Tasks, Variations & Episodes"(5 分钟):把三层结构搞清楚。其余内容都建立在这上面。
- 读 Section IV-D + IV-E "Demonstrations + Task Builder"(10 分钟):明白"运动规划器 + 路标"为什么能造出无限示范——这是 RLBench 影响力的根本。
- 跳到 Section V "Few-Shot Challenge"(10 分钟):理解 K-shot 协议是怎么定义的,这是后来一大类论文的评测口径。
- 跳过引言里的相关工作综述(除非你想了解 2019 年前的机器人基准史):相关工作非常密但和现在已经过时。
- 看 Figure 6 那 30 行 Python 代码(5 分钟):感受"加一道新题原来这么简单"——这是 RLBench 能持续扩展的工程关键。
读完这 6 步你就能在和别人讨论机器人基准时说出 RLBench 的核心定位、三层结构、少样本协议。
所以这一节是想说:精华在三层结构 + 无限示范 + 少样本协议三处,相关工作和场景细节可以略读。
一些好奇心问答(FAQ)
Q1:100 道题都是什么样的?
涵盖从"伸手碰目标"(最简单)到"清空洗碗机"(要 1000 步、多步骤)。中间有摆水果、插积木、按下按钮、开门、抓螺丝刀、转水龙头、堆 6 块积木金字塔、设置棋盘等。你可以在论文配套网站 sites.google.com/view/rlbench 看视频。
Q2:能不能跑在我自己电脑上?
能。RLBench + V-REP + PyRep 都是开源的。普通 CPU 就能跑(不像训神经网络要 GPU),但渲染图像的速度可能不快。如果只是收集数据,一台普通电脑跑一晚上能采几千条示范。训练神经网络的话才需要 GPU。
Q3:为什么用 V-REP 不用 MuJoCo / PyBullet?
作者解释:MuJoCo 和 PyBullet 是物理引擎,不是机器人仿真器。建一个带相机、灯光、可拖拽路标、IK 求解器的完整场景,在 V-REP 里几分钟就能拖出来,在 MuJoCo 里要写很多 XML。后来 MuJoCo 也加强了机器人方向(如 MuJoCo Menagerie),但 2019 年时 V-REP 工具链更成熟。
Q4:示范都是运动规划器跑出来的,会不会"太完美"导致模型学不到真实噪声?
会。这是 RLBench 的已知短板。后来一些论文用更接近人类的示范——比如 RoboMimic 提供人类遥操作数据,模型在这上面训练后泛化更好。RLBench 的示范适合做"基础动作模仿"训练,不适合做"鲁棒性"训练。
Q5:100 个任务里 RL 算法能解几道?
2019 年发表时,纯 RL 用稀疏奖励基本只能解最简单几道(比如伸手碰目标)。绝大多数任务必须靠模仿学习起步、或加上密集奖励。这一现象推动了后续"模仿 + RL 混合"路线的兴起。
Q6:少样本挑战的 v1.0 划分具体哪 10 道?
论文里没列具体清单(让网站去维护,因为版本会更新)。重点是**"划分公开、所有人用同一份"**——这个原则比具体哪 10 道更重要。
Q7:RLBench 和 Meta-World 谁赢了?
两者方向不同:RLBench 偏"操作种类多 + 视觉为主 + 含长任务";Meta-World 偏"机械任务结构清晰 + 强 RL 友好"。后来 Meta-World 在 RL 圈用得多,RLBench 在视觉操作 / 模仿学习 / VLA 圈用得多。可以理解为两个并存的标准,覆盖不同子领域。
Q8:现在(2026 年)还有人用 RLBench 吗?
用,但不是唯一选择。CLIPort、PerAct、RVT、3D Diffuser Actor 这一系列经典论文都在 RLBench 上跑分,所以新论文为了和它们比仍会用 RLBench。但同时 LIBERO、ManiSkill、Robosuite、Habitat 等新基准也在分流。RLBench 现在更像是"必跑之一"而不是"唯一基准"。
所以这一节是想说:RLBench 是机器人操作圈的"老大哥基准",可用、可复现、有传承,但不再唯一。
如果你想再深入
按"前传 → 同期对手 → 用 RLBench 跑出名的论文 → 后继基准"四类排:
- 前传:PyRep(James 等,2019) — RLBench 的工程基础,论文短,看完能理解 V-REP 怎么和 Python 高效通信。
- 同期对手:Meta-World(Yu 等,2019) — 同年的多任务 / 元学习基准,方向相近。读完能看出"为啥两套基准没有互相吃掉对方"——它们做了不同的取舍。
- 用 RLBench 跑出名:CLIPort / PerAct / RVT / 3D Diffuser Actor — 这些是 2021-2023 年的代表作,把 RLBench 上的成绩从"勉强能做"拉到"基本能解"。读它们能直观看到 RLBench 这个"考场"的演化。
- 后继基准:LIBERO(2023) — 专门为"语言指令 + 长任务 + 持续学习"设计的下一代操作基准。可以看作 RLBench 思路 + VLA 时代需求的更新版。
- 后继基准:ManiSkill(2021 起) — 用 SAPIEN 仿真器的同类基准,强调更真实的物理和更大规模并行采样。
- 延伸方向:Habitat(同年) — 不在桌面而在室内导航。把 Habitat + RLBench 一起读,能看到 2019 年具身 AI 基础设施同时在两个方向铺路。
所以这一节是想说:把 RLBench + Meta-World + CLIPort/PerAct + LIBERO 这一串串起来读,能看到机器人操作基准从 2019 到 2026 的整条演化线。
最后一个画面
一个 Franka Panda 机械臂,固定在一张木桌上。桌上轮换出现 100 种道具:锅、积木、棋盘、洗碗机、水壶、螺丝刀……每一种都被仿真生成 1000 次,每一次位置都不一样。
一个研究员坐在电脑前,敲了 5 行 Python:
env = Environment(...) task = env.sample_task() demos = task.get_demos(2)屏幕上跳出两段示范视频。他保存下来,去训他的新算法。
这就是 RLBench 想做到的:"让机器人圈像 ImageNet 之于视觉圈那样,有一套谁都能用的、不要钱的、跑得快的、覆盖广的题库。"
虽然它没解决任何具体的算法问题,但它解决了"算法之间到底谁强"这个元问题。这种工作不性感,但每个领域真正起飞之前都需要有人来做。
所以最后一节是想说:RLBench 是 2019 年机器人操作领域那个"看起来不性感、但所有后来的论文都在它身上踩着才能起飞"的基础设施。
◼
引用本笔记 / Cite this note
@online{eai_rlbench_2026,
title = {(readable note) RLBench: The Robot Learning Benchmark & Learning Environment},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2019 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/rlbench/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim