Datasets & Benchmarks · Plate Nº 26

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

17 min read · 5943 字 · ⭐⭐ · auto 摘要

#manipulation #navigation #RL #dataset

这是一份给"完全没接触过 AI"的读者看的精读笔记。语言尽量像聊天，公式全部翻译成人话。

一句话讲什么（TL;DR）

给那些号称"会举一反三"的机器人算法办一场 50 道动手题的统一考试，看它们是不是真的会。

所以这一节是想说：这篇论文做的不是新模型，是一把统一的尺子。

这是个什么场景

想象你刚买了个号称"超级聪明"的扫地机器人，店员说："它学得超快，换一间房间就能立刻适应！"

你回家一试——确实换了房间能用。但你仔细一想：从客厅到卧室，地板还是地板、家具还是家具，这其实只是房间布局变了一点点，根本不算"新环境"。如果让它去爬楼梯、去擦窗户、去叠被子，它还能"立刻适应"吗？

机器人强化学习圈在 2019 年前后就是这种尴尬：

大家都说自己的"元学习算法"能让机器人快速学会新技能。
但大家用的"考题"都是窄到不能再窄的小变化——同一个机器人朝不同方向跑、不同速度跑。
在这种考题上拿了高分，到底说明算法学到了"通用的学习能力"，还是只学会了"换个数字"？没人知道。

Meta-World 想做的事，就是把这群算法拉到一个真正像样的考场里考一次：50 道完全不同的机械臂操作题（按按钮、开抽屉、扣篮、敲钉子……），看你还吹不吹得动。

所以这一节是想说：当一个研究领域的考试题目太水的时候，最迫切的事是先换一份像样的卷子。

之前的人怎么做的，为什么不够好

方案 A：用 Atari 游戏当考题 类比：让一个学生同时学钢琴、围棋、踢足球，希望他从中找到"共同规律"。可惜这三件事根本没什么共同结构——结果是学了 A 反而拖累 B（论文叫"负迁移"）。
方案 B：让模拟机器人朝不同方向 / 不同速度跑 类比：高考语文模拟卷里 50 篇阅读理解，全是同一篇文章把"主人公"名字改一改。学生考满分，不代表他真的会做阅读理解。
方案 C：用迷宫导航 / 老虎机选臂 类比：考"找最优选项"的脑筋急转弯。能验证一些理论，但和"机器人在真实世界拧瓶盖"这种事相距很远。
共同毛病：考题要么太散（彼此没共同点）、要么太窄（彼此差别太小），都不能验证"算法真的学到了举一反三"。
结果：2019 年的元强化学习论文越来越多，但没人知道哪种方法是真的强，哪种是把"窄考题"刷出花来。

所以这一节是想说：元学习领域的瓶颈不在算法，在没有合适的考场。

这篇论文的新想法

做一个有 50 道操作题、共用同一只机械臂、共用同一种状态格式、共用同一种奖励结构的统一考场，让所有元学习/多任务学习算法在同一个标尺下对比。

所以这一节是想说：核心贡献是一个 benchmark（基准），不是一个新算法。

它分几步做的（方法）

整个论文做了 5 件事：设计任务集、统一观察/动作/奖励、设计五档难度、跑 7 个算法、得出"现有算法不够用"的结论。

1. 50 道题：既要"互相不同"又要"互有关联"

类比

体育测试该怎么设计？

全测同一个项目（比如只测 100 米跑）——太窄。体操、举重、游泳、马拉松全测——太散，结果一项练得好可能拖累另一项。 合理做法：测 50 个都属于田径的项目（短跑、跳远、推铅球、跳高……），共用同一片场地、同一类身体能力，但每一项又都不一样。

Meta-World 选的就是这种"中等差异"的题目：50 个都用同一只 Sawyer 机械臂做的桌面操作，互相不同（按按钮 vs 扣篮 vs 拧水龙头）但共享底层动作（抓、推、伸手）。

任务（task）：在 RL 里就是一道完整的题。包含"奖励规则 + 起始物体位置 + 目标位置"三件事。

机械臂操作（manipulation）：机器人用"手"和物体交互。区别于"在房间里走"这种 navigation。

MuJoCo：一个开源的物理仿真引擎，能模拟刚体、关节、接触力。Meta-World 全部任务都跑在它里面，相当于"虚拟实验室"。

它在干什么

收集 50 种操作场景：开门、开抽屉、按按钮、按横向把手、扣篮、敲钉子、拔插销、扫地、装螺母、塞插销……
全部用 MuJoCo 仿真，全部用同一只 Sawyer 机械臂操作。
每道题都加一层"位置随机化"：物体初始位置和目标位置每次随机抽——这样模型不能靠"看坐标背答案"作弊。

为什么这步有用

50 道题之间有"共享结构"，元学习才有可能从中抽出"通用本领"。
每道题内部又有"参数变化"（物体位置不同），单道题本身就能当作以前那种窄 benchmark 用。
一句话：横向（任务种类）有差异、纵向（任务内部）有变化——以前的 benchmark 顶多有其中一维。

所以这一节是想说：50 道题精挑过——既不是同一道题改数字，也不是完全无关联的杂烩。

2. 统一观察、动作、奖励：让所有题"长得一样"

类比

如果体育考试每个项目都用不同评分单位（短跑用秒、跳远用厘米、举重用公斤），裁判没法横向比较。所以会先统一成一个 0-100 分的标准化分数。

Meta-World 也得让 50 道题在算法看来"长得一样"，否则单一模型根本同时学不会。

观察空间（observation space）：模型每一步能"看到"的输入。这里是一个固定 39 维的向量。

动作空间（action space）：模型每一步能"做"的输出。这里是 4 维：手末端在 3D 空间的移动量 + 夹爪开合力度。

奖励函数（reward function）：环境告诉模型"这一步做得有多好"的分数。RL 全靠它指挥学习方向。

它在干什么

观察：不管是哪道题，都用同一个 39 维向量表示——手的 3D 位置、夹爪开合度、第一物体的位置和姿态、第二物体的位置和姿态、目标位置等。某些题用不到的位置就填 0。
动作：所有任务都是 4 维连续动作（手移动 dx/dy/dz + 夹爪开/合），范围都在 [-1, 1]。
奖励：所有任务都设计成"伸手 + 抓 + 放"几个公共组件的组合，奖励范围统一到 0~10。这样不会出现"某道题奖励大 100 倍，模型只学这一道题"的偏科。

关键术语解释

状态维度统一：以前的多任务 benchmark 经常每道题观察维度都不一样，模型必须改架构。这里 39 维永远不变，模型一套权重通吃。

奖励 shaping：把"成功 / 失败"二元反馈改成连续的"靠近一点点就给一点点分"——能让 RL 算法收敛快得多。

为什么这步有用

单一模型架构能直接吃 50 道题，不用每题改输入输出。
奖励统一量纲后，多任务训练不会被"高分任务"压倒。
这套接口直接复用 OpenAI Gym 习惯——熟悉 Gym 的人开箱即用。

所以这一节是想说：50 道题外形完全统一，所以同一个模型能并行学。

3. 五档难度：从"小测验"到"奥赛"

类比

驾校考试有"科目一笔试"（最简单）、"科目二倒库"（中等）、"科目三路考"（综合）。Meta-World 也设了五档由浅到深的考法：

ML1（Meta-Learning 1）：单一任务里的元学习，比如"伸手"，但目标点位置变。最简单。

MT1（Multi-Task 1）：单一任务里的多任务学习，目标点位置在观察里告诉模型。

MT10 / MT50：让一个模型同时学 10 / 50 道完全不同的任务。给模型一个 one-hot 编号"现在做第几题"。

ML10 / ML45：在 10 / 45 道任务上元训练，然后让模型快速适应它从来没见过的新任务。这是终极考试。

它在干什么

ML1：让你先验证"你的算法在最简单的窄变化上有效"。约等于以前所有 benchmark 的难度。
MT10/MT50：把 10 或 50 道任务塞给同一个模型。测的是"能不能同时学"。
ML10/ML45：拿 10 或 45 道任务做元训练，留 5 道作为"模型从没见过的新题"。测的是"能不能学会怎么学"。

关键术语解释

元训练 / 元测试（meta-train / meta-test）：元训练阶段让模型见到一堆任务并尝试解决；元测试阶段抛出全新任务，看模型能不能用很少的尝试就解决它。

one-hot 编码：用"只有一位是 1，其它都是 0"的向量来表示"现在是第几个任务"。比如 10 个任务里第 3 个就是 [0,0,1,0,0,0,0,0,0,0]。

few-shot adaptation：少样本适应。模型只用很少几次试错就能上手新任务。

为什么这步有用

五档难度让算法可以"渐进式爬坡"——先在 ML1 上验证基本可行，再挑战 MT10、最后冲 ML45。
每档都有明确边界条件（任务数、是否给 one-hot、是否泛化到新题），保证可重复对比。

所以这一节是想说：考场分五档，从小测一直到奥赛，覆盖整个元学习算法的能力光谱。

4. 跑 7 个主流算法：把"现有 SOTA"摆上来比

类比

新建一个考场，得让现役运动员先来跑一圈，看看现有水平在哪。

它在干什么

让 7 个 2019 年最常被吹的算法在 Meta-World 上一起跑，分别是：

PPO（Proximal Policy Optimization）：策略梯度家族里最常用的"中间派"。每次更新别走太远。

TRPO：PPO 的祖宗，更严格的"小步走"。

SAC（Soft Actor-Critic）：off-policy 算法，会复用历史数据，通常样本效率最高。

TE（Task Embeddings）：给每个任务学一个"嵌入向量"作为身份标签。

MAML：元学习经典——训练时让模型每次"先适应一下任务，再回头更新初始权重"，目标是让初始权重容易快速适应新任务。

RL²：把元学习转成一个 RNN（循环神经网络）问题——RNN 内部隐藏状态扮演"我已经看到的经验"，让网络自己学出"怎么探索新任务"。

PEARL：用变分推断把"任务"编码成一个概率向量，再喂给 actor-critic。

on-policy / off-policy：on-policy（PPO/TRPO/MAML/RL²）只用最新策略采的数据，浪费但稳定；off-policy（SAC/PEARL）能复用历史数据，省样本但容易不稳。

为什么这步有用

论文不是只描绘考场，还第一次给出了"现有算法在新考场的成绩单"——后续所有论文都会基于这个 baseline 比较。
暴露出"哪些算法在窄题上看着强，到了 50 题就崩"，给后续研究指明方向。

所以这一节是想说：搭完考场马上拉 7 个明星算法上场考一遍，做出第一份成绩单。

5. 公布结论：现有算法都还差很远

类比

驾校教练宣布："今天 7 个学员都来考新版科目三。结果——3 个人在最简单的题上勉强及格，没人通过最难的题。"这就是"诚实交代现状"。

它在干什么

报告每个算法在 ML1 / MT10 / MT50 / ML10 / ML45 上的成功率（注意是成功率，不是"奖励分"——成功率有明确的距离阈值，比如物体到目标 < 5 cm 就算成功）。
总结性结论（详见下一节数字）：
- 大多数算法即使在元训练任务上成绩都不到 50%。
- 元测试（新任务）成绩更低，普遍在 20%-40%。
- off-policy 在多任务上更强（MT10 上 SAC 68%），但扩到 MT50 后大家都垮。

为什么这步有用

把"看起来很厉害"的算法放在像样考场上一过——很多吹嘘瞬间还原。
这种"老实交代现状"的论文反而推动了后续研究：所有人都知道短板在哪、该怎么改。

所以这一节是想说：考完一圈，发现现役选手都还远没合格——这本身就是最重要的科研结论。

Plate Nº IIMeta-World — 方法示意：核心 pipeline

关键数字（What works）

数字本身不重要，重要的是它们告诉你"现有方法有多远"和"哪种思路更接近答案"。

数字 1：MT10 多任务最高分 68.3%

怎么算的：让一个 SAC 模型同时学 10 道任务，在所有 10 道上的平均成功率。
对比：PPO 30.5%、TRPO 31.3%、TE 20.9%。
生活语言：off-policy 的 SAC 因为能"复用历史数据"，在多任务上有明显优势——但 68% 依然不算高，意味着"同时学 10 道题"对 2019 年的 RL 已经是大挑战。

数字 2：MT50 上 SAC 掉到 38.5%

怎么算的：同样 SAC，但任务从 10 道扩到 50 道。
对比：MT10 的 68.3% → MT50 的 38.5%，降了一半。MT-PPO 略反超到 35.4%。
生活语言：任务从 10 加到 50，算法的能力没有"线性"扩展——撑不住了。这也是论文最大的发现之一：现有 RL 不擅长"同时学一大堆"。

数字 3：ML10 元测试最高 35.8%

怎么算的：ML10 上 RL² 在它没见过的 5 道新任务上的成功率。
对比：MAML 31.6%、PEARL 13%。
生活语言：这是"真正的元学习能力"——见过 10 道题，能快速上手第 11 道。最强的 RL² 也只有 35.8%，距离"快速学会新技能"还差很远。

数字 4：ML45 上 MAML 元测试 39.9%

怎么算的：用 45 道任务元训练，在 5 道留出任务上的成功率。
对比：RL² 33.3%、PEARL 22%。
生活语言：训练任务加多到 45 之后，MAML 的"梯度套娃"思路反而更稳。但仍未到 50%。意思是：给得越多，算法越力不从心。

数字 5：单任务 SAC 能解 50/50 道题

怎么算的：附录里把每道题单独训一个 SAC，看能不能解。
对比：单任务 PPO 能解大多数（不是全部）。
生活语言：好消息——50 道题"逐个学"是有解的，所以多任务/元学习算法没成功不能赖任务太难，是算法本身的瓶颈。这把锅彻底扣到了算法头上。

数字 6：39 维观察 + 4 维动作

怎么算的：所有 50 道题统一的接口尺寸。
生活语言：这两个数字是 Meta-World 工程上的"刻度统一"——无论后人想跑哪种新算法，只要能吃 39 维输入、吐 4 维输出，就能直接用 Meta-World 测全套。这种"接口标准化"是 benchmark 寿命长达多年的关键。

所以这一节是想说：数据告诉我们——任务是可解的，但 2019 年的多任务和元 RL 算法还远未达到"举一反三"的水平。

你应该懂的几个新词

强化学习（Reinforcement Learning, RL）：让一个智能体在环境里反复试错，每次靠"奖励"学会更好的策略。类比：训练宠物——做对给零食，做错不给。

多任务学习（Multi-Task Learning, MT-RL）：让一个模型同时学多个任务。类比：让一个学生同时学语文数学英语，希望他能在三科上找到共通学习方法。

元学习（Meta-Learning）：学习"如何学习"。模型不是直接被训练去解某道题，而是学一个"快速适应新题的方法"。类比：教学生"一套通用解题套路"，遇到新题能快速上手。

元训练 / 元测试：元训练时让模型见过一组任务；元测试时抛出全新任务，量它适应得多快。

任务分布 p(T)：所有任务背后的"出题集合"。元学习的关键假设是：训练和测试任务都来自同一个分布，并且这个分布有共享结构。

MDP（Markov Decision Process）：RL 的数学骨架。包含"状态、动作、转移概率、奖励、时间长度"。可以理解成一张棋盘游戏的规则手册。

MuJoCo：物理仿真引擎。Meta-World 用它把"机械臂操作"虚拟化成可以快速训练的环境。

Sawyer：一个真实存在的机器人手臂型号。Meta-World 用它的仿真模型作为统一硬件。

成功率（success rate）：用"距离阈值"判定的二元成功/失败。比 reward 更接近人类对"完成度"的直觉。

MAML / RL² / PEARL：三种典型元 RL 算法。MAML 学一个"容易适应的初始权重"；RL² 把整个学习过程压进 RNN；PEARL 把任务编码成概率向量。

on-policy / off-policy：用没用历史数据。off-policy 通常更省样本，on-policy 通常更稳定。

所以这一节是想说：上面这 11 个词在所有强化学习论文里反复出现，先把它们和生活类比挂钩。

它有什么搞不定的

Meta-World 不是完美 benchmark，作者自己也老实交代了几个短板：

状态是"上帝视角"：模型直接拿到物体的 3D 位置和姿态——真实机器人哪有这种特权。后续工作（比如基于 image 的版本）才把这个补上。
奖励太稠密：每一步都给连续奖励，便于学习；但真实任务往往只有"成功 / 失败"的稀疏反馈。这导致 Meta-World 上学到的策略迁不到现实。
任务都是"短时长"：每集最多 500 步，没有那种"开冰箱→拿牛奶→倒进杯子"的长链条任务。后续 LIBERO、CALVIN 这些 benchmark 是冲着补这个空缺去的。

所以这一节是想说：Meta-World 是"入门级综合考场"，难度足够暴露算法短板，但和"真实机器人"还隔着一层"图像 / 稀疏奖励 / 长时序"的玻璃。

它和别的论文是什么关系

它是后续机器人 benchmark 的"祖宗"：在它之后，CALVIN、LIBERO、ManiSkill、RLBench 等机械臂 benchmark 一个接一个出现，全都借鉴了它"统一接口 + 多档难度"的设计。
它是 diffusion-policy、openvla、saycan 这些后续论文用来"自夸成绩"的常用 benchmark 候选。当一个新模型出来，作者通常会跑 MT10 / MT50 来证明自己比 SAC、PPO 强多少。
和 dreamer-v1 的对比：Dreamer 是"用世界模型当训练辅助"的算法，Meta-World 是"考场"。两者是"算法 vs 考场"的关系——Dreamer 系列后来真的在 Meta-World 上跑过对照实验。
和 diffusion-policy 的承接：Diffusion Policy 是"用扩散模型生成动作"的算法，它也用 Meta-World 类型的 benchmark 来证明自己的效果。Meta-World 是这种新方法被推荐的"标配考场"之一。
Meta-World 的精神延续到 LLM 时代：今天评测 VLM/VLA（参见 openvla）的时候，研究者依然会去思考"这套考题是不是太窄"——这种"benchmark 应当多样且共享结构"的设计原则，正是 Meta-World 留给整个圈子的最大遗产。

所以这一节是想说：Meta-World 是个"工具型论文"——它不像 LLaVA 那样有惊艳新方法，但被引用千次，因为每个做机器人 RL 的人都用它当尺子。

我建议这样读这篇

零基础读者建议这样走：

看摘要 + 第 1 节引言（5 分钟）：理解为什么"现有元学习考题不够"。这是论文动机，比方法重要。
跳到 Figure 1（2 分钟）：一眼看 50 道题长什么样，培养直觉。
看 4.1 节"参数 / 非参数变化"和 Figure 2（10 分钟）：搞清楚"任务内变化"和"任务间差异"是怎么共存的。
读 4.3 节"五档难度"（10 分钟）：这是后人引用最多的部分。读完你能区分 ML1 / MT10 / ML45 是测什么。
看 Section 5 + Table 1（10 分钟）：把 7 个算法成绩单看一遍，记住"哪个最强"。这部分会过时，但"格式"不会过时。
附录 A 任务列表（5 分钟略读）：感受 50 道题的多样性即可，不必逐条记。

所以这一节是想说：这篇精华在 Section 4（任务设计）和 Section 5（成绩单），方法/算法部分基本可以跳过。

一些好奇心问答

Q1：为什么不直接拿真实机器人来做 benchmark？ A1：真机太慢、太贵、太脆。一个机械臂 200 万人民币，跑 50 道题做对比要一年。仿真里几小时就能跑完一组实验，迭代算法比真机快 1000 倍。Meta-World 就是"先在仿真里把算法过滤一遍，再去真机"。

Q2：50 道题这个数字是怎么定下来的？ A2：作者团队凭经验定的。少于 10 道就和以前的 narrow benchmark 没区别；多于 100 道仿真和评测都太慢。50 是个"够多但还能跑得动"的折中。

Q3：为什么 SAC 在 MT10 牛但 MT50 就垮了？ A3：因为 SAC 共用一个 Q 函数和策略网络去估计 50 个任务。任务越多，梯度互相打架越厉害——一个任务的梯度告诉网络"往左"，另一个任务说"往右"，最后谁都没学好。这种"梯度冲突"是后续多任务 RL 论文的核心研究方向。

Q4：MAML 和 RL² 是不是同一种东西？ A4：不是。MAML 思想是"用元梯度找一个好初始化"——训练完得到的是一组权重；RL² 思想是"让 RNN 把整个学习过程吃进隐藏状态"——它本身就是一个会自己探索的智能体。两者哲学不同，但目的都是"快速适应新任务"。

Q5：Meta-World 上 30%-40% 的成功率到底算高还是低？ A5：相对随机策略（基本 0%）算高，相对人类（接近 100%）算低。学界普遍认为：能在 ML45 上做到 70%+ 的算法才算"达到了元学习真正的承诺"。截至 2026 年，这个目标依然没被彻底攻克。

Q6：这篇论文 2019 年发，到 2026 年还在被引用吗？ A6：是的——它被引用 1500+ 次，且至今 manipulation 论文经常作为基线 benchmark。它的接口设计能扛过 7 年的算法演进，这本身就证明了 benchmark 的价值。

Q7：如果我现在想入门机器人 RL，是不是该用 Meta-World 起手？ A7：如果只想学概念——用更简单的 OpenAI Gym 经典任务（CartPole、HalfCheetah）。如果要做研究/写论文——Meta-World 仍是必跑的 baseline。但如果你的目标是真机 / 视觉控制 / 长时序——直接跳到 LIBERO、CALVIN 或 RoboCasa 更合适。

所以这一节是想说：Meta-World 现在的位置是"经典必跑 benchmark"——研究门槛低，引用数高，但已经不是 SOTA 评测。

如果你想再深入

MAML 原论文（Finn et al., 2017, ICML）：元学习的方法论奠基作。看完 Meta-World 后强烈推荐配合读 MAML 的 5 页公式部分。
PEARL 原论文（Rakelly et al., 2019）：off-policy 元 RL 的代表作，理解"任务编码"思路。
Dreamer 系列（参考 dreamer-v1）：用世界模型大幅减少元学习样本量的思路。
CALVIN / LIBERO benchmark：Meta-World 的直系后继。前者补全"长时序语言条件任务"，后者补全"小样本指令跟随"。
OpenAI Gym / DM-Control：和 Meta-World 同一时代的兄弟 benchmark。前者面向通用 RL，后者面向连续控制。读完 Meta-World 后扫一眼这两份的设计，你会发现"benchmark 的设计哲学"在那个时代有一波集中讨论。

所以这一节是想说：理解 Meta-World 本身只用 1 小时，但要理解它"为什么这样设计"，需要读 3-5 篇相关 benchmark/算法论文配合。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_meta_world_2026,
  title       = {(readable note) Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2019 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/meta-world/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)