Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
这是一份给"完全没接触过 AI"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。
一句话讲什么(TL;DR)
给那些号称"会举一反三"的机器人算法办一场 50 道动手题的统一考试,看它们是不是真的会。
所以这一节是想说:这篇论文做的不是新模型,是一把统一的尺子。
这是个什么场景
想象你刚买了个号称"超级聪明"的扫地机器人,店员说:"它学得超快,换一间房间就能立刻适应!"
你回家一试——确实换了房间能用。但你仔细一想:从客厅到卧室,地板还是地板、家具还是家具,这其实只是房间布局变了一点点,根本不算"新环境"。如果让它去爬楼梯、去擦窗户、去叠被子,它还能"立刻适应"吗?
机器人强化学习圈在 2019 年前后就是这种尴尬:
- 大家都说自己的"元学习算法"能让机器人快速学会新技能。
- 但大家用的"考题"都是窄到不能再窄的小变化——同一个机器人朝不同方向跑、不同速度跑。
- 在这种考题上拿了高分,到底说明算法学到了"通用的学习能力",还是只学会了"换个数字"?没人知道。
Meta-World 想做的事,就是把这群算法拉到一个真正像样的考场里考一次:50 道完全不同的机械臂操作题(按按钮、开抽屉、扣篮、敲钉子……),看你还吹不吹得动。
所以这一节是想说:当一个研究领域的考试题目太水的时候,最迫切的事是先换一份像样的卷子。

之前的人怎么做的,为什么不够好
- 方案 A:用 Atari 游戏当考题 类比:让一个学生同时学钢琴、围棋、踢足球,希望他从中找到"共同规律"。可惜这三件事根本没什么共同结构——结果是学了 A 反而拖累 B(论文叫"负迁移")。
- 方案 B:让模拟机器人朝不同方向 / 不同速度跑 类比:高考语文模拟卷里 50 篇阅读理解,全是同一篇文章把"主人公"名字改一改。学生考满分,不代表他真的会做阅读理解。
- 方案 C:用迷宫导航 / 老虎机选臂 类比:考"找最优选项"的脑筋急转弯。能验证一些理论,但和"机器人在真实世界拧瓶盖"这种事相距很远。
- 共同毛病:考题要么太散(彼此没共同点)、要么太窄(彼此差别太小),都不能验证"算法真的学到了举一反三"。
- 结果:2019 年的元强化学习论文越来越多,但没人知道哪种方法是真的强,哪种是把"窄考题"刷出花来。
所以这一节是想说:元学习领域的瓶颈不在算法,在没有合适的考场。
这篇论文的新想法
做一个有 50 道操作题、共用同一只机械臂、共用同一种状态格式、共用同一种奖励结构的统一考场,让所有元学习/多任务学习算法在同一个标尺下对比。
所以这一节是想说:核心贡献是一个 benchmark(基准),不是一个新算法。
它分几步做的(方法)
整个论文做了 5 件事:设计任务集、统一观察/动作/奖励、设计五档难度、跑 7 个算法、得出"现有算法不够用"的结论。
1. 50 道题:既要"互相不同"又要"互有关联"
类比
体育测试该怎么设计?
全测同一个项目(比如只测 100 米跑)——太窄。 体操、举重、游泳、马拉松全测——太散,结果一项练得好可能拖累另一项。 合理做法:测 50 个都属于田径的项目(短跑、跳远、推铅球、跳高……),共用同一片场地、同一类身体能力,但每一项又都不一样。
Meta-World 选的就是这种"中等差异"的题目:50 个都用同一只 Sawyer 机械臂做的桌面操作,互相不同(按按钮 vs 扣篮 vs 拧水龙头)但共享底层动作(抓、推、伸手)。
任务(task):在 RL 里就是一道完整的题。包含"奖励规则 + 起始物体位置 + 目标位置"三件事。
机械臂操作(manipulation):机器人用"手"和物体交互。区别于"在房间里走"这种 navigation。
MuJoCo:一个开源的物理仿真引擎,能模拟刚体、关节、接触力。Meta-World 全部任务都跑在它里面,相当于"虚拟实验室"。
它在干什么
- 收集 50 种操作场景:开门、开抽屉、按按钮、按横向把手、扣篮、敲钉子、拔插销、扫地、装螺母、塞插销……
- 全部用 MuJoCo 仿真,全部用同一只 Sawyer 机械臂操作。
- 每道题都加一层"位置随机化":物体初始位置和目标位置每次随机抽——这样模型不能靠"看坐标背答案"作弊。
为什么这步有用
- 50 道题之间有"共享结构",元学习才有可能从中抽出"通用本领"。
- 每道题内部又有"参数变化"(物体位置不同),单道题本身就能当作以前那种窄 benchmark 用。
- 一句话:横向(任务种类)有差异、纵向(任务内部)有变化——以前的 benchmark 顶多有其中一维。
所以这一节是想说:50 道题精挑过——既不是同一道题改数字,也不是完全无关联的杂烩。
2. 统一观察、动作、奖励:让所有题"长得一样"
类比
如果体育考试每个项目都用不同评分单位(短跑用秒、跳远用厘米、举重用公斤),裁判没法横向比较。所以会先统一成一个 0-100 分的标准化分数。
Meta-World 也得让 50 道题在算法看来"长得一样",否则单一模型根本同时学不会。
观察空间(observation space):模型每一步能"看到"的输入。这里是一个固定 39 维的向量。
动作空间(action space):模型每一步能"做"的输出。这里是 4 维:手末端在 3D 空间的移动量 + 夹爪开合力度。
奖励函数(reward function):环境告诉模型"这一步做得有多好"的分数。RL 全靠它指挥学习方向。
它在干什么
- 观察:不管是哪道题,都用同一个 39 维向量表示——手的 3D 位置、夹爪开合度、第一物体的位置和姿态、第二物体的位置和姿态、目标位置等。某些题用不到的位置就填 0。
- 动作:所有任务都是 4 维连续动作(手移动 dx/dy/dz + 夹爪开/合),范围都在 [-1, 1]。
- 奖励:所有任务都设计成"伸手 + 抓 + 放"几个公共组件的组合,奖励范围统一到 0~10。这样不会出现"某道题奖励大 100 倍,模型只学这一道题"的偏科。
关键术语解释
状态维度统一:以前的多任务 benchmark 经常每道题观察维度都不一样,模型必须改架构。这里 39 维永远不变,模型一套权重通吃。
奖励 shaping:把"成功 / 失败"二元反馈改成连续的"靠近一点点就给一点点分"——能让 RL 算法收敛快得多。
为什么这步有用
- 单一模型架构能直接吃 50 道题,不用每题改输入输出。
- 奖励统一量纲后,多任务训练不会被"高分任务"压倒。
- 这套接口直接复用 OpenAI Gym 习惯——熟悉 Gym 的人开箱即用。
所以这一节是想说:50 道题外形完全统一,所以同一个模型能并行学。
3. 五档难度:从"小测验"到"奥赛"
类比
驾校考试有"科目一笔试"(最简单)、"科目二倒库"(中等)、"科目三路考"(综合)。Meta-World 也设了五档由浅到深的考法:
ML1(Meta-Learning 1):单一任务里的元学习,比如"伸手",但目标点位置变。最简单。
MT1(Multi-Task 1):单一任务里的多任务学习,目标点位置在观察里告诉模型。
MT10 / MT50:让一个模型同时学 10 / 50 道完全不同的任务。给模型一个 one-hot 编号"现在做第几题"。
ML10 / ML45:在 10 / 45 道任务上元训练,然后让模型快速适应它从来没见过的新任务。这是终极考试。
它在干什么
- ML1:让你先验证"你的算法在最简单的窄变化上有效"。约等于以前所有 benchmark 的难度。
- MT10/MT50:把 10 或 50 道任务塞给同一个模型。测的是"能不能同时学"。
- ML10/ML45:拿 10 或 45 道任务做元训练,留 5 道作为"模型从没见过的新题"。测的是"能不能学会怎么学"。
关键术语解释
元训练 / 元测试(meta-train / meta-test):元训练阶段让模型见到一堆任务并尝试解决;元测试阶段抛出全新任务,看模型能不能用很少的尝试就解决它。
one-hot 编码:用"只有一位是 1,其它都是 0"的向量来表示"现在是第几个任务"。比如 10 个任务里第 3 个就是 [0,0,1,0,0,0,0,0,0,0]。
few-shot adaptation:少样本适应。模型只用很少几次试错就能上手新任务。
为什么这步有用
- 五档难度让算法可以"渐进式爬坡"——先在 ML1 上验证基本可行,再挑战 MT10、最后冲 ML45。
- 每档都有明确边界条件(任务数、是否给 one-hot、是否泛化到新题),保证可重复对比。
所以这一节是想说:考场分五档,从小测一直到奥赛,覆盖整个元学习算法的能力光谱。
4. 跑 7 个主流算法:把"现有 SOTA"摆上来比
类比
新建一个考场,得让现役运动员先来跑一圈,看看现有水平在哪。
它在干什么
让 7 个 2019 年最常被吹的算法在 Meta-World 上一起跑,分别是:
PPO(Proximal Policy Optimization):策略梯度家族里最常用的"中间派"。每次更新别走太远。
TRPO:PPO 的祖宗,更严格的"小步走"。
SAC(Soft Actor-Critic):off-policy 算法,会复用历史数据,通常样本效率最高。
TE(Task Embeddings):给每个任务学一个"嵌入向量"作为身份标签。
MAML:元学习经典——训练时让模型每次"先适应一下任务,再回头更新初始权重",目标是让初始权重容易快速适应新任务。
RL²:把元学习转成一个 RNN(循环神经网络)问题——RNN 内部隐藏状态扮演"我已经看到的经验",让网络自己学出"怎么探索新任务"。
PEARL:用变分推断把"任务"编码成一个概率向量,再喂给 actor-critic。
on-policy / off-policy:on-policy(PPO/TRPO/MAML/RL²)只用最新策略采的数据,浪费但稳定;off-policy(SAC/PEARL)能复用历史数据,省样本但容易不稳。
为什么这步有用
- 论文不是只描绘考场,还第一次给出了"现有算法在新考场的成绩单"——后续所有论文都会基于这个 baseline 比较。
- 暴露出"哪些算法在窄题上看着强,到了 50 题就崩",给后续研究指明方向。
所以这一节是想说:搭完考场马上拉 7 个明星算法上场考一遍,做出第一份成绩单。
5. 公布结论:现有算法都还差很远
类比
驾校教练宣布:"今天 7 个学员都来考新版科目三。结果——3 个人在最简单的题上勉强及格,没人通过最难的题。"这就是"诚实交代现状"。
它在干什么
- 报告每个算法在 ML1 / MT10 / MT50 / ML10 / ML45 上的成功率(注意是成功率,不是"奖励分"——成功率有明确的距离阈值,比如物体到目标 < 5 cm 就算成功)。
- 总结性结论(详见下一节数字):
- 大多数算法即使在元训练任务上成绩都不到 50%。
- 元测试(新任务)成绩更低,普遍在 20%-40%。
- off-policy 在多任务上更强(MT10 上 SAC 68%),但扩到 MT50 后大家都垮。
为什么这步有用
- 把"看起来很厉害"的算法放在像样考场上一过——很多吹嘘瞬间还原。
- 这种"老实交代现状"的论文反而推动了后续研究:所有人都知道短板在哪、该怎么改。
所以这一节是想说:考完一圈,发现现役选手都还远没合格——这本身就是最重要的科研结论。

关键数字(What works)
数字本身不重要,重要的是它们告诉你"现有方法有多远"和"哪种思路更接近答案"。
数字 1:MT10 多任务最高分 68.3%
- 怎么算的:让一个 SAC 模型同时学 10 道任务,在所有 10 道上的平均成功率。
- 对比:PPO 30.5%、TRPO 31.3%、TE 20.9%。
- 生活语言:off-policy 的 SAC 因为能"复用历史数据",在多任务上有明显优势——但 68% 依然不算高,意味着"同时学 10 道题"对 2019 年的 RL 已经是大挑战。
数字 2:MT50 上 SAC 掉到 38.5%
- 怎么算的:同样 SAC,但任务从 10 道扩到 50 道。
- 对比:MT10 的 68.3% → MT50 的 38.5%,降了一半。MT-PPO 略反超到 35.4%。
- 生活语言:任务从 10 加到 50,算法的能力没有"线性"扩展——撑不住了。这也是论文最大的发现之一:现有 RL 不擅长"同时学一大堆"。
数字 3:ML10 元测试最高 35.8%
- 怎么算的:ML10 上 RL² 在它没见过的 5 道新任务上的成功率。
- 对比:MAML 31.6%、PEARL 13%。
- 生活语言:这是"真正的元学习能力"——见过 10 道题,能快速上手第 11 道。最强的 RL² 也只有 35.8%,距离"快速学会新技能"还差很远。
数字 4:ML45 上 MAML 元测试 39.9%
- 怎么算的:用 45 道任务元训练,在 5 道留出任务上的成功率。
- 对比:RL² 33.3%、PEARL 22%。
- 生活语言:训练任务加多到 45 之后,MAML 的"梯度套娃"思路反而更稳。但仍未到 50%。意思是:给得越多,算法越力不从心。
数字 5:单任务 SAC 能解 50/50 道题
- 怎么算的:附录里把每道题单独训一个 SAC,看能不能解。
- 对比:单任务 PPO 能解大多数(不是全部)。
- 生活语言:好消息——50 道题"逐个学"是有解的,所以多任务/元学习算法没成功不能赖任务太难,是算法本身的瓶颈。这把锅彻底扣到了算法头上。
数字 6:39 维观察 + 4 维动作
- 怎么算的:所有 50 道题统一的接口尺寸。
- 生活语言:这两个数字是 Meta-World 工程上的"刻度统一"——无论后人想跑哪种新算法,只要能吃 39 维输入、吐 4 维输出,就能直接用 Meta-World 测全套。这种"接口标准化"是 benchmark 寿命长达多年的关键。
所以这一节是想说:数据告诉我们——任务是可解的,但 2019 年的多任务和元 RL 算法还远未达到"举一反三"的水平。
你应该懂的几个新词
强化学习(Reinforcement Learning, RL):让一个智能体在环境里反复试错,每次靠"奖励"学会更好的策略。类比:训练宠物——做对给零食,做错不给。
多任务学习(Multi-Task Learning, MT-RL):让一个模型同时学多个任务。类比:让一个学生同时学语文数学英语,希望他能在三科上找到共通学习方法。
元学习(Meta-Learning):学习"如何学习"。模型不是直接被训练去解某道题,而是学一个"快速适应新题的方法"。类比:教学生"一套通用解题套路",遇到新题能快速上手。
元训练 / 元测试:元训练时让模型见过一组任务;元测试时抛出全新任务,量它适应得多快。
任务分布 p(T):所有任务背后的"出题集合"。元学习的关键假设是:训练和测试任务都来自同一个分布,并且这个分布有共享结构。
MDP(Markov Decision Process):RL 的数学骨架。包含"状态、动作、转移概率、奖励、时间长度"。可以理解成一张棋盘游戏的规则手册。
MuJoCo:物理仿真引擎。Meta-World 用它把"机械臂操作"虚拟化成可以快速训练的环境。
Sawyer:一个真实存在的机器人手臂型号。Meta-World 用它的仿真模型作为统一硬件。
成功率(success rate):用"距离阈值"判定的二元成功/失败。比 reward 更接近人类对"完成度"的直觉。
MAML / RL² / PEARL:三种典型元 RL 算法。MAML 学一个"容易适应的初始权重";RL² 把整个学习过程压进 RNN;PEARL 把任务编码成概率向量。
on-policy / off-policy:用没用历史数据。off-policy 通常更省样本,on-policy 通常更稳定。
所以这一节是想说:上面这 11 个词在所有强化学习论文里反复出现,先把它们和生活类比挂钩。
它有什么搞不定的
Meta-World 不是完美 benchmark,作者自己也老实交代了几个短板:
- 状态是"上帝视角":模型直接拿到物体的 3D 位置和姿态——真实机器人哪有这种特权。后续工作(比如基于 image 的版本)才把这个补上。
- 奖励太稠密:每一步都给连续奖励,便于学习;但真实任务往往只有"成功 / 失败"的稀疏反馈。这导致 Meta-World 上学到的策略迁不到现实。
- 任务都是"短时长":每集最多 500 步,没有那种"开冰箱→拿牛奶→倒进杯子"的长链条任务。后续 LIBERO、CALVIN 这些 benchmark 是冲着补这个空缺去的。
所以这一节是想说:Meta-World 是"入门级综合考场",难度足够暴露算法短板,但和"真实机器人"还隔着一层"图像 / 稀疏奖励 / 长时序"的玻璃。
它和别的论文是什么关系
- 它是后续机器人 benchmark 的"祖宗":在它之后,CALVIN、LIBERO、ManiSkill、RLBench 等机械臂 benchmark 一个接一个出现,全都借鉴了它"统一接口 + 多档难度"的设计。
- 它是 diffusion-policy、openvla、saycan 这些后续论文用来"自夸成绩"的常用 benchmark 候选。当一个新模型出来,作者通常会跑 MT10 / MT50 来证明自己比 SAC、PPO 强多少。
- 和 dreamer-v1 的对比:Dreamer 是"用世界模型当训练辅助"的算法,Meta-World 是"考场"。两者是"算法 vs 考场"的关系——Dreamer 系列后来真的在 Meta-World 上跑过对照实验。
- 和 diffusion-policy 的承接:Diffusion Policy 是"用扩散模型生成动作"的算法,它也用 Meta-World 类型的 benchmark 来证明自己的效果。Meta-World 是这种新方法被推荐的"标配考场"之一。
- Meta-World 的精神延续到 LLM 时代:今天评测 VLM/VLA(参见 openvla)的时候,研究者依然会去思考"这套考题是不是太窄"——这种"benchmark 应当多样且共享结构"的设计原则,正是 Meta-World 留给整个圈子的最大遗产。
所以这一节是想说:Meta-World 是个"工具型论文"——它不像 LLaVA 那样有惊艳新方法,但被引用千次,因为每个做机器人 RL 的人都用它当尺子。
我建议这样读这篇
零基础读者建议这样走:
- 看摘要 + 第 1 节引言(5 分钟):理解为什么"现有元学习考题不够"。这是论文动机,比方法重要。
- 跳到 Figure 1(2 分钟):一眼看 50 道题长什么样,培养直觉。
- 看 4.1 节"参数 / 非参数变化"和 Figure 2(10 分钟):搞清楚"任务内变化"和"任务间差异"是怎么共存的。
- 读 4.3 节"五档难度"(10 分钟):这是后人引用最多的部分。读完你能区分 ML1 / MT10 / ML45 是测什么。
- 看 Section 5 + Table 1(10 分钟):把 7 个算法成绩单看一遍,记住"哪个最强"。这部分会过时,但"格式"不会过时。
- 附录 A 任务列表(5 分钟略读):感受 50 道题的多样性即可,不必逐条记。
所以这一节是想说:这篇精华在 Section 4(任务设计)和 Section 5(成绩单),方法/算法部分基本可以跳过。
一些好奇心问答
Q1:为什么不直接拿真实机器人来做 benchmark? A1:真机太慢、太贵、太脆。一个机械臂 200 万人民币,跑 50 道题做对比要一年。仿真里几小时就能跑完一组实验,迭代算法比真机快 1000 倍。Meta-World 就是"先在仿真里把算法过滤一遍,再去真机"。
Q2:50 道题这个数字是怎么定下来的? A2:作者团队凭经验定的。少于 10 道就和以前的 narrow benchmark 没区别;多于 100 道仿真和评测都太慢。50 是个"够多但还能跑得动"的折中。
Q3:为什么 SAC 在 MT10 牛但 MT50 就垮了? A3:因为 SAC 共用一个 Q 函数和策略网络去估计 50 个任务。任务越多,梯度互相打架越厉害——一个任务的梯度告诉网络"往左",另一个任务说"往右",最后谁都没学好。这种"梯度冲突"是后续多任务 RL 论文的核心研究方向。
Q4:MAML 和 RL² 是不是同一种东西? A4:不是。MAML 思想是"用元梯度找一个好初始化"——训练完得到的是一组权重;RL² 思想是"让 RNN 把整个学习过程吃进隐藏状态"——它本身就是一个会自己探索的智能体。两者哲学不同,但目的都是"快速适应新任务"。
Q5:Meta-World 上 30%-40% 的成功率到底算高还是低? A5:相对随机策略(基本 0%)算高,相对人类(接近 100%)算低。学界普遍认为:能在 ML45 上做到 70%+ 的算法才算"达到了元学习真正的承诺"。截至 2026 年,这个目标依然没被彻底攻克。
Q6:这篇论文 2019 年发,到 2026 年还在被引用吗? A6:是的——它被引用 1500+ 次,且至今 manipulation 论文经常作为基线 benchmark。它的接口设计能扛过 7 年的算法演进,这本身就证明了 benchmark 的价值。
Q7:如果我现在想入门机器人 RL,是不是该用 Meta-World 起手? A7:如果只想学概念——用更简单的 OpenAI Gym 经典任务(CartPole、HalfCheetah)。如果要做研究/写论文——Meta-World 仍是必跑的 baseline。但如果你的目标是真机 / 视觉控制 / 长时序——直接跳到 LIBERO、CALVIN 或 RoboCasa 更合适。
所以这一节是想说:Meta-World 现在的位置是"经典必跑 benchmark"——研究门槛低,引用数高,但已经不是 SOTA 评测。
如果你想再深入
- MAML 原论文(Finn et al., 2017, ICML):元学习的方法论奠基作。看完 Meta-World 后强烈推荐配合读 MAML 的 5 页公式部分。
- PEARL 原论文(Rakelly et al., 2019):off-policy 元 RL 的代表作,理解"任务编码"思路。
- Dreamer 系列(参考 dreamer-v1):用世界模型大幅减少元学习样本量的思路。
- CALVIN / LIBERO benchmark:Meta-World 的直系后继。前者补全"长时序语言条件任务",后者补全"小样本指令跟随"。
- OpenAI Gym / DM-Control:和 Meta-World 同一时代的兄弟 benchmark。前者面向通用 RL,后者面向连续控制。读完 Meta-World 后扫一眼这两份的设计,你会发现"benchmark 的设计哲学"在那个时代有一波集中讨论。
所以这一节是想说:理解 Meta-World 本身只用 1 小时,但要理解它"为什么这样设计",需要读 3-5 篇相关 benchmark/算法论文配合。
◼
引用本笔记 / Cite this note
@online{eai_meta_world_2026,
title = {(readable note) Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2019 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/meta-world/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim