回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Datasets & Benchmarks · Plate Nº 26

Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning

17 min read · 5943 字 · ⭐⭐ · auto 摘要

这是一份给"完全没接触过 AI"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。

一句话讲什么(TL;DR)

给那些号称"会举一反三"的机器人算法办一场 50 道动手题的统一考试,看它们是不是真的会。

所以这一节是想说:这篇论文做的不是新模型,是一把统一的尺子。


这是个什么场景

想象你刚买了个号称"超级聪明"的扫地机器人,店员说:"它学得超快,换一间房间就能立刻适应!"

你回家一试——确实换了房间能用。但你仔细一想:从客厅到卧室,地板还是地板、家具还是家具,这其实只是房间布局变了一点点,根本不算"新环境"。如果让它去爬楼梯、去擦窗户、去叠被子,它还能"立刻适应"吗?

机器人强化学习圈在 2019 年前后就是这种尴尬:

  • 大家都说自己的"元学习算法"能让机器人快速学会新技能。
  • 但大家用的"考题"都是窄到不能再窄的小变化——同一个机器人朝不同方向跑、不同速度跑。
  • 在这种考题上拿了高分,到底说明算法学到了"通用的学习能力",还是只学会了"换个数字"?没人知道。

Meta-World 想做的事,就是把这群算法拉到一个真正像样的考场里考一次:50 道完全不同的机械臂操作题(按按钮、开抽屉、扣篮、敲钉子……),看你还吹不吹得动。

所以这一节是想说:当一个研究领域的考试题目太水的时候,最迫切的事是先换一份像样的卷子。


Meta-World — 场景示意:这论文要解决的现实问题
Plate Nº IMeta-World — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

  • 方案 A:用 Atari 游戏当考题 类比:让一个学生同时学钢琴、围棋、踢足球,希望他从中找到"共同规律"。可惜这三件事根本没什么共同结构——结果是学了 A 反而拖累 B(论文叫"负迁移")。
  • 方案 B:让模拟机器人朝不同方向 / 不同速度跑 类比:高考语文模拟卷里 50 篇阅读理解,全是同一篇文章把"主人公"名字改一改。学生考满分,不代表他真的会做阅读理解。
  • 方案 C:用迷宫导航 / 老虎机选臂 类比:考"找最优选项"的脑筋急转弯。能验证一些理论,但和"机器人在真实世界拧瓶盖"这种事相距很远。
  • 共同毛病:考题要么太散(彼此没共同点)、要么太窄(彼此差别太小),都不能验证"算法真的学到了举一反三"。
  • 结果:2019 年的元强化学习论文越来越多,但没人知道哪种方法是真的强,哪种是把"窄考题"刷出花来

所以这一节是想说:元学习领域的瓶颈不在算法,在没有合适的考场。


这篇论文的新想法

做一个有 50 道操作题、共用同一只机械臂、共用同一种状态格式、共用同一种奖励结构的统一考场,让所有元学习/多任务学习算法在同一个标尺下对比。

所以这一节是想说:核心贡献是一个 benchmark(基准),不是一个新算法。


它分几步做的(方法)

整个论文做了 5 件事:设计任务集、统一观察/动作/奖励、设计五档难度、跑 7 个算法、得出"现有算法不够用"的结论。

1. 50 道题:既要"互相不同"又要"互有关联"

类比

体育测试该怎么设计?

全测同一个项目(比如只测 100 米跑)——太窄。 体操、举重、游泳、马拉松全测——太散,结果一项练得好可能拖累另一项。 合理做法:测 50 个都属于田径的项目(短跑、跳远、推铅球、跳高……),共用同一片场地、同一类身体能力,但每一项又都不一样。

Meta-World 选的就是这种"中等差异"的题目:50 个都用同一只 Sawyer 机械臂做的桌面操作,互相不同(按按钮 vs 扣篮 vs 拧水龙头)但共享底层动作(抓、推、伸手)。

任务(task):在 RL 里就是一道完整的题。包含"奖励规则 + 起始物体位置 + 目标位置"三件事。

机械臂操作(manipulation):机器人用"手"和物体交互。区别于"在房间里走"这种 navigation。

MuJoCo:一个开源的物理仿真引擎,能模拟刚体、关节、接触力。Meta-World 全部任务都跑在它里面,相当于"虚拟实验室"。

它在干什么

  • 收集 50 种操作场景:开门、开抽屉、按按钮、按横向把手、扣篮、敲钉子、拔插销、扫地、装螺母、塞插销……
  • 全部用 MuJoCo 仿真,全部用同一只 Sawyer 机械臂操作。
  • 每道题都加一层"位置随机化":物体初始位置和目标位置每次随机抽——这样模型不能靠"看坐标背答案"作弊。

为什么这步有用

  • 50 道题之间有"共享结构",元学习才有可能从中抽出"通用本领"。
  • 每道题内部又有"参数变化"(物体位置不同),单道题本身就能当作以前那种窄 benchmark 用。
  • 一句话:横向(任务种类)有差异、纵向(任务内部)有变化——以前的 benchmark 顶多有其中一维。

所以这一节是想说:50 道题精挑过——既不是同一道题改数字,也不是完全无关联的杂烩。


2. 统一观察、动作、奖励:让所有题"长得一样"

类比

如果体育考试每个项目都用不同评分单位(短跑用秒、跳远用厘米、举重用公斤),裁判没法横向比较。所以会先统一成一个 0-100 分的标准化分数。

Meta-World 也得让 50 道题在算法看来"长得一样",否则单一模型根本同时学不会。

观察空间(observation space):模型每一步能"看到"的输入。这里是一个固定 39 维的向量。

动作空间(action space):模型每一步能"做"的输出。这里是 4 维:手末端在 3D 空间的移动量 + 夹爪开合力度。

奖励函数(reward function):环境告诉模型"这一步做得有多好"的分数。RL 全靠它指挥学习方向。

它在干什么

  • 观察:不管是哪道题,都用同一个 39 维向量表示——手的 3D 位置、夹爪开合度、第一物体的位置和姿态、第二物体的位置和姿态、目标位置等。某些题用不到的位置就填 0。
  • 动作:所有任务都是 4 维连续动作(手移动 dx/dy/dz + 夹爪开/合),范围都在 [-1, 1]。
  • 奖励:所有任务都设计成"伸手 + 抓 + 放"几个公共组件的组合,奖励范围统一到 0~10。这样不会出现"某道题奖励大 100 倍,模型只学这一道题"的偏科。

关键术语解释

状态维度统一:以前的多任务 benchmark 经常每道题观察维度都不一样,模型必须改架构。这里 39 维永远不变,模型一套权重通吃。

奖励 shaping:把"成功 / 失败"二元反馈改成连续的"靠近一点点就给一点点分"——能让 RL 算法收敛快得多。

为什么这步有用

  • 单一模型架构能直接吃 50 道题,不用每题改输入输出。
  • 奖励统一量纲后,多任务训练不会被"高分任务"压倒。
  • 这套接口直接复用 OpenAI Gym 习惯——熟悉 Gym 的人开箱即用。

所以这一节是想说:50 道题外形完全统一,所以同一个模型能并行学。


3. 五档难度:从"小测验"到"奥赛"

类比

驾校考试有"科目一笔试"(最简单)、"科目二倒库"(中等)、"科目三路考"(综合)。Meta-World 也设了五档由浅到深的考法:

ML1(Meta-Learning 1):单一任务里的元学习,比如"伸手",但目标点位置变。最简单。

MT1(Multi-Task 1):单一任务里的多任务学习,目标点位置在观察里告诉模型。

MT10 / MT50:让一个模型同时学 10 / 50 道完全不同的任务。给模型一个 one-hot 编号"现在做第几题"。

ML10 / ML45:在 10 / 45 道任务上元训练,然后让模型快速适应它从来没见过的新任务。这是终极考试。

它在干什么

  • ML1:让你先验证"你的算法在最简单的窄变化上有效"。约等于以前所有 benchmark 的难度。
  • MT10/MT50:把 10 或 50 道任务塞给同一个模型。测的是"能不能同时学"
  • ML10/ML45:拿 10 或 45 道任务做元训练,留 5 道作为"模型从没见过的新题"。测的是"能不能学会怎么学"

关键术语解释

元训练 / 元测试(meta-train / meta-test):元训练阶段让模型见到一堆任务并尝试解决;元测试阶段抛出全新任务,看模型能不能用很少的尝试就解决它。

one-hot 编码:用"只有一位是 1,其它都是 0"的向量来表示"现在是第几个任务"。比如 10 个任务里第 3 个就是 [0,0,1,0,0,0,0,0,0,0]。

few-shot adaptation:少样本适应。模型只用很少几次试错就能上手新任务。

为什么这步有用

  • 五档难度让算法可以"渐进式爬坡"——先在 ML1 上验证基本可行,再挑战 MT10、最后冲 ML45。
  • 每档都有明确边界条件(任务数、是否给 one-hot、是否泛化到新题),保证可重复对比。

所以这一节是想说:考场分五档,从小测一直到奥赛,覆盖整个元学习算法的能力光谱。


4. 跑 7 个主流算法:把"现有 SOTA"摆上来比

类比

新建一个考场,得让现役运动员先来跑一圈,看看现有水平在哪。

它在干什么

让 7 个 2019 年最常被吹的算法在 Meta-World 上一起跑,分别是:

PPO(Proximal Policy Optimization):策略梯度家族里最常用的"中间派"。每次更新别走太远。

TRPO:PPO 的祖宗,更严格的"小步走"。

SAC(Soft Actor-Critic):off-policy 算法,会复用历史数据,通常样本效率最高。

TE(Task Embeddings):给每个任务学一个"嵌入向量"作为身份标签。

MAML:元学习经典——训练时让模型每次"先适应一下任务,再回头更新初始权重",目标是让初始权重容易快速适应新任务。

RL²:把元学习转成一个 RNN(循环神经网络)问题——RNN 内部隐藏状态扮演"我已经看到的经验",让网络自己学出"怎么探索新任务"。

PEARL:用变分推断把"任务"编码成一个概率向量,再喂给 actor-critic。

on-policy / off-policy:on-policy(PPO/TRPO/MAML/RL²)只用最新策略采的数据,浪费但稳定;off-policy(SAC/PEARL)能复用历史数据,省样本但容易不稳。

为什么这步有用

  • 论文不是只描绘考场,还第一次给出了"现有算法在新考场的成绩单"——后续所有论文都会基于这个 baseline 比较。
  • 暴露出"哪些算法在窄题上看着强,到了 50 题就崩",给后续研究指明方向。

所以这一节是想说:搭完考场马上拉 7 个明星算法上场考一遍,做出第一份成绩单。


5. 公布结论:现有算法都还差很远

类比

驾校教练宣布:"今天 7 个学员都来考新版科目三。结果——3 个人在最简单的题上勉强及格,没人通过最难的题。"这就是"诚实交代现状"。

它在干什么

  • 报告每个算法在 ML1 / MT10 / MT50 / ML10 / ML45 上的成功率(注意是成功率,不是"奖励分"——成功率有明确的距离阈值,比如物体到目标 < 5 cm 就算成功)。
  • 总结性结论(详见下一节数字):
    • 大多数算法即使在元训练任务上成绩都不到 50%。
    • 元测试(新任务)成绩更低,普遍在 20%-40%。
    • off-policy 在多任务上更强(MT10 上 SAC 68%),但扩到 MT50 后大家都垮

为什么这步有用

  • 把"看起来很厉害"的算法放在像样考场上一过——很多吹嘘瞬间还原。
  • 这种"老实交代现状"的论文反而推动了后续研究:所有人都知道短板在哪、该怎么改。

所以这一节是想说:考完一圈,发现现役选手都还远没合格——这本身就是最重要的科研结论。


Meta-World — 方法示意:核心 pipeline
Plate Nº IIMeta-World — 方法示意:核心 pipeline

关键数字(What works)

数字本身不重要,重要的是它们告诉你"现有方法有多远"和"哪种思路更接近答案"。

数字 1:MT10 多任务最高分 68.3%

  • 怎么算的:让一个 SAC 模型同时学 10 道任务,在所有 10 道上的平均成功率。
  • 对比:PPO 30.5%、TRPO 31.3%、TE 20.9%。
  • 生活语言:off-policy 的 SAC 因为能"复用历史数据",在多任务上有明显优势——但 68% 依然不算高,意味着"同时学 10 道题"对 2019 年的 RL 已经是大挑战。

数字 2:MT50 上 SAC 掉到 38.5%

  • 怎么算的:同样 SAC,但任务从 10 道扩到 50 道。
  • 对比:MT10 的 68.3% → MT50 的 38.5%,降了一半。MT-PPO 略反超到 35.4%。
  • 生活语言:任务从 10 加到 50,算法的能力没有"线性"扩展——撑不住了。这也是论文最大的发现之一:现有 RL 不擅长"同时学一大堆"。

数字 3:ML10 元测试最高 35.8%

  • 怎么算的:ML10 上 RL² 在它没见过的 5 道新任务上的成功率。
  • 对比:MAML 31.6%、PEARL 13%。
  • 生活语言:这是"真正的元学习能力"——见过 10 道题,能快速上手第 11 道。最强的 RL² 也只有 35.8%,距离"快速学会新技能"还差很远

数字 4:ML45 上 MAML 元测试 39.9%

  • 怎么算的:用 45 道任务元训练,在 5 道留出任务上的成功率。
  • 对比:RL² 33.3%、PEARL 22%。
  • 生活语言:训练任务加多到 45 之后,MAML 的"梯度套娃"思路反而更稳。但仍未到 50%。意思是:给得越多,算法越力不从心

数字 5:单任务 SAC 能解 50/50 道题

  • 怎么算的:附录里把每道题单独训一个 SAC,看能不能解。
  • 对比:单任务 PPO 能解大多数(不是全部)。
  • 生活语言:好消息——50 道题"逐个学"是有解的,所以多任务/元学习算法没成功不能赖任务太难,是算法本身的瓶颈。这把锅彻底扣到了算法头上。

数字 6:39 维观察 + 4 维动作

  • 怎么算的:所有 50 道题统一的接口尺寸。
  • 生活语言:这两个数字是 Meta-World 工程上的"刻度统一"——无论后人想跑哪种新算法,只要能吃 39 维输入、吐 4 维输出,就能直接用 Meta-World 测全套。这种"接口标准化"是 benchmark 寿命长达多年的关键。

所以这一节是想说:数据告诉我们——任务是可解的,但 2019 年的多任务和元 RL 算法还远未达到"举一反三"的水平。


你应该懂的几个新词

强化学习(Reinforcement Learning, RL):让一个智能体在环境里反复试错,每次靠"奖励"学会更好的策略。类比:训练宠物——做对给零食,做错不给。

多任务学习(Multi-Task Learning, MT-RL):让一个模型同时学多个任务。类比:让一个学生同时学语文数学英语,希望他能在三科上找到共通学习方法。

元学习(Meta-Learning):学习"如何学习"。模型不是直接被训练去解某道题,而是学一个"快速适应新题的方法"。类比:教学生"一套通用解题套路",遇到新题能快速上手。

元训练 / 元测试:元训练时让模型见过一组任务;元测试时抛出全新任务,量它适应得多快。

任务分布 p(T):所有任务背后的"出题集合"。元学习的关键假设是:训练和测试任务都来自同一个分布,并且这个分布有共享结构。

MDP(Markov Decision Process):RL 的数学骨架。包含"状态、动作、转移概率、奖励、时间长度"。可以理解成一张棋盘游戏的规则手册。

MuJoCo:物理仿真引擎。Meta-World 用它把"机械臂操作"虚拟化成可以快速训练的环境。

Sawyer:一个真实存在的机器人手臂型号。Meta-World 用它的仿真模型作为统一硬件。

成功率(success rate):用"距离阈值"判定的二元成功/失败。比 reward 更接近人类对"完成度"的直觉。

MAML / RL² / PEARL:三种典型元 RL 算法。MAML 学一个"容易适应的初始权重";RL² 把整个学习过程压进 RNN;PEARL 把任务编码成概率向量。

on-policy / off-policy:用没用历史数据。off-policy 通常更省样本,on-policy 通常更稳定。

所以这一节是想说:上面这 11 个词在所有强化学习论文里反复出现,先把它们和生活类比挂钩。


它有什么搞不定的

Meta-World 不是完美 benchmark,作者自己也老实交代了几个短板:

  • 状态是"上帝视角":模型直接拿到物体的 3D 位置和姿态——真实机器人哪有这种特权。后续工作(比如基于 image 的版本)才把这个补上。
  • 奖励太稠密:每一步都给连续奖励,便于学习;但真实任务往往只有"成功 / 失败"的稀疏反馈。这导致 Meta-World 上学到的策略迁不到现实。
  • 任务都是"短时长":每集最多 500 步,没有那种"开冰箱→拿牛奶→倒进杯子"的长链条任务。后续 LIBERO、CALVIN 这些 benchmark 是冲着补这个空缺去的。

所以这一节是想说:Meta-World 是"入门级综合考场",难度足够暴露算法短板,但和"真实机器人"还隔着一层"图像 / 稀疏奖励 / 长时序"的玻璃。


它和别的论文是什么关系

  • 它是后续机器人 benchmark 的"祖宗":在它之后,CALVIN、LIBERO、ManiSkill、RLBench 等机械臂 benchmark 一个接一个出现,全都借鉴了它"统一接口 + 多档难度"的设计。
  • 它是 diffusion-policyopenvlasaycan 这些后续论文用来"自夸成绩"的常用 benchmark 候选。当一个新模型出来,作者通常会跑 MT10 / MT50 来证明自己比 SAC、PPO 强多少。
  • dreamer-v1 的对比:Dreamer 是"用世界模型当训练辅助"的算法,Meta-World 是"考场"。两者是"算法 vs 考场"的关系——Dreamer 系列后来真的在 Meta-World 上跑过对照实验。
  • diffusion-policy 的承接:Diffusion Policy 是"用扩散模型生成动作"的算法,它也用 Meta-World 类型的 benchmark 来证明自己的效果。Meta-World 是这种新方法被推荐的"标配考场"之一。
  • Meta-World 的精神延续到 LLM 时代:今天评测 VLM/VLA(参见 openvla)的时候,研究者依然会去思考"这套考题是不是太窄"——这种"benchmark 应当多样且共享结构"的设计原则,正是 Meta-World 留给整个圈子的最大遗产。

所以这一节是想说:Meta-World 是个"工具型论文"——它不像 LLaVA 那样有惊艳新方法,但被引用千次,因为每个做机器人 RL 的人都用它当尺子。


我建议这样读这篇

零基础读者建议这样走:

  1. 看摘要 + 第 1 节引言(5 分钟):理解为什么"现有元学习考题不够"。这是论文动机,比方法重要。
  2. 跳到 Figure 1(2 分钟):一眼看 50 道题长什么样,培养直觉。
  3. 看 4.1 节"参数 / 非参数变化"和 Figure 2(10 分钟):搞清楚"任务内变化"和"任务间差异"是怎么共存的。
  4. 读 4.3 节"五档难度"(10 分钟):这是后人引用最多的部分。读完你能区分 ML1 / MT10 / ML45 是测什么。
  5. 看 Section 5 + Table 1(10 分钟):把 7 个算法成绩单看一遍,记住"哪个最强"。这部分会过时,但"格式"不会过时。
  6. 附录 A 任务列表(5 分钟略读):感受 50 道题的多样性即可,不必逐条记。

所以这一节是想说:这篇精华在 Section 4(任务设计)和 Section 5(成绩单),方法/算法部分基本可以跳过。


一些好奇心问答

Q1:为什么不直接拿真实机器人来做 benchmark? A1:真机太慢、太贵、太脆。一个机械臂 200 万人民币,跑 50 道题做对比要一年。仿真里几小时就能跑完一组实验,迭代算法比真机快 1000 倍。Meta-World 就是"先在仿真里把算法过滤一遍,再去真机"。

Q2:50 道题这个数字是怎么定下来的? A2:作者团队凭经验定的。少于 10 道就和以前的 narrow benchmark 没区别;多于 100 道仿真和评测都太慢。50 是个"够多但还能跑得动"的折中。

Q3:为什么 SAC 在 MT10 牛但 MT50 就垮了? A3:因为 SAC 共用一个 Q 函数和策略网络去估计 50 个任务。任务越多,梯度互相打架越厉害——一个任务的梯度告诉网络"往左",另一个任务说"往右",最后谁都没学好。这种"梯度冲突"是后续多任务 RL 论文的核心研究方向。

Q4:MAML 和 RL² 是不是同一种东西? A4:不是。MAML 思想是"用元梯度找一个好初始化"——训练完得到的是一组权重;RL² 思想是"让 RNN 把整个学习过程吃进隐藏状态"——它本身就是一个会自己探索的智能体。两者哲学不同,但目的都是"快速适应新任务"。

Q5:Meta-World 上 30%-40% 的成功率到底算高还是低? A5:相对随机策略(基本 0%)算高,相对人类(接近 100%)算低。学界普遍认为:能在 ML45 上做到 70%+ 的算法才算"达到了元学习真正的承诺"。截至 2026 年,这个目标依然没被彻底攻克。

Q6:这篇论文 2019 年发,到 2026 年还在被引用吗? A6:是的——它被引用 1500+ 次,且至今 manipulation 论文经常作为基线 benchmark。它的接口设计能扛过 7 年的算法演进,这本身就证明了 benchmark 的价值。

Q7:如果我现在想入门机器人 RL,是不是该用 Meta-World 起手? A7:如果只想学概念——用更简单的 OpenAI Gym 经典任务(CartPole、HalfCheetah)。如果要做研究/写论文——Meta-World 仍是必跑的 baseline。但如果你的目标是真机 / 视觉控制 / 长时序——直接跳到 LIBERO、CALVIN 或 RoboCasa 更合适。

所以这一节是想说:Meta-World 现在的位置是"经典必跑 benchmark"——研究门槛低,引用数高,但已经不是 SOTA 评测。


如果你想再深入

  • MAML 原论文(Finn et al., 2017, ICML):元学习的方法论奠基作。看完 Meta-World 后强烈推荐配合读 MAML 的 5 页公式部分。
  • PEARL 原论文(Rakelly et al., 2019):off-policy 元 RL 的代表作,理解"任务编码"思路。
  • Dreamer 系列(参考 dreamer-v1):用世界模型大幅减少元学习样本量的思路。
  • CALVIN / LIBERO benchmark:Meta-World 的直系后继。前者补全"长时序语言条件任务",后者补全"小样本指令跟随"。
  • OpenAI Gym / DM-Control:和 Meta-World 同一时代的兄弟 benchmark。前者面向通用 RL,后者面向连续控制。读完 Meta-World 后扫一眼这两份的设计,你会发现"benchmark 的设计哲学"在那个时代有一波集中讨论。

所以这一节是想说:理解 Meta-World 本身只用 1 小时,但要理解它"为什么这样设计",需要读 3-5 篇相关 benchmark/算法论文配合。

引用本笔记 / Cite this note
BibTeX
@online{eai_meta_world_2026,
  title       = {(readable note) Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2019 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/meta-world/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim