回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
World Model & Video Policy · Plate Nº 7

Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control

17 min read · 5888 字 · ⭐⭐⭐⭐⭐ · auto 摘要

这是写给读者的版本。用学校生活、考试、拍照、下棋这些常识来讲清楚一篇关于机器人的论文。

一句话讲什么(TL;DR)

把一个会"脑补下一秒视频"的大模型,再练一遍,就能让它指挥机械臂做家务。

所以这一节是想说:核心创意只有一句话——别从零做,拿"会脑补视频的大脑"改造成"会动手的大脑"。


这是个什么场景

周末你赶着出门,从厨房顺手抓一把糖塞进密封袋——左手撑住袋口、右手把糖倒进去、捏紧拉链。从看到糖到拉好袋子,前后两秒钟,你几乎没在想。

现在让一台机器人替你做这件事。它得在两秒里完成下面这串"心算":

  • 看清楚糖在哪、袋子在哪、袋口现在开了多大
  • 想清楚两只手怎么配合(一只撑袋口、一只塞糖)
  • 还得知道"手歪一毫米糖就撒了"

换句话说,它需要两种本事:

  1. 物理直觉:手伸下去会发生什么、东西会不会倒、塑料袋会不会瘪。
  2. 动作多样性:同一个目标,可能有十种合理的伸手路线,模型要能挑一种走,而不是卡死在一条路上。

机器人策略(policy):一个函数,输入是"眼前看到的画面",输出是"接下来手要怎么动"。可以理解为机器人的"反应公式"。

打个考试的比方:你做物理题时,看到题面(输入),写出解题步骤(输出)。policy 干的就是这件事,只不过输入换成了摄像头画面,输出换成了"每个关节转多少度"。

所以这一节是想说:让机器人做家务的难点是又要懂物理、又要会变通。


Cosmos Policy — 场景示意:这论文要解决的现实问题
Plate Nº ICosmos Policy — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

之前的主流做法叫 VLA。

VLA(Vision-Language-Action,视觉-语言-动作模型):一个大网络,能看图、能读指令、能输出动作。代表作是 OpenVLA、π0、π0.5。

VLA 的"地基"是看了几亿张图配文字训出来的——它见过"苹果"配"红色水果"、"猫"配"四条腿动物"。

但 VLA 没看过视频。

类比:你只让一个小孩看绘本(静止画面 + 文字)却不让他看动画片(连续画面)。他能认识"苹果",但说不出"苹果从桌上滚下去会怎样"。这就是缺了对时间的直觉

之前方法不够好的几条原因:

  • VLA 派:看的是"图 + 文",没看过视频,缺乏对"事情怎么演化"的直觉。就像只背公式不做实验。
  • 从头训视频模型派:有人想用视频模型当地基,但他们丢掉了别人辛苦在几亿小时视频上训好的成果,从零开始——相当于上考场前撕掉自己背了三年的笔记。
  • 两阶段拼接派:另一些人先训一个视频网络,再外挂一个"动作输出头"。结果两个东西没融合好——像把英语作文和数学计算分给两个互不交流的人做。
  • 小模型派:用一个小网络从干净示教数据训。简单但没"地基知识",复杂任务一塌糊涂。
  • L1 回归派:让模型直接预测动作的"平均值"。问题是面对两颗糖时,平均位置正好在两颗糖中间——伸手就抓空了。

所以这一节是想说:之前的人要么没看过视频、要么没融合好、要么没地基知识。


这篇论文的新想法

打个比方:邻居家有位会画连环画的大叔,看一眼场景就能给你画出"下一格会发生什么"。你想让他帮你指挥机器人手臂——常规做法是另请一位机器人专家,或者给大叔配个助手。这篇论文不一样:不换人、不加助手,就让大叔在画下一格画的时候,顺手在角落写一行字告诉你"主人公接下来该往哪走"

落到模型上就是一句话:

直接拿一个会预测下一秒视频画面的现成大网络(叫 Cosmos-Predict2),不动结构、不加新部件,只是再训练一轮,让它顺便吐出机器人动作。

Cosmos-Predict2:NVIDIA 训好的视频预测大模型,看了几亿小时视频,已经具备"东西会不会掉、会不会滑"的物理直觉。

所以这一节是想说:不动结构、只改训练数据,是这篇最大的胆量。


它分几步做的(方法)

1. 把动作"伪装"成视频画面

类比:你的笔记本本来只能写汉字。现在你要在里面记英文单词——但你不想换笔记本。怎么办?把每个英文单词翻译成对应的汉字塞进去,本子完全不知道你在记新东西,照常翻页。

它在干什么

视频模型本来一帧一帧地处理画面。每一帧都被压缩成一种"特征数据块"(你可以想成一张特殊的"信息卡片")。这篇论文的做法是:

  • 把机器人手臂的关节角度(一串数字)
  • 把接下来要做的动作(也是一串数字)
  • 把"这条路最终能拿多少分"(一个数字)

全部塞进同样大小的"卡片"里,假装它们也是视频帧。模型分不清这些是真画面还是伪装的,就会按它原来处理视频的方式一起处理。

VAE(变分自编码器,Variational Auto-Encoder):一个会把大图压成小卡片、又能把小卡片还原成大图的网络。你可以理解为视频的"压缩软件"。

潜帧(latent frame):被压缩之后的"小卡片"。比原图小很多但保留了关键信息。

关键术语

扩散模型(diffusion model):一种生成图片/视频的方式。先往图里加一堆雪花点(噪声),让网络学怎么把雪花点擦掉还原原图。学会之后给它纯雪花点它就能"擦"出新图。

去噪(denoising):擦掉雪花点的过程。一步一步擦,越擦越清楚。

为什么这么设计

  • 不动结构 = 几亿小时视频训练出来的"物理直觉"被原封不动地继承下来。等于白嫖几年的训练成果。
  • 复制铺满看起来浪费,但好处是模型用同一套机制处理新数据,不用学新规则。

读到这里你应该懂了:动作被伪装成视频帧,模型按处理视频的方式一起处理它们。

方法总览图:怎么把动作和分数塞进视频帧序列里
Plate Nº II方法总览图:怎么把动作和分数塞进视频帧序列里
更详细的版本:白色块是真画面,彩色块是伪装的动作和分数
Plate Nº III更详细的版本:白色块是真画面,彩色块是伪装的动作和分数

所以这一节是想说:核心招数就是——把不是图像的东西伪装成图像,让旧模型一起处理。


2. 一个模型同时干三件事

类比:想象一个学生同时学三门课——化学(怎么反应)、物理(反应后会怎样)、考试评分(这次考多少分)。普通做法是请三个家教,这篇的做法是同一个学生轮流戴三顶帽子。

它在干什么

每次训练时,把一批数据分成三份,让同一个网络(同一组参数)轮流学三件事:

  1. 当机器人(50% 数据):看到当前画面,输出"我该做什么动作"。
  2. 当物理模拟器(25% 数据):看到画面 + 给定一个动作,预测"做完之后画面变成什么样"。
  3. 当评分员(25% 数据):看到画面 + 动作 + 做完后的画面,估计"这条路最后能拿多少分"。

世界模型(world model):一个会脑补"做了某动作之后世界会变什么样"的模型。相当于脑子里的物理实验室。

价值函数(value function):给"当前局面"打分的函数。下棋时教练说"这个局面值 +3",就是价值函数。

评分是怎么来的:录一条机器人完成任务的过程。如果最后成功 = 1 分,失败 = 0 分。然后把这个分往前回传——离成功越近的画面分数越高,离失败越近越低。

关键术语

梯度(gradient):一个数学量,告诉你"参数往哪调能让分数变高/损失变低"。

梯度下降(gradient descent):根据梯度一步一步调参数。像下山找最低点,每一步都往最陡的下坡方向迈。

损失(loss):考试扣分总和。模型预测错了多少,就扣多少。模型的全部目标就是让 loss 越小越好。

为什么这么设计

  • 用同一组参数学三件事 = 三件事互相帮忙。学物理直觉时学到的"东西会掉",能帮策略不犯傻。
  • 50/25/25 不是拍脑袋——当机器人那一份难度最大(输入信息最少),所以多分点训练数据给它。

所以这一节是想说:一个网络戴三顶帽子,能让三件事互相提分。


3. 顺手预测未来,反而考得更好

类比:让一个学生只背公式他考 70 分。让他顺带预测出题人下一题会问什么——他反而考 85 分。因为"预测出题方向"逼他理解了公式背后的逻辑。

它在干什么

第 2 节里说,模型当机器人时,本来只需要输出"动作"。但论文硬要它同时预测"做完后画面什么样"和"这条路值多少分"。

听起来是浪费时间——这些预测在真正部署时不需要呀。但消融实验显示砍掉这些"多余预测"反而会大幅掉分。

消融实验(ablation study):故意拿掉模型的某一个部件再测一次,看分数掉多少,从而知道这个部件值不值钱。像化学课对照实验:一组加催化剂、一组不加,看反应速度差多少。

论文给的实验数据(在 RoboCasa 厨房任务上):

  • 完整版本:67.1 分
  • 拿掉评分员训练数据:66.6 分(掉一点点)
  • 再拿掉物理模拟器训练数据:64.0 分(掉得更多)
  • 再让模型不预测"未来分数":62.5 分
  • 再让模型不预测"未来画面":44.4 分(暴跌 22.7 分)

最后一刀最狠——拿掉"预测未来画面",分数从 62.5 直接掉到 44.4。

为什么

被迫预测"做完之后画面什么样",模型就被逼着真的理解了动作的物理后果,而不是靠死记硬背"看见 X 就做 Y"的浅层关联。

类比学车:只背口诀(向左打 90 度)的人开不好车。能在脑子里看到"打了之后车会往哪偏"的人才能开好。

所以这一节是想说:让模型顺手预测未来,是它真正"开窍"的钥匙。


4. 像下棋一样想 8 步再走

类比:下棋高手不会随手就走。会在脑子里想 8 种走法 → 推演每种走完会怎样 → 挑最好的那种落子。

它在干什么(部署时):

  1. 让机器人模型生成 8 个不同的候选动作
  2. 对每个候选动作,用世界模型(脑内物理模拟器)预测"做了之后画面变什么样"——预测 3 次(因为预测有随机性,多算几次更准)。
  3. 对每个预测出的未来画面,用评分员打分——打 5 次。
  4. 这样每个候选动作就有 3 × 5 = 15 个分数。
  5. 挑分数最高的那个候选动作真正执行

采样(sampling):从一个能产生很多可能结果的模型里抽一次结果。掷骰子就是从 {1,2,3,4,5,6} 里采一次样。模型采样有随机性——同样输入,多采几次得到的结果会有微小不同。

关键数字

  • 8 个候选 × 3 次未来预测 × 5 次评分 = 120 次打分
  • 全部过程在 8 张高级显卡上并行,大约 5 秒输出一个动作。

为什么打分要做 majority mean(多数派均值)而不是简单平均

模型对"抓住糖"会打 0.9 分,对"抓滑了"会打 0.1 分。如果简单求平均得 0.5——但 0.5 这个分数很误导,事实上结果非黑即白。

正确做法是先看 15 个分数里多数判成功还是失败,再在多数那一组里取平均。这就像选举投票——看大多数人意见,而不是把所有人意见数值平均。

代价

每次出动作要 5 秒。所以这套规划只用在"慢活"上——折衣服、装糖。接抛球肯定不行。

所以这一节是想说:先脑补 8 种方案、再选最优,能涨分但很慢。


5. 出题人和改卷人要分开

类比:自己改自己的卷子容易高估自己。让另一个老师改才靠谱。

它在干什么

  • 拿一个"基础策略"模型 A 出动作(出题人)。
  • 部署 A 跑很多次,记录 648 条真实运行过程(包括成功和失败的)。
  • 用这 648 条数据再训练一份模型 B,专门当世界模型 + 评分员(改卷人)。
  • 真正部署时:A 出 8 个候选动作,B 评分。

为什么

如果用同一个模型既出动作又评分,它评分时见过的画面全都是成功示教里的画面。一旦真实运行去到"奇怪的中间状态"(比如机器人初始位置稍微偏一点),评分员根本没见过——就只能瞎打分。

让 B 见过 A 真实运行过的"奇怪状态"(包括失败),评分才靠谱。

所以这一节是想说:评分员要见过真实世界的混乱,不能只见过教科书里的标准答案。

ALOHA 双臂机器人的真实任务:装糖、折衣服、放盘子
Plate Nº IVALOHA 双臂机器人的真实任务:装糖、折衣服、放盘子

Cosmos Policy — 方法示意:核心 pipeline
Plate Nº VCosmos Policy — 方法示意:核心 pipeline

关键数字(What works)

数字 1:仿真任务平均成功率 98.5 分

  • 设置:4 套测试 × 10 任务 × 50 次 × 3 个不同随机种子 = 6000 次试验。
  • 数字:98.5 分。其中"长程多步任务"子集 97.6 分,超过第二名 95.4 分。
  • 对比:上一代最强的几个对手是 97.4、97.1、96.9。
  • 生活语言:在一个已经被卷到天花板的考试上多 1 分都很难。这里把第二名甩开 2 分,等于把"先开冰箱再放东西"这种长串任务的失败率几乎砍半。

数字 2:用 50 条示教就拿 67.1 分

  • 设置:24 个厨房任务,每任务只给 50 次人类演示。
  • 数字:67.1 分。
  • 对比:另一个最强对手用了 300 次演示拿 64.1 分。某个老方法用 3000 次演示才拿 57.3 分。
  • 生活语言数据效率高 60 倍。普通家庭买一台机器人时,肯定不会演示 3000 次叠衣服才让它学。50 次能用,意味着进入门槛被拉低一个数量级。

数字 3:真实双臂机器人平均 93.6 分

  • 设置:4 个家务任务,101 次试验,185 条人类示教。
  • 数字:Cosmos Policy 93.6 / 第二名 88.6 / 第三名 77.9 / 老方法 33.6。
  • 生活语言:最弱的方法 100 次有 66 次失败,最强的 100 次只失败 7 次。从"绝对不能商用"到"工业流水线可以试试"。

数字 4:装糖入袋任务领先对手 23.9 分

  • 数字:Cosmos Policy 85.4 分;最强对手 π0.5 只有 61.5 分。
  • 为什么:这个任务要毫米级精度(拉链滑块只有几毫米宽)。视频模型见过几亿小时连续画面,对"东西会不会滑"有直觉。VLA 模型只看过静态图,对滑动没感觉。
  • 生活语言:从"碰运气"(每三次成功两次)跳到"基本能用"(每四次成功三到四次)。

数字 5:加规划再涨 12.5 分

  • 数字:在两个最难的任务上,不带规划 78 分,带规划 90.5 分。
  • 代价:每次出动作从 1 秒变 5 秒。
  • 生活语言:折衣服可以接受,乒乓球肯定不行。

所以这一节是想说:仿真和真实任务上都拿了第一,数据效率最猛。

不同方法在 4 个真实任务上的成绩对比
Plate Nº VI不同方法在 4 个真实任务上的成绩对比

你应该懂的几个新词

VLA(Vision-Language-Action):会看图、会读指令、会输出动作的三合一模型。像一个会听话的服务员。

视频基础模型(video foundation model):在几亿小时视频上训练过的大网络。可以理解为"看遍了短视频平台的物理直觉机"。

VAE(变分自编码器):把大图压成小卡片、又能还原的网络。视频的"压缩软件"。

扩散模型(diffusion model):通过"先加雪花点 → 再学着擦掉"来生成图片或视频的方法。

去噪步(denoising step):擦雪花点的步数。步数越多越清晰但越慢。

潜帧(latent frame):被压缩之后的画面"小卡片"。

世界模型(world model):会预测"做完动作之后世界变什么样"的网络。脑内物理模拟器。

价值函数(value function):给"当前局面"打分。下棋时教练给局面 +3,就是这个东西。

策略(policy):输入画面、输出动作的"反应公式"。

梯度下降(gradient descent):调参数让 loss 变小的方法。像下山,每步往最陡下坡方向迈。

Loss(损失):考试扣分总和。模型学习的目标是想办法让它越小越好。

消融实验(ablation study):故意拿掉模型的某个部件再测一次,看分数掉多少。

OOD(Out-of-Distribution,分布外):测试时见到训练里没出现过的物体或场景。

采样(sampling):从一个有随机性的模型里抽一次输出。同样输入采两次结果会略不同。

所以这一节是想说:这些词是后面所有讨论的"通行证",背下来不亏。


它有什么搞不定的

问题 1:太慢

带规划时一次出动作 5 秒。让它陪小孩打乒乓——别想了。 用户实际场景:折衣服 OK,接抛球不行。

问题 2:换个新厨房就不灵

测试时换没见过的颜色衬衫、没见过的厨房风格,分数就掉得多。对手 π0.5 在这种情况下反而更稳——因为 π0.5 训练时看过几亿条机器人轨迹。 用户实际场景:机器人在你家用得好 ≠ 在邻居家用得好。

问题 3:要先跑很多次才好用

加规划那一招需要先用基础策略跑 600+ 次真实运行,记录失败案例,再训改卷员。 用户实际场景:小实验室没钱跑这么多次真机,只能用基础版本,拿不到那 12.5 分加成。

问题 4:长程任务还是不行

只往前看 1 步。如果任务是"先开冰箱、再拿菜、再切菜"3 大步,单步预测帮不上忙。 用户实际场景:一气呵成做晚餐?不行。

所以这一节是想说:精度和数据效率赢了,速度和泛化还输着。


它和别的几篇是什么关系

用集合的语言:

  • {VLA 派} = OpenVLA、π0、π0.5、CogVLA
  • {视频派} = Cosmos Policy、UVA、UWM
  • {世界模型派} = Dreamer、TD-MPC

Cosmos Policy 同时落在 {视频派} ∩ {世界模型派} 里——它是这两条路线在大模型时代的合流。

时间线:

2023:Diffusion Policy(用 diffusion 出动作的开山作)
       ↓
2024:OpenVLA(VLA 范式标杆)
       ↓
2025:π0、π0.5(VLA 巅峰)
       ↓
2026:Cosmos Policy(视频派反击)← 我们读的这篇

因果关系:

  • 因为 Diffusion Policy 证明了"diffusion 适合建模动作"——所以 Cosmos Policy 把这套放大到 20 亿参数。
  • 因为 VLA 在 OOD 上表现好——所以 Cosmos Policy 在 OOD 仍然输给 π0.5。
  • 因为 Dreamer 证明了"世界模型 + 规划"思路有效——所以 Cosmos Policy 把这套放进大模型。

所以这一节是想说:这篇是"视频派 + 世界模型派"的合流,和 VLA 派各有胜场。


我建议这样读这篇

5 步走:

  1. 第 1 步:看摘要 + 第一张图(30 秒)。抓住"用视频模型当机器人脑子 + 不加新结构"这两件事。原因:标题加图就是结论的两句话版。

  2. 第 2 步:直接跳到论文 Figure 2(潜帧注入示意图)。看那串小方块,理解"动作和分数被塞进哪些位置"。原因:这张图是全文方法的灵魂。

  3. 第 3 步:回到 4.1 节读潜帧注入。配着图把"灰块=动作、彩块=分数"对应清楚。原因:这是论文唯一真正新的技术贡献。

  4. 第 4 步:跳读 5.1 实验设置 + 主表格。知道在三个测试平台上 Cosmos Policy 赢了多少。原因:论文的"凭什么相信你"全在这里。

  5. 第 5 步:扫第 4.3 节(规划部分)+ 那张规划流程图。知道 12.5 分的提升怎么来的。原因:规划是最 fancy 的部分,但也是延迟瓶颈,知道代价才能判断要不要照搬。

可以跳过:联合训练的数学推导细节、附录里的噪声采样魔改(除非你要复现论文)。

所以这一节是想说:先看图再看字,先看分再看法。


一些好奇心问答(FAQ)

Q1:模型多大?我家电脑跑得动吗?

模型 20 亿参数。训练用了 8 到 64 张高级显卡(每张 80GB 显存,单价相当于一台中档轿车)。

  • 你家普通游戏卡(12GB 显存):训练完全不行。推理可能勉强,但慢得多。
  • 真要复现:得用学校算力中心或者云计算。

Q2:数据从哪来?

三个来源:

  • LIBERO(仿真平台,公开免费)
  • RoboCasa(仿真厨房,公开免费)
  • ALOHA(作者自己用真双臂机器人录的 185 条家务示教,论文说会公开)

Q3:训练一次要多少钱?

按云端高级显卡每小时 4.5 美元算:

  • 仿真任务一次复现 ≈ 1.4 万美元
  • 真实任务一次复现 ≈ 1700 美元
  • 学术圈有便宜价 + 自建集群可以打 3-5 折。

Q4:为什么不用更简单的方法?

试过了。论文里有一个对照——用一个 1.5 亿参数的小网络从干净数据训。结果在长程任务上 50.5 分,Cosmos Policy 是 97.6 分。说明预训练大底模是新地板,小模型撑不到天花板。

Q5:为什么要做"预测未来"这种看起来没用的事?

被迫预测"做完动作之后会怎样",模型就被逼着理解动作的物理后果。如果只让它输出动作,它会偷懒——背"看见 X 就做 Y",而不是真懂物理。消融实验显示去掉这一招会暴跌 22 分。

Q6:为什么不直接用 ChatGPT 那种文字模型?

文字模型没看过视频,不知道"把杯子推过去会不会洒"。机器人需要的是对连续画面的直觉,文字模型给不了这个。

Q7:作者有没有推荐先读哪几篇?

按重要性:π0.5(最强对手)→ OpenVLA(VLA 标杆)→ Diffusion Policy(动作建模奠基)→ Dreamer V3(世界模型经典)。

Q8:这套方法能用在自动驾驶吗?

理论上能。NVIDIA 的 Cosmos 系列就是给"物理 AI"(自动驾驶 + 机器人 + 仿真)当地基设计的。但自动驾驶还要解决延迟(5 秒太慢)、安全验证、长尾事件等问题。

所以这一节是想说:常见疑问基本能从论文找到答案,不需要再搜外网。


如果你想再深入

按重要性排序:

  1. π0.5(Physical Intelligence 2025) — 当下最强 VLA 之一,是 Cosmos Policy 在 OOD 上仍输的对手。读完才能形成完整的对照视野。

  2. OpenVLA / OpenVLA-OFT(Stanford 2024) — VLA 派开源标杆,理解 VLA 范式的起点。Cosmos Policy 的一作 Moo Jin Kim 同时是 OpenVLA-OFT 的一作——他自己跨过两条路线。

  3. Diffusion Policy(Chi 等 2023) — 用 diffusion 建模动作的奠基作。Cosmos Policy 把这个思路放大到 20 亿参数。

  4. Cosmos World Foundation Model(NVIDIA 2025) — Cosmos-Predict2 的来源。讲清楚"为什么 NVIDIA 想训物理 AI 底模"。

  5. Dreamer V3(Hafner 2023) — 经典世界模型派代表。和 Cosmos Policy 思路一脉相承——learn dynamics + plan with it。看完会明白 Cosmos Policy 是"Dreamer 在大模型时代的重做"。

所以这一节是想说:想看更多就按这个顺序,能形成完整的领域地图。

引用本笔记 / Cite this note
BibTeX
@online{eai_cosmos_policy_2026,
  title       = {(readable note) Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/cosmos-policy/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim