回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
End-to-End VLA · Plate Nº 4

OpenVLA: An Open-Source Vision-Language-Action Model

15 min read · 5383 字 · ⭐⭐⭐ · auto 摘要

这是写给读者的精读版。原版笔记在 git 历史里能翻到。

一句话讲什么(TL;DR)

把一个会"看图说话"的 AI 改一改,让它学会"看一眼桌面就动手摆东西",再把全部训练配方开源送出去。

所以这一节是想说:它是一个开源、能动手的"看图听话"机器人模型。


这是个什么场景

想一下你早上出门前的桌面:钥匙、橡皮、水杯、耳机散一桌。你懒得动手,对旁边的机械臂喊一句"把橡皮放进笔筒"——摄像头一闪,它就从一堆杂物里挑出橡皮,伸过去,松手放进笔筒。

听起来像电影,但要让它真的发生,这只机械臂得同时搞定三件事:

  • :从摄像头一坨像素里挑出"橡皮在左下、笔筒在右上"
  • :听懂"把橡皮放进笔筒"——不是"扔掉橡皮"也不是"拿走笔筒"
  • :在脑子里算清楚"右手往左前 12cm,下降 3cm,夹爪开 2cm",然后真的执行

这三件事如果分给三个 AI 接力,每一步都会丢信息(看到的没法精确告诉动作那边)。所以人们想:能不能把这三件事塞进同一个 AI?这就是 VLA

VLA(Vision-Language-Action,视觉-语言-动作模型):一个 AI,输入是"图 + 一句指令",输出是"机械臂下一步怎么动"。

类比:像一个开车的司机——眼睛盯路、耳朵听导航、脚踩油门,三件事在同一个大脑里同步完成。不是后排坐三个人轮流喊"前面有车!""左转!""踩刹车!"。

OpenVLA 整体形态
Plate Nº IOpenVLA 整体形态

所以这一节是想说:要让机械臂同时会看、会听、会动手,就得把这三件事压进一个 AI。


OpenVLA — 场景示意:这论文要解决的现实问题
Plate Nº IIOpenVLA — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

OpenVLA 出现之前,最强的同类机器人 AI 叫 RT-2-X(Google 出品)。它效果好,但有几个让圈外人没法跟进的毛病:

  • 闭源不卖也不送:权重不公开、训练代码也不公开。
    • 类比:好比有人造了一辆很厉害的赛车,既不卖,也不告诉你怎么造。
  • 没人教怎么调成自己的:你买了不同型号的机械臂,它没法直接用,但论文里也不写"怎么改"。
    • 类比:买了一双进口鞋,码数不对,又没有教你怎么改尺码。
  • 太大跑不动:RT-2-X 有 55B 参数(550 亿),普通学校实验室的电脑根本带不动。
    • 类比:让一个大学生用计算器去解超大的方程组,硬件根本不配。
  • 路线分两派,互不通:一派是"分模块"(先识别 → 再规划 → 再控制),另一派是"端到端"(一个 AI 干到底)。两派工具链各搞各的。
    • 类比:一派是"先查地图再决定怎么走",另一派是"司机直觉踩油门"。

闭源 vs 开源:闭源 = 别人家的厨房不让进;开源 = 把菜谱、食材、锅都摆出来让你自己也能做。

OpenVLA 的目标:做一个开源版本,跑在便宜显卡上,并且效果还要打过那个 55B 的闭源大哥。

所以这一节是想说:之前最强的方案不开源、太大、没法改,普通研究者只能远观。


这篇论文的新想法

核心思路一句话:把"机械臂动作"伪装成"几个单词",让一个原本只会看图说话的 AI,顺手就把"该往哪儿动"也"说"出来。

类比:你身边有个会写日记的朋友。你不想再请一个机器人工程师,于是你跟他说:"以后'右手抬 5 厘米'就当成是你日记里的一个字,照着规则写出来就行。"他会写字这件事不用重学——他只需要学会用这套新"字"。

等等,先慢一拍——为什么要这么绕?因为从零造一个会"看图 + 听话 + 动手"的 AI 太贵了;但世界上已经有成千上万个会"看图说话"的现成 AI。能复用就别重造。

所以这一节是想说:把动作当成单词,让现成的"看图说话 AI"顺手生成动作。


它分几步做的(方法)

下面 5 步,按从外往内的顺序拆开。

OpenVLA 内部三段式架构
Plate Nº IIIOpenVLA 内部三段式架构

1. 用一个"会看图说话"的 AI 当起点

类比:你想训练一只会看导盲提示走路的狗,与其从一只什么都不懂的小狗教起,不如先找一只已经会"看 + 听人话"的狗,再教它走路。这能省掉前面 99% 的功夫。

它在干什么:选一个已经会看图答题的现成 AI 做起点,名字叫 Prismatic-7B

Prismatic-7B:一个已经训练好的"看图说话"AI,参数量 70 亿(B = 10 亿)。它由两个"眼睛"+ 一个"翻译官"+ 一个"大脑"组成。

参数(parameters):AI 内部的可调旋钮数量。70 亿就是有 70 亿个旋钮可以转动来记住知识。

内部三个零件

  • 两只眼睛(视觉编码器):分别叫 DINOv2 和 SigLIP。一个擅长"看物体在哪、形状是什么",一个擅长"看这是什么东西"。两双眼睛拼起来比一双更全面。
  • 一个翻译官(投影层):把眼睛看到的画面翻译成"大脑"听得懂的语言(其实是一串数字向量)。
  • 一个大脑(语言模型 Llama 2 7B):会"读单词 → 接着写下一个单词"。

向量:高中学过的那个,一组有顺序的数字,比如 (1, 2, 3) 是个三维向量。这里 AI 内部把每张图、每个词都表示成 4096 维的向量。

视觉编码器:把图片变成一组数字向量的程序。类比:扫描仪——把纸上的图变成电脑里的数据。

为什么用两双眼睛:一双眼睛(DINOv2)会量距离、看形状;另一双(SigLIP)会认"这是杯子还是碗"。机器人既要认得物体,又要量距离(夹子离杯子边 3mm 还是 5mm),所以两双都需要。

所以这一节是想说:它不是从零造,而是把现成的"看图说话 AI"拿来当地基。

2. 把动作切成 256 档,伪装成"单词"

类比:音量旋钮原本是连续旋转的(任何角度都行),现在改成 256 个按键档位,每按一档对应一个角度。再把这 256 个档位起 256 个奇怪的名字(像某些不常用的生僻字),塞进一本字典里。这样会写字的人,就也能"按按钮"了。

它在干什么:把机械臂的动作(上下左右移多少、夹爪开多大)切成 256 个等距档位,每个档位用 AI 字典里的一个"生僻词"代替。这样 AI 就能像写句子一样把动作"写"出来。

具体几步

  1. 机械臂每一步要决定 7 个数字:左右、前后、上下、绕三个轴各转多少、夹爪开合。
  2. 看一遍训练数据,找到"99% 的正常动作"在哪个区间内。
  3. 把这个区间均匀切成 256 段。任何一个动作落在哪一段,就编号成 0~255 的整数。
  4. 在 AI 的字典里挑 256 个最不常用的"生僻词",把它们的位置占用作为这 256 档动作的代号。
  5. 训练时,让 AI 学着接着已有的图和指令"续写"出 7 个这种"生僻词"。

离散化:把连续的数(任何小数都行)变成有限个档位的整数。类比:把温度从"任意小数"改成"低 / 中 / 高"三档。

为什么要这样做

  • 原本的"看图说话 AI"只会输出单词。如果直接让它输出小数,得给它接一个新嘴巴,新嘴巴要从零学起。
  • 把动作伪装成单词后,旧嘴巴就够用了——AI 70 亿个旋钮全都能继续派上用场。

所以这一节是想说:把动作翻译成"单词",旧 AI 就能直接接着用。

3. 拿 97 万段机器人视频喂它

970k 训练数据
Plate Nº IV970k 训练数据

类比:教一个司机能开各种路况,最快办法是给他看全国各地的行车记录仪——但前提是先把不同摄像头、不同车型的视频统一成同样的格式,否则他看不懂。

它在干什么:从一个公开数据集 Open X-Embodiment 里挑 970000 段(97 万)机械臂操作视频喂给 AI。

Open X-Embodiment(OpenX):70 多个机器人数据集合并成一个统一格式的大集合。"Embodiment" = "身体",意思是不同身体(不同型号机械臂)的数据放一起。

数据集:一堆带标签的样本。类比:一本练习册——每页有题目和答案。

怎么挑

  • 只留"单条胳膊 + 至少一个第三人称摄像头"的视频,扔掉双臂的、视角太怪的。
  • 多样性高的数据集多采一点(比如桌面操作、抓取),重复无聊的少采一点。
  • 训练里发现某个数据集(叫 DROID)实在学不进去,最后 1/3 训练时直接把它剔除。

为什么这样做

  • 机器人比语言模型缺数据多了——互联网文本几乎无穷多,但真实机械臂操作视频少得可怜。所以"杂烩 + 清洗"比"单一来源 + 大"更管用。
  • 数据干净比数据多更重要:作者特意筛掉那些"机械臂没动但还在录"的废帧。

所以这一节是想说:拿全网最大公开机械臂视频集训练,但要筛过、清洗过。

4. 反直觉的训练秘方

类比:常规训练是"找一个外语很厉害的同事帮你看图,你不希望他重新学外语,只希望他帮你理解"。但机器人不一样:他原来认得"杯子"是从淘宝商品图认得的,不知道杯子从机械臂这个斜上角度看长什么样。所以你得让他重新练眼睛

它在干什么:决定哪些零件训、训多少轮、用多大步子。

几个反直觉的决定

  • 眼睛要重新训:常规做法是"冻住眼睛只训大脑",这里反过来——眼睛也要训,因为机械臂视角下的物体跟互联网图差太远。
  • 训 27 遍:普通"看图说话 AI"的数据通常只过 1~2 遍,这里要过 27 遍才学会。
  • 步子固定 0.00002:不慢慢加快也不慢慢减小,从头到尾一个步子。

训练 / 学习:让 AI 调整自己内部 70 亿个旋钮,使得它在训练题上越答越对。

Loss(损失):考试扣分总和——AI 答错越多,扣分越多。它的目标是想办法让总扣分越来越小。

梯度下降(gradient descent):调旋钮的方法,像下山找最低点——每一步往最陡的下坡方向迈。"步子大小"叫学习率。

epoch(一遍):把全部训练数据从头到尾过一次,叫一个 epoch。过 27 遍 = 27 个 epoch。

算力账单:64 张 A100 显卡(每张约 1.5 万美元)连训 14 天 = 21500 显卡小时 ≈ 4 万美元一次。这就是不开源就完全没法复现的"护城河"。

所以这一节是想说:眼睛要解冻、要训 27 遍,全是反直觉的工程秘方。

5. 给大模型装"可拆卸小补丁"

类比:LoRA 像给西装只换领口和袖口——西装本体不动,外面缝几个小补丁就适配新场景。量化则是把高清照片压成发朋友圈的小图——肉眼看几乎一样,但文件小一半。

它在干什么:让普通人能用消费级显卡(家用游戏显卡)跑这个模型,而不是只能租 8 张 A100 服务器。

LoRA(Low-Rank Adaptation,低秩适配):训练时主网络的 70 亿旋钮全冻住不动,只训练几个非常小的"补丁矩阵"。改完只多几百万旋钮,存盘也只多几十 MB。

矩阵:一张数字表格,行列相乘要对齐。比如把一组数字 (1,2,3) 乘以一张 3 行 4 列的表格,得到一组 4 个数字。AI 内部全是矩阵运算。

量化(quantization):把每个旋钮的数值精度降低,比如从"小数点后 16 位"降到"小数点后 4 位",省一半存储空间。类比:1080p 视频压成 480p。

两个数字记住就行

  • 正常加载:约 15 GB 显存(一张 RTX 4090 就能跑)。
  • 4-bit 量化:约 7 GB 显存(一张 RTX 4070 都行)。性能几乎不掉。

所以这一节是想说:靠 LoRA 补丁 + 4-bit 压缩,普通人显卡也能玩。


OpenVLA — 方法示意:核心 pipeline
Plate Nº VOpenVLA — 方法示意:核心 pipeline

关键数字(What works)

BridgeData V2 测评结果
Plate Nº VIBridgeData V2 测评结果

每个数字都来自真实物理机械臂上跑的成功率(不是仿真)。在这个领域 +10% 已经是大新闻。

  • 总平均成功率:70.6% vs RT-2-X 的 50.6%(BridgeData V2,17 个任务每个跑 10 次)
    • 意味着:闭源大哥 10 次能成 5 次的,OpenVLA 10 次能成 7 次。
  • 参数量小 7 倍:OpenVLA 7B vs RT-2-X 55B
    • 意味着:用八分之一的"大脑容量"打过对方。性价比飞跃。
  • Google 机器人 12 任务平均:85.0% vs RT-2-X 78.3%
    • 意味着:在对方"主场"(同型号机器人)上还能赢 6.7 个百分点。
  • 微调成本:LoRA 用 1.4% 旋钮 + 60 GB 显存就能追平全量微调
    • 意味着:原本要 8 张 A100 干的活,1 张就够。从公司级降到学校实验室级。
  • 推理速度:单张 RTX 4090 ≈ 6 Hz(每秒发 6 次动作)
    • 意味着:宿舍能玩 vs 实验室能玩的差别。
  • 成功率全面性:是唯一一个在 7 个微调任务上成功率全部 ≥ 50% 的方法
    • 意味着:别的方法可能某个任务厉害另一个任务拉胯,只有 OpenVLA 各科都过 60 分以上。

所以这一节是想说:用 1/7 的参数全面打过闭源大哥,并且消费级显卡能跑。


你应该懂的几个新词

VLA(Vision-Language-Action,视觉-语言-动作模型):输入图 + 文字,输出机械臂动作。类比:边看路边听导航边踩油门的司机大脑。

VLM(Vision-Language Model,视觉语言模型):会看图说话但不会动手。类比:会看图配字幕的实习生。

参数(parameters):AI 内部可调旋钮数量。7B = 70 亿个。类比:一台调音台上的旋钮数。

token(词元):AI 把文字 / 图 / 动作切成的"最小单元",每个单元在字典里有一个编号。类比:英文里的"单词"或汉字里的"字"。

离散化(discretization):把连续的数(任意小数)变成有限档位。类比:把温度变成"低 / 中 / 高"三档。

LoRA(低秩适配):冻住主网络,只训几个小补丁。类比:西装只换领口袖口。

量化(quantization):把每个旋钮存得更粗糙,省内存。类比:高清图压成小图。

Loss(损失):考试扣分总和。AI 学习的目标就是想办法让这个分越来越小。

梯度下降:找最低点的方法——每步往最陡下坡方向迈。"每步迈多大"叫学习率。

epoch:把整本练习册从头到尾过一遍。

Open-X Embodiment:机器人界的"互联网图片大集合"——70+ 个数据集合并的统一格式。

DINOv2 / SigLIP:两种"会看图变向量"的预训练程序。一个偏空间几何,一个偏语义。

所以这一节是想说:搞清这 12 个词,你就有了入场券。


它有什么搞不定的

OpenVLA 论文很诚实地承认了几类失败——

  • 看不到时间:它一次只看当前一帧图,不会"回看一秒前手在哪"。
    • 你会遇到:让它做"倒水到八分满"这种要观察水位变化的任务,它就吃力。
  • 手不够快:每秒只能输出 6 次动作。
    • 你会遇到:让它做"穿针、缝纫、剥鸡蛋"这种快反应任务,它跟不上。
  • 可靠性还不够工业级:大部分任务成功率 7090%,意味着 10 次坏 13 次。
    • 你会遇到:拿去做演示没问题,真要在工厂部署还差一截。
  • 环状 / 透明 / 反光物体认不出:白色胶带、玻璃杯、镜面这类是盲区。
    • 你会遇到:抓不到中间有洞的物体,模型常把夹爪伸进洞里抓空。
  • 微调时会"忘旧知识":训完机器人任务后,原本能认 Taylor Swift 的能力会损失一些。
    • 你会遇到:让它做"把可乐放到 Taylor Swift 海报旁边"这种需要明星识别的任务,它不如闭源大哥。

灾难性遗忘(catastrophic forgetting):AI 学新任务时把旧任务忘了。类比:练完毛笔字后,硬笔字反而写丑了。

所以这一节是想说:单帧、慢速、不够稳,是它的三大短板。


它和别的几篇是什么关系

可以画一棵家族树:

      [前辈:会看图说话的 AI]
     CLIP → LLaVA → Prismatic-7B
                       ↓ (拿来当地基)
   [前辈:闭源大哥]    OpenVLA  ← [对比基准] Diffusion Policy
   RT-2 → RT-2-X       ↓                         (走另一条路)
                  [续作 / 后浪]
              π0、OpenVLA-OFT、RDT-1B
  • 跟 RT-2-X(闭源 55B 大哥):直接对手。OpenVLA 用 1/7 参数 + 全开源 + 双眼睛把它打败。
  • 跟 Octo(上一代开源版,93M):用同样的训练数据,但骨架换大 75 倍,效果飞跃——证明"大骨架 + 互联网先验"对机器人有用。
  • 跟 Prismatic-7B:直接拿来当起点。可以理解成"OpenVLA = Prismatic + 动作翻译层 + 机器人微调"。
  • 跟 Diffusion Policy:完全不同的另一条路(用扩散模型直接生成动作)。OpenVLA 在多任务通用性上赢,Diffusion Policy 在单任务平滑度上赢。后来的 π0 / RDT-1B 把两条路杂交。

所以这一节是想说:OpenVLA = 站在 Prismatic 的肩膀上,瞄着 RT-2-X 打,被 π0 接棒。


我建议这样读这篇

面向零基础读者,1-2 小时读完核心。

  1. 先读摘要 + 看 Figure 2(架构图):30 秒建立"看 → 译 → 说动作"的整体心智模型。
  2. 跳读 §3.1(VLM 三段式)+ §3.2(动作 token 化):这两节理解了就理解了 80%。
  3. 看 Figure 3(BridgeData 评测) + Figure 5(微调对比):先看图表建立"打赢了谁"的直觉。
  4. 回头读 §3.4(设计决策)+ §5.3(LoRA 表):这两节是"配方"——以后训自己 VLA 时直接抄。
  5. 跳过附录 A-E:第一遍读没必要,里面是任务清单和细节配置。
  6. 如果还有兴致再读 §6(Limitations):作者列出来的坑就是后续 π0 / RDT 要解决的问题。

所以这一节是想说:架构图 → 核心两节 → 实验图 → 配方表,2 小时就够。


一些好奇心问答(FAQ)

Franka 微调任务示意
Plate Nº VIIFranka 微调任务示意

Q1:模型多大?我的 4070 跑得动吗?

7B 参数,存盘约 14 GB。

  • 正常加载:要 15 GB 显存 → 4070(12GB) 不够,4080 临界,4090 舒服。
  • 4-bit 量化:约 7 GB → 4070 够用

Q2:数据从哪来?要授权吗?

来自公开的 Open-X Embodiment(HuggingFace 上能下,约几 TB)。多数是 CC-BY-4.0 协议,不需付费。引用原论文即可。

Q3:训练一次要多少钱?

预训练:64 张 A100 训 14 天 ≈ 3-6 万美元(云租 A100 约 1.5-3 美元/小时)。 微调:1 张 A100 + LoRA ≈ 30-60 美元就能完成。

Q4:为什么不用更简单的方法(比如直接让 AI 输出小数)?

直接输出小数得给 AI 接一个全新的"嘴巴",这个嘴巴是从零学起的——浪费了原本 70 亿旋钮里的预训练知识。把动作伪装成单词后,旧嘴巴直接复用,所有旋钮都参与动作生成。

Q5:为什么要用两双眼睛而不是一双?

DINOv2 擅长"东西在哪、什么形状"(空间几何),SigLIP 擅长"这是什么"(语义识别)。机器人两样都需要——既要认得杯子,又要算夹爪到杯子边的距离。一双眼睛只擅长一件事。

Q6:6 Hz 推理够用吗?

够做"放东西、抓物体"这类慢任务。不够做"穿针、缝纫"这类要 50 Hz 的快反应任务。后续 OpenVLA-OFT 和 π0-FAST 通过技术优化把速度提到了 30~50 Hz。

Q7:我能拿自己的 10 段视频微调它吗?

能。论文也专门做了 LoRA 微调实验,10-150 段视频就能让它学会一个新任务,单卡 A100 跑 5-15 小时。

Q8:开源到什么程度?

权重、代码、训练 notebook、tokenizer 全开源。github.com/openvla/openvla 仓库 2026 年还活跃。这是它跟 RT-2 最大的区别——RT-2 连 API 都没有。

所以这一节是想说:8 个最常被问的实操问题一次性答完。


如果你想再深入

按"前传 / 续作 / 对手 / 工具"分组:

  1. 【前传,必读】RT-2(Brohan et al. 2023):OpenVLA 借的"动作伪装成单词"思路就来自这里。读完才知道每一处改动针对什么。
  2. 【前传,工具】Prismatic VLMs(Karamcheti et al. 2024):OpenVLA 的骨架来源。这里能看到"为什么用两双眼睛比一双好"的原始实验。
  3. 【对手,必读】Diffusion Policy(Chi et al. 2023):完全不走"伪装成单词"路线的另一支。OpenVLA 在窄任务上输给它,说明这条路至今仍有效。
  4. 【续作】π0(Physical Intelligence, 2024):OpenVLA 几位作者跳出来创公司搞的下一代。可看作"OpenVLA 把所有局限都补了一遍"的版本。
  5. 【续作 / 实操首选】OpenVLA-OFT (2025):原团队自己的优化版,速度从 6Hz 提到 30Hz。如果你要实操,直接用 OFT 版,原版只剩历史价值。

所以这一节是想说:5 篇延伸阅读,按时间线串起整个 VLA 生态。


总结一下

读到这里你应该懂了——

  • VLA 就是"看图 + 听话 → 动手"的端到端 AI。
  • OpenVLA 的核心招数:把动作伪装成单词,让现成的"看图说话 AI"顺手生成。
  • 它用 1/7 的参数 + 全开源 + 消费级显卡可跑,把闭源大哥 RT-2-X 打过去了。
  • 它的短板是慢、单帧、对环状/透明物体不行;这些坑被后续 π0、OpenVLA-OFT 慢慢填上。

如果只能记一句:"它是开源 VLA 的标准答案,所有后辈论文都拿它当起点。"

引用本笔记 / Cite this note
BibTeX
@online{eai_openvla_2026,
  title       = {(readable note) OpenVLA: An Open-Source Vision-Language-Action Model},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/openvla/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim