回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
End-to-End VLA · Plate Nº 112

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

20 min read · 6897 字 · ⭐⭐⭐⭐ · auto 摘要

这是一份给"完全没接触过 AI"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。

一句话讲什么(TL;DR)

把机器人动作翻译成一句话,让会看图聊天的 AI 用写句子的方式开口指挥机器人——它会写字,就能动手。

所以这一节是想说:RT-2 让一个本来只会写字的 AI,开口说出了机器人能听懂的"动作话"。


这是个什么场景

下班回家,你瘫在沙发上喊一句"我饿了,桌上随便给我拿点能吃的"。理想中的家庭助手机器人此时应该:扫一眼桌子、认出哪个是零食哪个是杯子、挑出最像"能当饭吃"的那个、再把手臂伸过去抓住递给你。这听起来像理所当然的智能,但 2023 年之前的机器人,做不到这件事。

为什么做不到?因为当时业界有两种角色,谁都没法独立干完:

  • 一种是"超博学的英语家教"型 AI——它能聊冷笑话、解奥数题、看图认梗(这就是 GPT-4 那一类视觉语言模型)。但你让它"把草莓放进水果碗",它就傻眼了——它从没碰过你家厨房,手不会动
  • 另一种是"训练有素的机器人手臂"——能熟练抓罐子、开抽屉。可你说"把可乐递给戴眼镜的那个人",它就懵了——它从没见过"戴眼镜"是什么意思。它有手没脑子

RT-2 想干的事就一句话:把这两个角色塞进同一个脑袋。会聊天的家教 + 会动手的机器人 = 一个又有常识又能动手的助手。

具体长什么样:

  • 你说"我饿了",它从一堆零食里挑出 RXBar 巧克力棒递给你;
  • 你说"把可乐放到泰勒·斯威夫特那张照片旁边",它知道泰勒长什么样;
  • 你说"找一个能当锤子用的东西",它从桌上挑出石头。

而且关键是:动作必须真的在物理世界跑起来——不是聊天里"我会去做"那种敷衍,是手臂真的要挪、爪子真的要张。

所以这一节是想说:RT-2 要造一个"懂常识 + 懂语言 + 真能动手"的机器人助手。


RT-2 — 场景示意:这论文要解决的现实问题
Plate Nº IRT-2 — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

  • 方案 A:纯堆机器人数据 类比:让一个从没读过书的人,靠一万次手把手的训练学会做家务。代价巨大,只学到表面动作,换个新厨房就不会了。 问题:网上能爬到几十亿张图、几万亿字的文本,但机器人轨迹数据全世界加起来也只有百万级。光靠它没法泛化。

  • 方案 B:把 LLM 当"高层规划师" 类比:经理坐办公室画 PPT 拆任务("先去厨房 → 再开冰箱 → 再拿牛奶"),下面的小工照着干。但小工本身没读过书,只认基础动作。 代表作:SayCan、PaLM-E(早期)。问题是"上层会想,下层不会变通"——任何"创造性"动作只能由下层老老实实执行,下层根本不知道"草莓"和"碗"在语义上有什么关系。

  • 方案 C:CLIPort、MOO 这种"用 VLM 标记物体" 类比:让 VLM 在画面里给目标物体贴一个红点,然后小工去抓那个红点。但这把动作空间限制成了 2D(只能在桌面上动),而且需要相机标定。 问题:VLM 只在"识别阶段"被用一下,真正的动作策略还是另一个小模型在干。VLM 的知识没有被传给动作。

  • 方案 D:Gato 这类"从头训通用智能体" 类比:从婴儿状态开始什么都教(玩游戏、看图、下棋、控制机器人)。耗资巨大,效果不一定比专一的模型好。问题是 没复用已有的 VLM,相当于浪费了几亿美元的预训练投入。

  • 核心难题:怎么让"看图聊天的脑子"和"控制手臂的身体"用同一套参数学习,而不是接两根管子?

所以这一节是想说:之前的方案要么没脑子、要么脑子和身体之间靠管子接,导致网上的常识传不到动作里。


这篇论文的新想法

把机器人动作直接编码成"几个数字 token"——和文字 token 用同一种格式。这样会聊天的 VLM 不需要改任何架构,只要"再多学几句话"就能开口控制机器人。

听起来匪夷所思——一个吐字的 AI 怎么可能控制电机?关键在于:动作本身就是几个连续数字(手臂沿 X 轴移动多少、绕 Y 轴转多少度、爪子张多少),把每个数字离散化成 256 档,每档对应一个 token,就能像写句子一样"写动作"了。

所以这一节是想说:核心创新是把"动作"翻译成 token,让 VLM 用写文章的方式开口指挥机器人。


它分几步做的(方法)

整个论文做了 4 件事:动作怎么变 token、模型怎么挑、训练怎么搭、推理怎么提速。

1. 把机器人动作"装"成一句话

类比

打电话教朋友停车,你只能这样说:"方向盘往左 3 度,油门踩 0.2 秒,刹车放开"——一串数字加一串名词。RT-2 也是这么教 VLM 说"动作话"的:把手臂的每一步动作翻译成几个数字写出来。

它在干什么

机器人手臂的动作其实就是 7 个连续数字 + 1 个终止信号:

  • 末端位置变化:Δx、Δy、Δz(3 个数,手要往哪挪)
  • 末端旋转变化:Δrx、Δry、Δrz(3 个数,手要怎么转)
  • 爪子开合度:1 个数(要不要捏紧)
  • 终止指令:1 个布尔值(这步是不是收工)

等等,先慢一拍——这里几个词到底是啥?

末端(end-effector):机器人手臂最前端的"手",通常是夹爪或吸盘。控制机器人就是控制这只手怎么动。

6-DoF(六自由度):一个物体在 3D 空间能做的全部独立运动——前后/左右/上下挪 3 种 + 绕 3 个轴转 3 种。描述"我的手怎么挪到那儿",6 个数就够。

离散化(discretization):把一段连续值切成一格一格。想象一根温度计从 -1 度到 +1 度,原本可以是 0.37、0.38、0.385 任何小数;现在我把这 2 度的范围平均切成 256 档,每档对应一个整数 0-255。读数变粗了,但只有 256 种可能,刚好对得上 token 的离散世界。

关键操作:把每个连续数字按"-1 到 +1"切成 256 档,每档配一个 token。所以一条完整动作 = 一串 8 个 token,比如 "1 128 91 241 5 101 127 217"——长得跟一句话一模一样,VLM 张嘴就能写。

然后包装成 VQA 格式喂给 VLM:

输入:图片 + "Q: what action should the robot take to pick up the chip bag? A:" 输出:"1 128 91 241 5 101 127 217"

VQA(Visual Question Answering,视觉问答):让 AI 看一张图回答关于这张图的问题,是 VLM 最经典的任务之一。

两种 VLM 不同的"塞 token"方式

  • PaLI-X:它的词表本来就给 0-999 每个整数都留了独立 token,所以直接用"动作数字 → 同名 token"对应即可。
  • PaLM-E:词表里没有现成数字 token,作者干脆把词表里出现频率最低的 256 个 token 强行覆盖成动作 token。原本可能是某个生僻外语词,现在被改成"动作 73"。这种操作叫 symbol tuning。

为什么这步有用

  • VLM 不需要长出新模块——零新增参数。
  • 训练时只是"多教它几种新词",复用了它已有的全部知识。
  • 后续 OpenVLA 等开源 VLA 都沿用这个套路。

所以这一节是想说:动作被翻译成 8 个数字 token,VLM 就能像写句子一样"写动作",连改架构都不用。


2. 拿现成的 VLM 当底座(PaLI-X / PaLM-E)

类比

想造电动车有两条路:从零设计每个螺丝,或者拿一辆现成的好燃油车把发动机换成电池电机。后者快得多——底盘、车身、内饰都现成的,只动关键那一处。RT-2 走的就是后者:拿 Google 已经训好的两个超大型 VLM 当底盘,架构一行不改,只在它身上"再多训一阵子"。

它在干什么

底座二选一:

  • RT-2-PaLI-X:5B 参数(小号)和 55B 参数(巨无霸)两版。视觉用 ViT-22B,语言用 32B 的 encoder-decoder。
  • RT-2-PaLM-E:12B 参数。语言用 PaLM 系列的 decoder-only LLM,视觉用 ViT-4B。

ViT(Vision Transformer):把图片切成小方块,每块当成"一个词"喂给 Transformer 处理。是现在视觉模型的主流架构。

encoder-decoder vs decoder-only:两种 Transformer 风格。前者像"先理解后写作文"(机器翻译常用),后者像"边想边写"(GPT 风格)。

PaLI-X / PaLM-E:Google 内部两个不同路线的多模态大模型。前者偏视觉理解,后者偏语言+具身整合。

为什么用两个?

作者想验证"VLA 的成功不依赖某个特定 VLM"——只要底座够强,这个套路就能复用。事实上结果显示两个版本各有所长:

  • PaLI-X-55B 在符号理解、人物识别上更强(视觉训练多);
  • PaLM-E-12B 在数学推理上更强(语言训练含数学题)。

为什么这步有用

  • 网络规模训练成本:PaLI-X-55B 大概要烧几百万美元,复用就是省钱
  • 全部网页知识(物体名、动作动词、人脸、品牌、外语)天然继承下来,机器人数据只需要补"具体动作"那部分。

所以这一节是想说:不重新发明轮子,直接拿现成的"超博学家教"当机器人大脑。


3. 联合微调(Co-Fine-Tuning):边练新技能边复习旧本领

类比

学生备考时只刷新题、把课本知识全扔了,新题考完老知识也忘光——这叫"为了一棵树砍掉整片林"。聪明的做法是"上午刷新题、下午翻课本",新旧一起练。RT-2 训练就是这思路:机器人动作数据网页 VQA 数据混在同一个 batch 里同时喂——新技能和旧本领一起练,不让它顾此失彼。

微调(fine-tuning):在一个已经预训练好的大模型基础上,用小规模新数据继续训练,让它适应新任务。

Co-fine-tuning(联合微调):和单纯微调不同——训练时不丢掉原先的网页数据,而是按一定比例混进来。机器人数据 + 网页 VQA 数据 同时喂给模型。

batch(批次):训练时一次喂给模型的数据组。比如一个 batch 含 2048 个样本,里面可能 1024 个是机器人轨迹,1024 个是看图问答。

灾难性遗忘(catastrophic forgetting):神经网络的老毛病——给它学新东西,它会忘掉旧东西。Co-fine-tuning 就是为了对抗这个。

它在干什么

混合比例:

  • RT-2-PaLI-X:机器人数据占 batch 的 50%
  • RT-2-PaLM-E:机器人数据占 batch 的 66%

剩下的部分仍然是 WebLI 那 10 亿张图文对、VQA 题、各种网页 caption。

训练目标:和写文章一样的"下一个 token 预测"——给定前文,猜下一个 token。猜对得分,猜错扣分。机器人数据里的"动作 token"就是模型要猜的目标。

next-token prediction(下一个 token 预测):所有现代 LLM 的训练目标。给模型一段话,让它猜下一个词。在 VLA 里,"下一个词"可能就是"下一个动作 token"。

behavior cloning loss(行为克隆损失):模仿学习里的标准目标——让模型的输出和人类示范的动作一致。在 RT-2 里它就等价于 next-token prediction。

输出约束(Output Constraint):测试时如果是机器人任务,模型只允许输出动作 token;如果是 VQA 任务,仍然可以输出全部自然语言。这条规则保证机器人不会突然蹦出"嗨"两个字然后机械臂崩溃。

为什么这步有用

消融实验里有一组数据非常震撼:

  • 从零训练(不用 VLM 预训练权重):5B 模型在未见环境上的平均成功率 9%。
  • 仅微调(只用机器人数据 fine-tune):42%。
  • 联合微调(co-fine-tuning):44%(5B),63%(55B)。

意思是:预训练 + 联合微调从零训练 在泛化上高了 7 倍。说明"网页知识"才是泛化能力的真正来源。

所以这一节是想说:训练时不能让模型只啃机器人数据,必须同时复习网页知识,才能保住"会推理 + 会泛化"的本事。


4. 远程推理:把大模型放云上、机器人当瘦客户端

类比

你的手机本身跑不动 GPT-4,但你照样能用——因为真正的计算在 OpenAI 数据中心,手机只是发个问题、收个答案。RT-2 用了同样的招:55B 参数的大脑塞不进机器人的小电脑,那就让大脑住在 Google 数据中心,机器人每次"想动一下"就拍张照、发条消息问云端"我下一步该怎么动?",等回复传回来再让电机执行。

它在干什么

  • 模型部署在多 TPU 云服务上。
  • 机器人每控制周期发一次请求:发图 + 任务描述,云端返回 8 个动作 token。
  • 机器人本地把 token 反离散化(de-tokenize)成连续动作,发给电机执行。

TPU(Tensor Processing Unit):Google 自研的 AI 专用芯片,比 GPU 在大模型推理上更快。

控制频率:机器人每秒能更新多少次动作。人手大概 3-5 Hz 就够日常操作;高频精细动作(写字、缝纫)需要 30+ Hz。

闭环控制(closed-loop control):每动一步都重新看一眼场景再决定下一步。和"睁着眼提前规划好整套动作再瞎摸"(开环)相对。

实测频率

  • RT-2-PaLI-X-55B:1-3 Hz
  • RT-2-PaLI-X-5B:约 5 Hz

这是史上最大的直接控制机器人的模型——比之前的同类工作大一个数量级以上。

为什么这步有用

  • 不限制模型大小,跑得起 55B;
  • 多机器人共享一个云端模型,降低单机成本;
  • 网络延迟在桌面操作场景下可接受(毕竟人手抓东西也就 1-2 秒一动作)。

代价:高频任务(比如剥鸡蛋、缝纫)目前还跑不动。论文也承认这是当前最大瓶颈。

所以这一节是想说:用"机器人当瘦客户端、云端跑大脑"的部署方式,把不可能的 55B 模型搬进了真实机器人。


RT-2 — 方法示意:核心 pipeline
Plate Nº IIRT-2 — 方法示意:核心 pipeline

关键数字(What works)

数字本身不重要,重要的是它们告诉你"哪条设计选择真的关键"。

数字 1:未见物体/背景/环境的平均成功率 62% vs RT-1 的 32%

  • 怎么算的:在未见物体(Easy/Hard)、未见背景、未见环境共 280+ 任务上,跑 6000 次评估。
  • 对比:RT-1(35M 参数的纯机器人 transformer)= 32%;MOO = 35%;R3M = 12%;VC-1 = 10%。
  • 生活语言:RT-2 在"换厨房、换物体、换灯光"的场景下,比上一代选手 接近翻倍。它真的把网页知识用上了。

数字 2:涌现能力评估上的 60% vs 17%

  • 怎么算的:作者专门设计了"机器人数据里完全没出现过"的指令——比如"把可乐放到泰勒·斯威夫特旁边""把香蕉放到 2 + 1 的答案附近"。共三类:符号理解、推理、人物识别。
  • 对比:RT-1 = 17%,VC-1 = 11%,RT-2-PaLI-X-55B = 60%
  • 生活语言:RT-1 几乎不会做这些任务(成功率刚过随机),RT-2 三倍碾压。这是"网页知识传到了动作里"最直接的证据。

数字 3:联合微调比单纯微调高 11 分(5B),高 11 分(55B)

  • 怎么算的:5B 模型联合微调 44% vs 仅微调 42%(差距小);55B 模型联合微调 63% vs 仅微调 52%(差距大)。
  • 生活语言:模型越大,保住网页知识的边际收益越高。说明"光啃机器人数据"会让大模型把脑子里的常识忘掉一部分。

数字 4:从零训练只有 9% 成功率

  • 怎么算的:5B PaLI-X 不加载任何预训练权重,从随机初始化开始训。
  • 对比:联合微调 44%——预训练把成功率拉高 5 倍
  • 生活语言:再给你大模型,没读过网页数据也是空架子。VLA 的能力是预训练给的,不是模型结构给的。

数字 5:在 Language-Table 模拟环境上 90% vs 上一代 SOTA 77%

  • 怎么算的:用更小的 PaLI-3B 在 Language-Table 桌面推动任务上微调。
  • 对比:BC-Zero = 72%、RT-1 = 74%、LAVA = 77%、RT-2-PaLI-3B = 90%
  • 生活语言:即使在另一个"非 RT-1 风格"的小机器人模拟器上,VLA 套路依然吊打专项设计的方法。

数字 6:55B 模型 vs 5B 模型在泛化上 +20 分

  • 怎么算的:5B 联合微调平均 44%,55B 联合微调平均 63%。
  • 生活语言模型越大,泛化越好。这条规律和 LLM 一样适用于 VLA。RT-2 是第一篇明确证明这一点的具身论文。

所以这一节是想说:数据告诉我们——决定胜负的是"VLM 预训练 + 联合微调",模型大小是放大器但不是关键。


你应该懂的几个新词

VLA(Vision-Language-Action Model,视觉-语言-动作模型):能看图、读指令、直接输出机器人动作的模型。RT-2 是这个词的命名者。

PaLI-X / PaLM-E:Google 的两个 VLM 底座。前者偏视觉,后者偏语言+具身。

6-DoF:六自由度,描述末端位姿需要的最少独立参数(3 平移 + 3 旋转)。

末端执行器(end-effector):机器人手臂最前端的"手",通常是夹爪。

Tokenization(分词):把一段连续信号(文字、动作)切成离散单元(token)的过程。RT-2 把动作切成 256 档来 tokenize。

离散化(discretization):把连续区间切成有限格子。RT-2 把每维动作切成 256 档。

Symbol tuning(符号微调):把模型词表里某些罕见 token 重新赋意义,让它们承载新含义。RT-2-PaLM-E 用这招塞动作 token。

Co-fine-tuning(联合微调):训练时把"原任务数据"和"新任务数据"按比例混在 batch 里,避免遗忘。RT-2 的核心训练 trick。

Behavior cloning(行为克隆):让模型模仿专家示范——这里就是模仿人类遥操机器人的轨迹。

Closed-loop control(闭环控制):每动一步都重新看一眼再决定下一步,和开环(提前规划完一次性执行)相对。

Chain-of-thought(思维链):让模型先用自然语言写"计划"再写"动作",把推理过程显式化。RT-2 的进阶用法。

Emergent capability(涌现能力):模型在没专门训练过的任务上突然出现的能力。RT-2 涌现了符号识别、人物识别、跨语言指令等能力。

所以这一节是想说:上面这十几个词以后看任何 VLA 论文都会反复出现,先把它们和生活类比挂钩。


它有什么搞不定的

论文自己也老实交代了几个翻车场景:

  • 不会学新动作:网页知识只能教它"识别新物体、理解新指令",但不会生出新动作。如果机器人数据里从没出现过"擦桌子"动作,VLA 看再多视频也不会擦。物理技能仍然受限于演示数据集。
  • 精细操作失败:抓"具体某个部位(比如杯柄)"、灵巧动作(叠毛巾、用工具)、需要"多层间接推理"的任务,RT-2 经常翻车。
  • 延迟限制:55B 模型 1-3 Hz,做不了高频精细动作(剥鸡蛋、缝纫等需要 20Hz+)。
  • 依赖闭源 VLM:RT-2 本身没开源——PaLI-X 和 PaLM-E 都是 Google 内部模型。学术界要等 OpenVLA 之类的开源复刻才能用。
  • 推理成本高:每次都要走云端,断网就停。

所以这一节是想说:RT-2 强在泛化和理解,但物理动作多样性、精细度、自治性都还是软肋。


它和别的论文是什么关系

  • 直接前作:RT-1(2022) — 同一组人的纯机器人 transformer。RT-2 用的机器人数据集就是 RT-1 收集的(13 个机器人 17 个月在办公室厨房采的)。RT-2 = RT-1 数据 + VLM 大脑。
  • 直接前作:PaLM-E(2023) — 同一组(DeepMind)的"具身多模态语言模型"。PaLM-E 把图和机器人状态塞进 LLM 来做高层规划(输出文字指令),但底下还是要另一个低层策略来执行。RT-2 跨过这一步——直接输出动作 token,不再分两层。
  • 思路同源:LLaVA(2023) — 都是"用 VLM 当大脑做下游任务"的思路。LLaVA 把 VLM 用在聊天上,RT-2 把 VLM 用在控制上。两篇放一起读,能看清"怎么把 VLM 转成下游策略"的两种风味——LLaVA 加投影层 + 监督,RT-2 加动作 token + 联合微调。
  • 直接后续:OpenVLA(2024) — 第一个开源的 VLA。完全沿用 RT-2 的"动作 token + 联合微调"配方,但用开源底座(Llama 2 + DINOv2)替代了 PaLI-X,让学术界能复现。
  • 同期对比:MOO / CLIPort — 同样用 VLM 做机器人,但 VLM 只参与"识别"环节,动作策略是另一个独立小模型。RT-2 证明了"端到端共享参数"远胜"管道接力"。
  • 思想分歧:Diffusion Policy(2023) — 完全不同的路线。Diffusion Policy 专注"动作分布建模"(用扩散模型生成多模态轨迹),但没有语义脑,看不懂"草莓和水果碗的关系"。RT-2 强在语义弱在精细动作;Diffusion Policy 反过来。后续工作(如 RDT、Pi0)尝试合二为一。

所以这一节是想说:RT-2 是 VLA 路线的奠基论文,OpenVLA 是它的开源儿子,PaLM-E 是它的爹,Diffusion Policy 是它的对手。


我建议这样读这篇

零基础读者不要从头读到尾。建议这样走:

  1. 看 Figure 1(5 分钟):理解"图 + 任务 → 动作 token → 反离散化 → 真实动作"这个流水线。
  2. 跳到 Section 3.2 "Robot-Action Fine-tuning"(15 分钟):搞清楚"动作怎么变 token"——这是全文最关键的 1 页。
  3. 读 Section 3.2 后半段 "Co-Fine-Tuning"(10 分钟):理解为什么不能光啃机器人数据。
  4. 跳到 Section 4 实验(20 分钟):重点看 Figure 4(泛化)、Figure 6a(涌现能力)、Figure 6b(消融)。消融实验比正文更说明问题
  5. 看一眼 Section 4.4 的思维链例子(5 分钟):感受一下"先想再做"的画风。
  6. 跳过架构细节(除非你想自己实现):知道"VLM = ViT + Transformer,动作 = 8 个数字 token"就够。

读完这 6 步大约 50-70 分钟,已经能在和别人讨论 VLA 时说出 RT-2 的核心思路。

所以这一节是想说:精华全在"动作 tokenization + 联合微调"两节,配合一张消融表足以理解全文。


一些好奇心问答(FAQ)

Q1:动作切成 256 档够用吗?不会太粗糙?

256 档对应每维大概 0.8% 的精度,对桌面抓取这种厘米级任务够用。但缝纫、写字这种亚毫米精度任务就不够。后续工作(Pi-0 等)改用连续动作头来解决。

Q2:VLM 输出的是字符串数字,怎么变成电机角度?

机器人本地有一个简单的反离散化(de-tokenize)函数:把 token 编号映射回 -1 到 +1 的连续值,再乘以预设的最大动作幅度(比如 ±5cm、±10°)。完全不需要训练,就是一行查表。

Q3:55B 参数 + 云端推理,每次预测要花多少钱?

论文没明确报价,但参考 PaLI-X 同规模 LLM 推理大约每 1000 tokens 几美分。8 个动作 token 一次 < 1 美分。一台机器人一天预测几万次,月成本几百美元——比硬件便宜得多。

Q4:思维链推理(Chain-of-Thought)实际有用吗?

定性观察"看起来更聪明",但论文没给量化对比数字。作者只 fine-tune 了几百步就观察到效果,说明这个能力几乎是零成本嵌入的——VLM 本来就会写计划。

Q5:RT-2 能装到我家扫地机器人上吗?

不能。RT-2 训练在固定 7DoF 桌面机器人上,动作空间和扫地机器人完全不同。要换硬件,必须重新收数据微调。但思路可以照搬——这就是 VLA 这条路线后续繁荣的原因。

Q6:为什么 PaLM-E-12B 比 PaLI-X-55B 在某些任务上更强?

PaLM-E 的预训练数据里语言(含数学)占比更高,所以"算 2+1=3 然后挑那个数字旁边的物体"这种任务上更准。PaLI-X 视觉占比高,所以人脸识别、符号识别更强。底座的预训练偏好会传递到 VLA 行为上

Q7:6000 次评估听起来好多,是怎么做的?

每个任务跑 1-5 次(次数取决于任务总数),人工搭场景、人工判断成功失败。论文用 A/B 测试框架——同一场景下 4 个模型轮流跑,控制干扰因素。这个工作量是 RT-2 含金量的一部分——不是简单算数字。

Q8:RT-2 之后的 VLA 该看什么?

最直接的下一步是 OpenVLA(2024)——它把 RT-2 的配方完全开源化,用 Llama 2 + DINOv2 替代闭源底座,所有人都能跑。后续还有 Pi-0(2024)、RT-X 集合数据集、RDT 等。

所以这一节是想说:实操问题(精度、成本、部署、复现)作者大多想到了,但开源得等 OpenVLA。


如果你想再深入

按"前传 → 同期对比 → 续作 → 衍生方向"四类排序:

  1. 前传:RT-1(2022) — RT-2 的纯机器人前身,35M 参数的轻量 transformer。读完能理解 RT-2 的"机器人数据从哪来"。
  2. 前传:PaLM-E(2023) — RT-2 的 VLM 底座之一,也是"VLM 做高层规划"路线的代表。RT-2 把 PaLM-E 从规划员升级成执行员。
  3. 同期对比:SayCan(2022) — 经典的"LLM 拆任务 + 学到的低层动作策略"管道。和 RT-2 对比能看清"两层管道 vs 端到端单模型"的差别。
  4. 续作:OpenVLA(2024) — 第一个开源 VLA,沿用 RT-2 配方但用开源底座。真要复现 RT-2 思路,请直接上 OpenVLA
  5. 同领域对照:Diffusion Policy(2023) — 完全不同的动作建模路线(扩散模型生成轨迹)。VLA 强在语义,Diffusion Policy 强在精度,后来的 Pi-0 试图合并两者。

所以这一节是想说:把 RT-1 + RT-2 + OpenVLA 这三篇连起来读,就能看到 VLA 路线 2022-2024 的完整演化。


最后一个画面

论文里有一张让人印象深刻的图:研究员对着机器人说"我累了,给我拿点喝的"。机器人面对桌上一堆罐子——有可乐、有矿泉水、有红牛——它选择把红牛递了过去。

这一刻,机器人不是在执行预设的"if 累 then 给红牛"规则,也不是在调用一个外挂的"困倦识别 API"。它是用同一个大脑里继承自互联网的常识——红牛是功能性饮料,疲劳的人会喝它——来决定该抓哪个物体的电机要转多少度。

这是 VLA 这个名字第一次真正名副其实:视觉、语言、动作,三个能力从此活在同一组参数里。

所以最后一节是想说:RT-2 不只是技术指标好看——它让"具身 AI 拥有常识"这个口号第一次有了可量化的证据,也开启了之后两年所有 VLA 论文的赛道。

引用本笔记 / Cite this note
BibTeX
@online{eai_rt_2_2026,
  title       = {(readable note) RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/rt-2/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim