End-to-End VLA · Plate Nº 112

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

20 min read · 6897 字 · ⭐⭐⭐⭐ · auto 摘要

#transformer #language #vision #VLA #VLM

这是一份给"完全没接触过 AI"的读者看的精读笔记。语言尽量像聊天，公式全部翻译成人话。

一句话讲什么（TL;DR）

把机器人动作翻译成一句话，让会看图聊天的 AI 用写句子的方式开口指挥机器人——它会写字，就能动手。

所以这一节是想说：RT-2 让一个本来只会写字的 AI，开口说出了机器人能听懂的"动作话"。

这是个什么场景

下班回家，你瘫在沙发上喊一句"我饿了，桌上随便给我拿点能吃的"。理想中的家庭助手机器人此时应该：扫一眼桌子、认出哪个是零食哪个是杯子、挑出最像"能当饭吃"的那个、再把手臂伸过去抓住递给你。这听起来像理所当然的智能，但 2023 年之前的机器人，做不到这件事。

为什么做不到？因为当时业界有两种角色，谁都没法独立干完：

一种是"超博学的英语家教"型 AI——它能聊冷笑话、解奥数题、看图认梗（这就是 GPT-4 那一类视觉语言模型）。但你让它"把草莓放进水果碗"，它就傻眼了——它从没碰过你家厨房，手不会动。
另一种是"训练有素的机器人手臂"——能熟练抓罐子、开抽屉。可你说"把可乐递给戴眼镜的那个人"，它就懵了——它从没见过"戴眼镜"是什么意思。它有手没脑子。

RT-2 想干的事就一句话：把这两个角色塞进同一个脑袋。会聊天的家教 + 会动手的机器人 = 一个又有常识又能动手的助手。

具体长什么样：

你说"我饿了"，它从一堆零食里挑出 RXBar 巧克力棒递给你；
你说"把可乐放到泰勒·斯威夫特那张照片旁边"，它知道泰勒长什么样；
你说"找一个能当锤子用的东西"，它从桌上挑出石头。

而且关键是：动作必须真的在物理世界跑起来——不是聊天里"我会去做"那种敷衍，是手臂真的要挪、爪子真的要张。

所以这一节是想说：RT-2 要造一个"懂常识 + 懂语言 + 真能动手"的机器人助手。

之前的人怎么做的，为什么不够好

方案 A：纯堆机器人数据 类比：让一个从没读过书的人，靠一万次手把手的训练学会做家务。代价巨大，只学到表面动作，换个新厨房就不会了。问题：网上能爬到几十亿张图、几万亿字的文本，但机器人轨迹数据全世界加起来也只有百万级。光靠它没法泛化。
方案 B：把 LLM 当"高层规划师" 类比：经理坐办公室画 PPT 拆任务（"先去厨房 → 再开冰箱 → 再拿牛奶"），下面的小工照着干。但小工本身没读过书，只认基础动作。代表作：SayCan、PaLM-E（早期）。问题是"上层会想，下层不会变通"——任何"创造性"动作只能由下层老老实实执行，下层根本不知道"草莓"和"碗"在语义上有什么关系。
方案 C：CLIPort、MOO 这种"用 VLM 标记物体" 类比：让 VLM 在画面里给目标物体贴一个红点，然后小工去抓那个红点。但这把动作空间限制成了 2D（只能在桌面上动），而且需要相机标定。问题：VLM 只在"识别阶段"被用一下，真正的动作策略还是另一个小模型在干。VLM 的知识没有被传给动作。
方案 D：Gato 这类"从头训通用智能体" 类比：从婴儿状态开始什么都教（玩游戏、看图、下棋、控制机器人）。耗资巨大，效果不一定比专一的模型好。问题是 没复用已有的 VLM，相当于浪费了几亿美元的预训练投入。
核心难题：怎么让"看图聊天的脑子"和"控制手臂的身体"用同一套参数学习，而不是接两根管子？

所以这一节是想说：之前的方案要么没脑子、要么脑子和身体之间靠管子接，导致网上的常识传不到动作里。

这篇论文的新想法

把机器人动作直接编码成"几个数字 token"——和文字 token 用同一种格式。这样会聊天的 VLM 不需要改任何架构，只要"再多学几句话"就能开口控制机器人。

听起来匪夷所思——一个吐字的 AI 怎么可能控制电机？关键在于：动作本身就是几个连续数字（手臂沿 X 轴移动多少、绕 Y 轴转多少度、爪子张多少），把每个数字离散化成 256 档，每档对应一个 token，就能像写句子一样"写动作"了。

所以这一节是想说：核心创新是把"动作"翻译成 token，让 VLM 用写文章的方式开口指挥机器人。

它分几步做的（方法）

整个论文做了 4 件事：动作怎么变 token、模型怎么挑、训练怎么搭、推理怎么提速。

1. 把机器人动作"装"成一句话

类比

打电话教朋友停车，你只能这样说："方向盘往左 3 度，油门踩 0.2 秒，刹车放开"——一串数字加一串名词。RT-2 也是这么教 VLM 说"动作话"的：把手臂的每一步动作翻译成几个数字写出来。

它在干什么

机器人手臂的动作其实就是 7 个连续数字 + 1 个终止信号：

末端位置变化：Δx、Δy、Δz（3 个数，手要往哪挪）
末端旋转变化：Δrx、Δry、Δrz（3 个数，手要怎么转）
爪子开合度：1 个数（要不要捏紧）
终止指令：1 个布尔值（这步是不是收工）

等等，先慢一拍——这里几个词到底是啥？

末端（end-effector）：机器人手臂最前端的"手"，通常是夹爪或吸盘。控制机器人就是控制这只手怎么动。

6-DoF（六自由度）：一个物体在 3D 空间能做的全部独立运动——前后/左右/上下挪 3 种 + 绕 3 个轴转 3 种。描述"我的手怎么挪到那儿"，6 个数就够。

离散化（discretization）：把一段连续值切成一格一格。想象一根温度计从 -1 度到 +1 度，原本可以是 0.37、0.38、0.385 任何小数；现在我把这 2 度的范围平均切成 256 档，每档对应一个整数 0-255。读数变粗了，但只有 256 种可能，刚好对得上 token 的离散世界。

关键操作：把每个连续数字按"-1 到 +1"切成 256 档，每档配一个 token。所以一条完整动作 = 一串 8 个 token，比如 "1 128 91 241 5 101 127 217"——长得跟一句话一模一样，VLM 张嘴就能写。

然后包装成 VQA 格式喂给 VLM：

输入：图片 + "Q: what action should the robot take to pick up the chip bag? A:" 输出："1 128 91 241 5 101 127 217"

VQA（Visual Question Answering，视觉问答）：让 AI 看一张图回答关于这张图的问题，是 VLM 最经典的任务之一。

两种 VLM 不同的"塞 token"方式：

PaLI-X：它的词表本来就给 0-999 每个整数都留了独立 token，所以直接用"动作数字 → 同名 token"对应即可。
PaLM-E：词表里没有现成数字 token，作者干脆把词表里出现频率最低的 256 个 token 强行覆盖成动作 token。原本可能是某个生僻外语词，现在被改成"动作 73"。这种操作叫 symbol tuning。

为什么这步有用

VLM 不需要长出新模块——零新增参数。
训练时只是"多教它几种新词"，复用了它已有的全部知识。
后续 OpenVLA 等开源 VLA 都沿用这个套路。

所以这一节是想说：动作被翻译成 8 个数字 token，VLM 就能像写句子一样"写动作"，连改架构都不用。

2. 拿现成的 VLM 当底座（PaLI-X / PaLM-E）

类比

想造电动车有两条路：从零设计每个螺丝，或者拿一辆现成的好燃油车把发动机换成电池电机。后者快得多——底盘、车身、内饰都现成的，只动关键那一处。RT-2 走的就是后者：拿 Google 已经训好的两个超大型 VLM 当底盘，架构一行不改，只在它身上"再多训一阵子"。

它在干什么

底座二选一：

RT-2-PaLI-X：5B 参数（小号）和 55B 参数（巨无霸）两版。视觉用 ViT-22B，语言用 32B 的 encoder-decoder。
RT-2-PaLM-E：12B 参数。语言用 PaLM 系列的 decoder-only LLM，视觉用 ViT-4B。

ViT（Vision Transformer）：把图片切成小方块，每块当成"一个词"喂给 Transformer 处理。是现在视觉模型的主流架构。

encoder-decoder vs decoder-only：两种 Transformer 风格。前者像"先理解后写作文"（机器翻译常用），后者像"边想边写"（GPT 风格）。

PaLI-X / PaLM-E：Google 内部两个不同路线的多模态大模型。前者偏视觉理解，后者偏语言+具身整合。

为什么用两个？

作者想验证"VLA 的成功不依赖某个特定 VLM"——只要底座够强，这个套路就能复用。事实上结果显示两个版本各有所长：

PaLI-X-55B 在符号理解、人物识别上更强（视觉训练多）；
PaLM-E-12B 在数学推理上更强（语言训练含数学题）。

为什么这步有用

网络规模训练成本：PaLI-X-55B 大概要烧几百万美元，复用就是省钱。
全部网页知识（物体名、动作动词、人脸、品牌、外语）天然继承下来，机器人数据只需要补"具体动作"那部分。

所以这一节是想说：不重新发明轮子，直接拿现成的"超博学家教"当机器人大脑。

3. 联合微调（Co-Fine-Tuning）：边练新技能边复习旧本领

类比

学生备考时只刷新题、把课本知识全扔了，新题考完老知识也忘光——这叫"为了一棵树砍掉整片林"。聪明的做法是"上午刷新题、下午翻课本"，新旧一起练。RT-2 训练就是这思路：机器人动作数据和网页 VQA 数据混在同一个 batch 里同时喂——新技能和旧本领一起练，不让它顾此失彼。

微调（fine-tuning）：在一个已经预训练好的大模型基础上，用小规模新数据继续训练，让它适应新任务。

Co-fine-tuning（联合微调）：和单纯微调不同——训练时不丢掉原先的网页数据，而是按一定比例混进来。机器人数据 + 网页 VQA 数据同时喂给模型。

batch（批次）：训练时一次喂给模型的数据组。比如一个 batch 含 2048 个样本，里面可能 1024 个是机器人轨迹，1024 个是看图问答。

灾难性遗忘（catastrophic forgetting）：神经网络的老毛病——给它学新东西，它会忘掉旧东西。Co-fine-tuning 就是为了对抗这个。

它在干什么

混合比例：

RT-2-PaLI-X：机器人数据占 batch 的 50%。
RT-2-PaLM-E：机器人数据占 batch 的 66%。

剩下的部分仍然是 WebLI 那 10 亿张图文对、VQA 题、各种网页 caption。

训练目标：和写文章一样的"下一个 token 预测"——给定前文，猜下一个 token。猜对得分，猜错扣分。机器人数据里的"动作 token"就是模型要猜的目标。

next-token prediction（下一个 token 预测）：所有现代 LLM 的训练目标。给模型一段话，让它猜下一个词。在 VLA 里，"下一个词"可能就是"下一个动作 token"。

behavior cloning loss（行为克隆损失）：模仿学习里的标准目标——让模型的输出和人类示范的动作一致。在 RT-2 里它就等价于 next-token prediction。

输出约束（Output Constraint）：测试时如果是机器人任务，模型只允许输出动作 token；如果是 VQA 任务，仍然可以输出全部自然语言。这条规则保证机器人不会突然蹦出"嗨"两个字然后机械臂崩溃。

为什么这步有用

消融实验里有一组数据非常震撼：

从零训练（不用 VLM 预训练权重）：5B 模型在未见环境上的平均成功率 9%。
仅微调（只用机器人数据 fine-tune）：42%。
联合微调（co-fine-tuning）：44%（5B），63%（55B）。

意思是：预训练 + 联合微调 比 从零训练 在泛化上高了 7 倍。说明"网页知识"才是泛化能力的真正来源。

所以这一节是想说：训练时不能让模型只啃机器人数据，必须同时复习网页知识，才能保住"会推理 + 会泛化"的本事。

4. 远程推理：把大模型放云上、机器人当瘦客户端

类比

你的手机本身跑不动 GPT-4，但你照样能用——因为真正的计算在 OpenAI 数据中心，手机只是发个问题、收个答案。RT-2 用了同样的招：55B 参数的大脑塞不进机器人的小电脑，那就让大脑住在 Google 数据中心，机器人每次"想动一下"就拍张照、发条消息问云端"我下一步该怎么动？"，等回复传回来再让电机执行。

它在干什么

模型部署在多 TPU 云服务上。
机器人每控制周期发一次请求：发图 + 任务描述，云端返回 8 个动作 token。
机器人本地把 token 反离散化（de-tokenize）成连续动作，发给电机执行。

TPU（Tensor Processing Unit）：Google 自研的 AI 专用芯片，比 GPU 在大模型推理上更快。

控制频率：机器人每秒能更新多少次动作。人手大概 3-5 Hz 就够日常操作；高频精细动作（写字、缝纫）需要 30+ Hz。

闭环控制（closed-loop control）：每动一步都重新看一眼场景再决定下一步。和"睁着眼提前规划好整套动作再瞎摸"（开环）相对。

实测频率：

RT-2-PaLI-X-55B：1-3 Hz
RT-2-PaLI-X-5B：约 5 Hz

这是史上最大的直接控制机器人的模型——比之前的同类工作大一个数量级以上。

为什么这步有用

不限制模型大小，跑得起 55B；
多机器人共享一个云端模型，降低单机成本；
网络延迟在桌面操作场景下可接受（毕竟人手抓东西也就 1-2 秒一动作）。

代价：高频任务（比如剥鸡蛋、缝纫）目前还跑不动。论文也承认这是当前最大瓶颈。

所以这一节是想说：用"机器人当瘦客户端、云端跑大脑"的部署方式，把不可能的 55B 模型搬进了真实机器人。

关键数字（What works）

数字本身不重要，重要的是它们告诉你"哪条设计选择真的关键"。

数字 1：未见物体/背景/环境的平均成功率 62% vs RT-1 的 32%

怎么算的：在未见物体（Easy/Hard）、未见背景、未见环境共 280+ 任务上，跑 6000 次评估。
对比：RT-1（35M 参数的纯机器人 transformer）= 32%；MOO = 35%；R3M = 12%；VC-1 = 10%。
生活语言：RT-2 在"换厨房、换物体、换灯光"的场景下，比上一代选手 接近翻倍。它真的把网页知识用上了。

数字 2：涌现能力评估上的 60% vs 17%

怎么算的：作者专门设计了"机器人数据里完全没出现过"的指令——比如"把可乐放到泰勒·斯威夫特旁边""把香蕉放到 2 + 1 的答案附近"。共三类：符号理解、推理、人物识别。
对比：RT-1 = 17%，VC-1 = 11%，RT-2-PaLI-X-55B = 60%。
生活语言：RT-1 几乎不会做这些任务（成功率刚过随机），RT-2 三倍碾压。这是"网页知识传到了动作里"最直接的证据。

数字 3：联合微调比单纯微调高 11 分（5B），高 11 分（55B）

怎么算的：5B 模型联合微调 44% vs 仅微调 42%（差距小）；55B 模型联合微调 63% vs 仅微调 52%（差距大）。
生活语言：模型越大，保住网页知识的边际收益越高。说明"光啃机器人数据"会让大模型把脑子里的常识忘掉一部分。

数字 4：从零训练只有 9% 成功率

怎么算的：5B PaLI-X 不加载任何预训练权重，从随机初始化开始训。
对比：联合微调 44%——预训练把成功率拉高 5 倍。
生活语言：再给你大模型，没读过网页数据也是空架子。VLA 的能力是预训练给的，不是模型结构给的。

数字 5：在 Language-Table 模拟环境上 90% vs 上一代 SOTA 77%

怎么算的：用更小的 PaLI-3B 在 Language-Table 桌面推动任务上微调。
对比：BC-Zero = 72%、RT-1 = 74%、LAVA = 77%、RT-2-PaLI-3B = 90%。
生活语言：即使在另一个"非 RT-1 风格"的小机器人模拟器上，VLA 套路依然吊打专项设计的方法。

数字 6：55B 模型 vs 5B 模型在泛化上 +20 分

怎么算的：5B 联合微调平均 44%，55B 联合微调平均 63%。
生活语言：模型越大，泛化越好。这条规律和 LLM 一样适用于 VLA。RT-2 是第一篇明确证明这一点的具身论文。

所以这一节是想说：数据告诉我们——决定胜负的是"VLM 预训练 + 联合微调"，模型大小是放大器但不是关键。

你应该懂的几个新词

VLA（Vision-Language-Action Model，视觉-语言-动作模型）：能看图、读指令、直接输出机器人动作的模型。RT-2 是这个词的命名者。

PaLI-X / PaLM-E：Google 的两个 VLM 底座。前者偏视觉，后者偏语言+具身。

6-DoF：六自由度，描述末端位姿需要的最少独立参数（3 平移 + 3 旋转）。

末端执行器（end-effector）：机器人手臂最前端的"手"，通常是夹爪。

Tokenization（分词）：把一段连续信号（文字、动作）切成离散单元（token）的过程。RT-2 把动作切成 256 档来 tokenize。

离散化（discretization）：把连续区间切成有限格子。RT-2 把每维动作切成 256 档。

Symbol tuning（符号微调）：把模型词表里某些罕见 token 重新赋意义，让它们承载新含义。RT-2-PaLM-E 用这招塞动作 token。

Co-fine-tuning（联合微调）：训练时把"原任务数据"和"新任务数据"按比例混在 batch 里，避免遗忘。RT-2 的核心训练 trick。

Behavior cloning（行为克隆）：让模型模仿专家示范——这里就是模仿人类遥操机器人的轨迹。

Closed-loop control（闭环控制）：每动一步都重新看一眼再决定下一步，和开环（提前规划完一次性执行）相对。

Chain-of-thought（思维链）：让模型先用自然语言写"计划"再写"动作"，把推理过程显式化。RT-2 的进阶用法。

Emergent capability（涌现能力）：模型在没专门训练过的任务上突然出现的能力。RT-2 涌现了符号识别、人物识别、跨语言指令等能力。

所以这一节是想说：上面这十几个词以后看任何 VLA 论文都会反复出现，先把它们和生活类比挂钩。

它有什么搞不定的

论文自己也老实交代了几个翻车场景：

不会学新动作：网页知识只能教它"识别新物体、理解新指令"，但不会生出新动作。如果机器人数据里从没出现过"擦桌子"动作，VLA 看再多视频也不会擦。物理技能仍然受限于演示数据集。
精细操作失败：抓"具体某个部位（比如杯柄）"、灵巧动作（叠毛巾、用工具）、需要"多层间接推理"的任务，RT-2 经常翻车。
延迟限制：55B 模型 1-3 Hz，做不了高频精细动作（剥鸡蛋、缝纫等需要 20Hz+）。
依赖闭源 VLM：RT-2 本身没开源——PaLI-X 和 PaLM-E 都是 Google 内部模型。学术界要等 OpenVLA 之类的开源复刻才能用。
推理成本高：每次都要走云端，断网就停。

所以这一节是想说：RT-2 强在泛化和理解，但物理动作多样性、精细度、自治性都还是软肋。

它和别的论文是什么关系

直接前作：RT-1（2022） — 同一组人的纯机器人 transformer。RT-2 用的机器人数据集就是 RT-1 收集的（13 个机器人 17 个月在办公室厨房采的）。RT-2 = RT-1 数据 + VLM 大脑。
直接前作：PaLM-E（2023） — 同一组（DeepMind）的"具身多模态语言模型"。PaLM-E 把图和机器人状态塞进 LLM 来做高层规划（输出文字指令），但底下还是要另一个低层策略来执行。RT-2 跨过这一步——直接输出动作 token，不再分两层。
思路同源：LLaVA（2023） — 都是"用 VLM 当大脑做下游任务"的思路。LLaVA 把 VLM 用在聊天上，RT-2 把 VLM 用在控制上。两篇放一起读，能看清"怎么把 VLM 转成下游策略"的两种风味——LLaVA 加投影层 + 监督，RT-2 加动作 token + 联合微调。
直接后续：OpenVLA（2024） — 第一个开源的 VLA。完全沿用 RT-2 的"动作 token + 联合微调"配方，但用开源底座（Llama 2 + DINOv2）替代了 PaLI-X，让学术界能复现。
同期对比：MOO / CLIPort — 同样用 VLM 做机器人，但 VLM 只参与"识别"环节，动作策略是另一个独立小模型。RT-2 证明了"端到端共享参数"远胜"管道接力"。
思想分歧：Diffusion Policy（2023） — 完全不同的路线。Diffusion Policy 专注"动作分布建模"（用扩散模型生成多模态轨迹），但没有语义脑，看不懂"草莓和水果碗的关系"。RT-2 强在语义弱在精细动作；Diffusion Policy 反过来。后续工作（如 RDT、Pi0）尝试合二为一。

所以这一节是想说：RT-2 是 VLA 路线的奠基论文，OpenVLA 是它的开源儿子，PaLM-E 是它的爹，Diffusion Policy 是它的对手。

我建议这样读这篇

零基础读者不要从头读到尾。建议这样走：

看 Figure 1（5 分钟）：理解"图 + 任务 → 动作 token → 反离散化 → 真实动作"这个流水线。
跳到 Section 3.2 "Robot-Action Fine-tuning"（15 分钟）：搞清楚"动作怎么变 token"——这是全文最关键的 1 页。
读 Section 3.2 后半段 "Co-Fine-Tuning"（10 分钟）：理解为什么不能光啃机器人数据。
跳到 Section 4 实验（20 分钟）：重点看 Figure 4（泛化）、Figure 6a（涌现能力）、Figure 6b（消融）。消融实验比正文更说明问题。
看一眼 Section 4.4 的思维链例子（5 分钟）：感受一下"先想再做"的画风。
跳过架构细节（除非你想自己实现）：知道"VLM = ViT + Transformer，动作 = 8 个数字 token"就够。

读完这 6 步大约 50-70 分钟，已经能在和别人讨论 VLA 时说出 RT-2 的核心思路。

所以这一节是想说：精华全在"动作 tokenization + 联合微调"两节，配合一张消融表足以理解全文。

一些好奇心问答（FAQ）

Q1：动作切成 256 档够用吗？不会太粗糙？

256 档对应每维大概 0.8% 的精度，对桌面抓取这种厘米级任务够用。但缝纫、写字这种亚毫米精度任务就不够。后续工作（Pi-0 等）改用连续动作头来解决。

Q2：VLM 输出的是字符串数字，怎么变成电机角度？

机器人本地有一个简单的反离散化（de-tokenize）函数：把 token 编号映射回 -1 到 +1 的连续值，再乘以预设的最大动作幅度（比如 ±5cm、±10°）。完全不需要训练，就是一行查表。

Q3：55B 参数 + 云端推理，每次预测要花多少钱？

论文没明确报价，但参考 PaLI-X 同规模 LLM 推理大约每 1000 tokens 几美分。8 个动作 token 一次 < 1 美分。一台机器人一天预测几万次，月成本几百美元——比硬件便宜得多。

Q4：思维链推理（Chain-of-Thought）实际有用吗？

定性观察"看起来更聪明"，但论文没给量化对比数字。作者只 fine-tune 了几百步就观察到效果，说明这个能力几乎是零成本嵌入的——VLM 本来就会写计划。

Q5：RT-2 能装到我家扫地机器人上吗？

不能。RT-2 训练在固定 7DoF 桌面机器人上，动作空间和扫地机器人完全不同。要换硬件，必须重新收数据微调。但思路可以照搬——这就是 VLA 这条路线后续繁荣的原因。

Q6：为什么 PaLM-E-12B 比 PaLI-X-55B 在某些任务上更强？

PaLM-E 的预训练数据里语言（含数学）占比更高，所以"算 2+1=3 然后挑那个数字旁边的物体"这种任务上更准。PaLI-X 视觉占比高，所以人脸识别、符号识别更强。底座的预训练偏好会传递到 VLA 行为上。

Q7：6000 次评估听起来好多，是怎么做的？

每个任务跑 1-5 次（次数取决于任务总数），人工搭场景、人工判断成功失败。论文用 A/B 测试框架——同一场景下 4 个模型轮流跑，控制干扰因素。这个工作量是 RT-2 含金量的一部分——不是简单算数字。

Q8：RT-2 之后的 VLA 该看什么？

最直接的下一步是 OpenVLA（2024）——它把 RT-2 的配方完全开源化，用 Llama 2 + DINOv2 替代闭源底座，所有人都能跑。后续还有 Pi-0（2024）、RT-X 集合数据集、RDT 等。

所以这一节是想说：实操问题（精度、成本、部署、复现）作者大多想到了，但开源得等 OpenVLA。

如果你想再深入

按"前传 → 同期对比 → 续作 → 衍生方向"四类排序：

前传：RT-1（2022） — RT-2 的纯机器人前身，35M 参数的轻量 transformer。读完能理解 RT-2 的"机器人数据从哪来"。
前传：PaLM-E（2023） — RT-2 的 VLM 底座之一，也是"VLM 做高层规划"路线的代表。RT-2 把 PaLM-E 从规划员升级成执行员。
同期对比：SayCan（2022） — 经典的"LLM 拆任务 + 学到的低层动作策略"管道。和 RT-2 对比能看清"两层管道 vs 端到端单模型"的差别。
续作：OpenVLA（2024） — 第一个开源 VLA，沿用 RT-2 配方但用开源底座。真要复现 RT-2 思路，请直接上 OpenVLA。
同领域对照：Diffusion Policy（2023） — 完全不同的动作建模路线（扩散模型生成轨迹）。VLA 强在语义，Diffusion Policy 强在精度，后来的 Pi-0 试图合并两者。

所以这一节是想说：把 RT-1 + RT-2 + OpenVLA 这三篇连起来读，就能看到 VLA 路线 2022-2024 的完整演化。

最后一个画面

论文里有一张让人印象深刻的图：研究员对着机器人说"我累了，给我拿点喝的"。机器人面对桌上一堆罐子——有可乐、有矿泉水、有红牛——它选择把红牛递了过去。

这一刻，机器人不是在执行预设的"if 累 then 给红牛"规则，也不是在调用一个外挂的"困倦识别 API"。它是用同一个大脑里继承自互联网的常识——红牛是功能性饮料，疲劳的人会喝它——来决定该抓哪个物体的电机要转多少度。

这是 VLA 这个名字第一次真正名副其实：视觉、语言、动作，三个能力从此活在同一组参数里。

所以最后一节是想说：RT-2 不只是技术指标好看——它让"具身 AI 拥有常识"这个口号第一次有了可量化的证据，也开启了之后两年所有 VLA 论文的赛道。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_rt_2_2026,
  title       = {(readable note) RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/rt-2/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)