回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
End-to-End VLA · Plate Nº 109

RT-1: Robotics Transformer for Real-World Control at Scale

19 min read · 6767 字 · ⭐⭐⭐ · auto 摘要

这是一份给"完全没接触过 AI 和机器人"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。

一句话讲什么(TL;DR)

让机器人看完 13 万段人类亲手示范,就能听一句中文,在真办公室里把可乐罐拿出来放进抽屉。

所以这一节是想说:这篇论文证明了"大模型+大数据"的思路在物理世界里也能跑得动。


这是个什么场景

周末下午,你瘫在沙发上刷手机,茶几上摆着半罐喝剩的可乐。你随口对客厅那台机器人喊一句:

"把茶几上的可乐罐放进中间那个抽屉。"

你期待它像个刚来的家政阿姨:听懂这句话、抬头瞄一眼茶几、走过去、拉开抽屉、捏起可乐、放进去、再把抽屉关上。中间任何一步——没听懂"中间那个"、把可乐看成纸巾盒、手指夹太松把罐子捏扁——都会让整件事砸锅。

可 2022 年,机器人圈做不到这件事。当时台面上的玩家长这样:

  • 工厂流水线机器人:能把一种零件精准塞进一个孔,可你把螺丝换成螺母它就懵了。像那种只会做番茄炒蛋的厨师,让他炒土豆丝就翻车。
  • 会聊天的 AI(GPT 那种):菜谱倒背如流,"可乐放抽屉"的步骤说得头头是道,但它没有手,落不到现实。像光会写美食推文的评论家。
  • 仿真训出来的机器人:在电脑游戏里抓积木抓得飞起,搬到真实桌子上一脚踹翻杯子。像在驾校模拟器拿了满分、第一次真上路就追尾的新司机。

RT-1 想做的事,就是把这三类的好处捏一起:一个统一的模型,听得懂中文或英文指令,能看摄像头画面,直接告诉机器人 7 个关节该怎么转、夹爪该开多大,并且在真实办公室厨房里能搞定 700 多种活

所以这一节是想说:RT-1 要造的是一个"能听话、能看、会动手"的通用机器人控制大脑。


RT-1 — 场景示意:这论文要解决的现实问题
Plate Nº IRT-1 — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

  • 方案 A:流水线拼接(先识别、再规划、再控制) 类比:流水线工厂——视觉组识别物体丢给规划组,规划组算出路径丢给控制组。任何一环出错整条线都崩,且每个组件都得人手维护。

  • 方案 B:BC-Z(行为克隆) 用 ResNet 看图,直接输出连续动作。但它每次只看当前一帧,没有记忆——上一秒做了什么这一秒就忘了。复杂任务做不了。

  • 方案 C:Gato(DeepMind 的通才模型) 用大 Transformer 学多种任务(玩游戏、机器人、写文字混着学)。但 Gato 只在仿真里堆了 1 个搭积木任务,真实世界覆盖很少;模型 1.2B 参数,跑一次推理 1.9 秒——机器人手早动完了。

  • 方案 D:小数据 + 强假设 用几百条示教,加各种手工先验(关节限制、物理约束)。换个任务就要重新调几个月,无法复用。

  • 核心难题:缺一个"既能吸收大数据、又能 100ms 内出动作"的模型架构。模型大了跑不快,跑得快的又学不下海量任务。

所以这一节是想说:以前的方法要么不够通用、要么不够快、要么数据吃不下——RT-1 要同时把这三块解决。


这篇论文的新想法

把"看图 + 听指令 + 输出动作"当成一个序列翻译问题,用一个 35M 参数的小 Transformer 端到端学,再用一些工程技巧把它压到 100ms 内出结果。

听起来朴素,但这是机器人圈第一次有人系统证明:只要架构对、数据够多够杂,机器人也能"涌现"出泛化能力

所以这一节是想说:核心创新是把机器人控制重新框成"序列建模",再配上一套能在真机器人上 3Hz 跑起来的架构工程。


它分几步做的(方法)

整篇论文做了 4 件事:花 17 个月攒数据、设计 token 化方案、搭建一个跑得快的 Transformer、验证它能不能扩展。

1. 攒一个"大而杂"的机器人数据集

类比

想让小孩学会说话,不能只让他听天气预报循环播放——得听到妈妈讲故事、爸爸念绘本、邻居唠家常、电视放动画片,杂七杂八凑在一起,他才学得会语言。机器人也一样:单一任务数据训出来的是工具人,杂任务数据训出来的才是通才。

它在干什么

Google 团队动用了 13 台 Everyday Robots 移动机器人,在 17 个月里,让人类操作员通过遥控,给机器人录下了 13 万段示教视频。每段视频配上一句文字说明,比如"把可乐罐放进中间抽屉"。

示教(demonstration):人手把着机器人或用游戏手柄遥控,让它做一件事。机器人记录下每个时刻的画面 + 自己的动作。AI 之后会模仿这些记录。

行为克隆(Behavioral Cloning):训练方式之一。给定一堆"输入 + 正确动作",让模型学着在同样输入下输出同样动作。和小学抄写课文一个意思。

数据集涵盖 700 多种语言指令,分成 8 大技能:

  • 拿起物体(pick):130 个变种
  • 移动物体到另一物体附近(move X near Y):337 个变种
  • 把长条物体立起来(place upright):8 个
  • 推倒长条物体(knock over):8 个
  • 开抽屉(open drawer):3 个
  • 关抽屉(close drawer):3 个
  • 把物体放进容器(place into receptacle):84 个
  • 从容器拿出再放台面(pick from receptacle and place on counter):162 个

为什么这步有用

  • 第 6.5 节实验显示:数据多样性比数据量更重要。把任务种类砍 25%(数据只少 3%),泛化分数掉得比把数据量砍一半还多。
  • 13 万条这个量级,让模型第一次有机会"刷题刷到见过各种花样"——这是 Transformer 在 NLP 圈的成功秘诀,作者搬到了机器人圈。

所以这一节是想说:通用机器人的命根是"任务多样性 × 量",作者花了 17 个月才把数据这一关熬出来。


2. 把图、文、动作全部"塞进" Transformer 能吃的格式

类比

想象 Transformer 是一台只认豆腐块的麻辣烫机器:扔进什么食材都行,但必须切成同样大小的小方块才能下锅。米饭、青菜、肉,统统先切丁。这个"切方块"的过程在 AI 圈叫 tokenization(标记化)

等等,先慢一拍 — Transformer 到底是个啥?

把它想成一个超级会"找重点"的阅读理解学霸。你给它一串小方块(一句话、一段视频帧、一连串动作),它会左看看右看看,自动判断哪几块最相关,然后输出下一块该是什么。GPT、Claude 都是这套路。RT-1 把"输出下一块"换成"输出下一个关节角度"。

token(标记):模型能直接处理的最小单位。文字里一个 token 大约是半个英文单词;图片里一个 token 是一小块画面的数字摘要;动作里一个 token 是某个关节角度。

Transformer:一种 AI 架构,2017 年由 Google 提出。它擅长处理"序列"——一串按顺序排列的 token,比如一句话、一段视频帧、一连串动作。GPT、ChatGPT、Claude 都是 Transformer。

它在干什么

RT-1 把三种东西都切成 token:

a) 图像 token(眼睛)

  • 输入:最近 6 帧画面,每帧 300×300 像素。
  • 用一个叫 EfficientNet-B3 的图像识别网络(ImageNet 预训练好的)压成 9×9×512 的特征图。
  • 把这 81 个格子拍扁,变成 81 个图像 token。

b) 语言 token(耳朵)

  • Universal Sentence Encoder (USE) 把指令编码成一个固定长度向量。
  • 把这个向量通过 FiLM 层注入到图像编码器内部——意思是"看图时带着指令的偏向看"。

FiLM(Feature-wise Linear Modulation,特征逐维线性调制):一种把一个信息源(比如指令)"染色"到另一个信息源(比如图像特征)上的技巧。形式上是 输出 = γ × 输入 + β,其中 γ 和 β 由指令算出。

类比:你拿着购物清单逛超市。FiLM 就像清单在你脑子里激活了某些"高亮模式"——看到清单上的牛奶时,眼睛对牛奶区特别敏感。

c) TokenLearner:把 81 个 token 压成 8 个

  • 81 个图像 token × 6 帧 = 486 个 token,对一个要在 100ms 内出结果的模型来说太多了。
  • TokenLearner 是一个小模块,学会"软挑选"——从 81 个里浓缩出最关键的 8 个 token。
  • 6 帧 × 8 token = 48 个 token,喂给主 Transformer。

d) 动作 token(手)

  • 机器人动作有 11 个维度:手臂的 x/y/z/roll/pitch/yaw/夹爪开合(7 维)+ 底盘的 x/y/yaw(3 维)+ 模式切换(手臂/底盘/终止,1 维)。
  • 把每个连续维度离散化成 256 个格子——比如手臂 x 方向的范围是 -1m 到 1m,分 256 段,每段是一个 token。
  • 这样 11 个连续动作就变成 11 个离散 token。

离散化(discretization):把连续的数(如 0.347)压到几个固定档位(如第 89 档)。好处是模型可以像选答案那样输出动作(256 选 1),而不是要算精确小数。

e) 主 Transformer

  • 8 层 self-attention,19M 参数。
  • 输入 48 个视觉-语言 token,输出 11 个动作 token。
  • 整个 RT-1 加起来 35M 参数——比当年的 GPT-3(175B)小 5000 倍,但够小才能在机器人上 100ms 内推理

为什么这步有用

  • 把异构输入统一成 token 让 Transformer 能直接吃,不用为机器人专门设计架构。
  • TokenLearner 让推理快了 2.4 倍;token 缓存(连续推理时复用上一帧的 token)又快了 1.7 倍。
  • 离散化 + 256 格子 = 输出像选择题而不是填空题,更稳定。

所以这一节是想说:RT-1 的工程艺术全在 token 化——把一切压扁成 Transformer 能吃的小方块,再用 TokenLearner 抠掉冗余。


3. 用模仿学习训练,损失函数就是"猜对动作"

类比

教小孩骑自行车,没人会先讲一通牛顿定律——你直接让他看你骑、然后扶着他骑、歪了拉一把。RT-1 的训练就是这套老法子:给它看人类示教,错了就拍一下内部参数让它"下次别这么干"。这种"抄作业式"训练在 AI 圈叫模仿学习

它在干什么

  • 输入:6 帧画面 + 一句指令。
  • 输出:11 维动作 token。
  • 损失(loss):标准的交叉熵——输出的 token 和示教里人类做的 token 越接近,扣分越少。

交叉熵(cross-entropy):一种"猜对没猜对"的扣分方式。模型把每个动作格子打一个概率分(这个格子有多可能是对的),如果给了正确格子高分,扣分就少;给错了高分,扣分就大。

梯度下降(gradient descent):训练方法。把"扣分"想成一座山的高度,模型每次往最陡下坡迈一小步,反复几百万次,最后落到山谷——也就是扣分最少的状态。

关键公式翻译成人话

原文是一长串符号,翻译过来:

给定指令 + 最近 6 帧画面,模型按动作顺序一个一个 token 蹦出来。每个 token 都要尽量匹配人类示教里的那个。

整个训练就是让模型学会模仿人类——这种方式叫 imitation learning(模仿学习)behavior cloning(行为克隆)

为什么这步有用

  • 模仿学习不需要奖励信号——人类做对了就是对的,模型直接抄答案。
  • 比强化学习训练成本低 100 倍:强化学习要让机器人自己在真机上试错几百万次,模仿学习只需要几次性数据采集。
  • 但它的天花板是人类示教者的水平——人做不到的,模型也做不到。这是后面 RT-2、OpenVLA 想突破的方向。

所以这一节是想说:RT-1 用最朴素的"看人做、自己抄"训练法,把机器人这个 ML 圈的硬骨头啃下来。


4. 工程优化:让 35M 模型在真机器人上 3Hz 跑起来

类比

F1 赛车手在比赛前要反复琢磨怎么减重、怎么省油、怎么少换挡——一毫秒都得抠。RT-1 团队为了让模型在真机器人上跑得动,也是这么抠的:每个动作必须 100ms 内出来,不然机器人手都来不及伸。

它在干什么

  • TokenLearner(如上):图像 token 从 81 压到 8,推理快 2.4 倍
  • Token 缓存:连续两次推理之间,6 帧画面里有 5 帧是重复的,前 5 帧的 token 直接复用不重算,推理快 1.7 倍
  • EfficientNet 而非 ResNet:EfficientNet 在同等精度下参数少一半。
  • 决策只用前向,没有 auto-regressive:动作 token 之间不互相依赖(不像 GPT 那样后一个字依赖前一个),一次性吐出 11 个动作,没有串行延迟。

3Hz 控制频率:每秒钟模型重新看一次画面、出一次动作,每次大约 333ms。其中模型本身要在 100ms 内出结果,剩 233ms 给系统其他延迟(相机、网络、机器人响应)。

闭环控制(closed-loop control):每次出动作前都重新看一眼现在的画面,根据现状决定下一步。和"开环"(一开始把整套动作都规划好然后闭眼执行)相对。RT-1 是闭环——这让它能边走边纠正错误。

为什么这步有用

  • 实验显示:去掉 TokenLearner 推理速度直接翻三倍(300ms+),机器人手都来不及反应。
  • 在机器人圈,一个跑得动的差模型 > 一个跑不动的好模型。这条工程线索后来 RT-2 和 OpenVLA 都得反复磨。

所以这一节是想说:RT-1 的另一半价值在工程——把"跑得起来"这件事做扎实,让大模型时代的算力红利真的落到机器人身上。


RT-1 — 方法示意:核心 pipeline
Plate Nº IIRT-1 — 方法示意:核心 pipeline

关键数字(What works)

数字本身不重要,重要的是它们告诉你什么"设计选择"才是关键。

数字 1:训练任务成功率 97%

  • 怎么算的:在训练时见过的 200 多种指令上,让 RT-1 各做几遍,看完成率。
  • 对比:BC-Z 是 72%,Gato 是 65%。RT-1 高出 25-32 个百分点。
  • 生活语言:原来"会动手的助手"100 次有 28-35 次砸锅,现在只有 3 次。从"勉强能用"跨进"基本能用"。

数字 2:从未见过的新指令成功率 76%

  • 怎么算的:21 个全新组合(比如训练时只见过"拿苹果"和"放抽屉里",测试时第一次见"把苹果放抽屉里"),看完成率。
  • 对比:BC-Z 是 19%,Gato 是 52%。
  • 生活语言:你给一个老员工没说过的新组合任务,他成功率不到 1/5;RT-1 能到 3/4。说明它真的把"概念"组合起来了,不是死记硬背。

数字 3:分心物干扰下成功率 83%

  • 怎么算的:在桌面上加 9 个无关物体(瓶罐、纸巾),看 RT-1 能不能找到正确目标完成任务。
  • 对比:BC-Z 是 47%,Gato 是 43%。
  • 生活语言:办公桌乱成一团时,前代模型基本一半就崩了,RT-1 还能稳住 8 成以上。真实环境从来都是乱糟糟的,这个指标比"干净桌面成功率"更接近落地。

数字 4:仿真数据加进去,仿真物体在真实世界成功率从 23% → 87%(+64)

  • 怎么算的:训练时只在仿真里见过的物体(真机器人从没见过实物),测试时让真机器人去拿。
  • 对比:只用真实数据 23%,加了仿真数据后 87%。
  • 生活语言:仿真训练在真世界终于"管用了"。这意味着以后采集成本可以指数下降——便宜的仿真数据 + 少量真实数据 = 真实世界泛化能力。RT-2 和 OpenVLA 后续把这一招放大。

数字 5:50 步长程任务成功率 67%(Kitchen2 新厨房)

  • 怎么算的:用 SayCan 框架把高层指令("扔掉桌上所有东西")拆成约 50 步小指令,每步都让 RT-1 执行。
  • 对比:SayCan + Gato 在新厨房 0%,SayCan + BC-Z 13%。
  • 生活语言:50 步连续动作,每步 95% 也只有 7.7% 总成功率。RT-1 能撑 67% 说明它的可靠性已经接近"真的能干活"

数字 6:数据多样性 vs 数据量 — 砍 25% 任务种类 = 砍 49% 数据量

  • 怎么算的:两组对比实验,一组减任务种类,一组减每个任务的数据量。
  • 结果:减 25% 任务种类的泛化下降 ≈ 减 49% 数据量。
  • 生活语言多样性的杠杆是数据量的 2 倍。如果你要采更多数据,宁可加新任务也别多采一种任务。这条结论后来被几乎所有具身 AI 论文反复验证。

所以这一节是想说:数字告诉我们——数据多样性是命根、工程优化决定能不能落地、Transformer 在机器人上确实会泛化。


你应该懂的几个新词

VLA(Vision-Language-Action Model,视觉-语言-动作模型):既能看图、又能听指令、又能输出动作的 AI。RT-1 是这个范式的开山之作,后续有 RT-2、OpenVLA、π0 等。

Transformer:2017 年 Google 提出的 AI 架构,靠 self-attention 处理序列。GPT、Claude、RT-1 都用它。

Token / Tokenization:把万物切成小方块。文字、图像、动作都能切。Transformer 只吃 token。

EfficientNet:Google 设计的图像识别网络,同等精度下参数比 ResNet 少一半。RT-1 用 B3 版本当眼睛。

FiLM(特征逐维线性调制):把指令信息"染色"到图像特征上的技巧,公式是 输出 = γ × 输入 + β。RT-1 用它让眼睛"带着指令看图"。

TokenLearner:一个能从一堆 token 里"软选择"出少数关键 token 的模块。RT-1 把 81 个图像 token 压到 8 个,推理快 2.4 倍。

USE(Universal Sentence Encoder):Google 的文字编码器,把一句话变成一个固定长度向量。

行为克隆(Behavior Cloning, BC):模仿学习的最朴素形式——抄人类示教的答案。

离散化动作(discrete action):把连续的关节角度(如 0.347 弧度)压到 256 个格子里(如第 89 格)。让模型像做选择题那样输出动作。

闭环控制(closed-loop):每步前都重新看一眼现状再决定下一步。和"开环"(一次性规划完一口气执行)相对。

SayCan:Google 之前的工作,让大语言模型把高层指令("准备早餐")拆成低层指令序列("开冰箱→拿牛奶→倒杯子")。RT-1 配上 SayCan 就能做长程任务。

3Hz 控制频率:每秒重新决策 3 次,每次 333ms。机器人圈的实时性下限。

所以这一节是想说:上面这十几个词是你以后看任何 VLA 论文都会反复出现的,先把它们和生活类比挂钩。


它有什么搞不定的

RT-1 不是万能的,论文自己也老实交代了几个硬伤:

  • 天花板被人类锁住:模仿学习的本质是抄答案,所以它不会比示教者做得更好。人类操作员手抖了,模型也学到手抖。
  • 只会组合,不会创新:泛化指的是"已知概念的新组合"。如果新任务需要一个从来没见过的运动(比如旋拧瓶盖,训练里全是抓握),它做不到。
  • 不灵巧:动作是 256 格离散的,精细任务(穿针、拼图)做不了。手指只有"开"和"关"两档,没法控制力度。
  • 训练成本高:13 万示教 + 17 个月 + 13 台机器人——普通实验室复现不了。这也是为什么后来开源数据集(Open X-Embodiment、DROID)这么重要。

所以这一节是想说:RT-1 在通用度、灵巧度、训练成本上都还有大空间,留给 RT-2、π0 等后续工作去补。


它和别的论文是什么关系

  • 直接继承者:RT-2(2023)——同一组人。把"自己训的图像编码器"换成"互联网预训练好的 VLM(PaLI-X)",让机器人带着互联网常识做任务。RT-1 是骨架,RT-2 是灵魂注入。

  • 思路相似的祖父:LLaVA(2023) — 我们 notes 里第 1 篇。LLaVA 是"VLM = 眼睛 + 翻译器 + 嘴巴"的开源模板;RT-1 把这个模板的"嘴巴"换成"动作"——共享同一种"统一序列建模"哲学。

  • 同期对手:Gato(DeepMind, 2022) — 通才模型派。Gato 啥都学(玩游戏、机器人、写文字混着学),但每样都不太行;RT-1 专注机器人,做出了真实落地。专精 vs 通才 的早期对决。

  • 同期对手:BC-Z(Jang et al., 2021) — 行为克隆派的代表。用 ResNet 当骨干。RT-1 在它的基础上换成 Transformer + 长时程记忆,把所有指标拉开 30 分以上,证明 Transformer 在机器人圈也是王者

  • 延伸:SayCan(Ahn et al., 2022) — 同 Google。SayCan 用 LLM 做高层规划,RT-1 当低层执行手。两者结合后能做 50 步长程任务,验证了"思考-执行分层"的架构。

  • 后续衍生:OpenVLA(2024)、π0(2024) — 都站在 RT-1 + RT-2 的肩膀上,开源化、泛化到更多机器人形态、加上 diffusion 输出更平滑动作。

所以这一节是想说:RT-1 是 VLA 这个领域的"祖宗模板"——后面所有"大模型 + 机器人"的论文都是它的衍生。


我建议这样读这篇

零基础读者不要从头读到尾。建议这样走:

  1. 看摘要 + 引言(5 分钟):明确这篇要解决"机器人圈缺一个能吸大数据又跑得动的模型"这个问题。
  2. 跳到 Figure 1 架构图(2 分钟):记住"FiLM-EfficientNet → TokenLearner → Transformer → 离散动作"这条流水线。
  3. 第 5.1 节模型细节(15 分钟):搞清楚每个组件输入输出维度。未来你看任何 VLA 论文都会用类似套路
  4. 跳过公式细节(除非你想自己实现):知道"6 帧图 + 1 句话 → 48 个 token → Transformer → 11 个离散动作 token"就够了。
  5. 第 6 节实验快扫(15 分钟):重点看 Table 2(vs 基线)、Table 4(仿真融合)、Table 7(数据消融)。
  6. 跳到 Section 7 局限性(5 分钟):作者自己列的硬伤就是后续工作的研究路线图。

读完这 6 步大约 40-60 分钟,已经能在和别人讨论 VLA 时报出 RT-1 的核心思路。

所以这一节是想说:这篇精华全在"如何把多模态数据塞进一个能实时跑的 Transformer",公式和模型可以略读,节省时间。


一些好奇心问答(FAQ)

Q1:35M 参数算大模型吗?

按 NLP 圈标准这超小(GPT-3 是 175B,是它 5000 倍)。但在机器人圈这已经是当时最大的端到端控制模型之一。机器人圈的瓶颈不是模型大小,是推理延迟和数据量

Q2:13 万示教数据怎么采的?我能下载吗?

人类操作员用游戏手柄遥控机器人完成任务,每次录下视频和动作。Google 内部数据,最初没开源——但 2023 年的 Open X-Embodiment 项目把这批数据公开了一部分,HuggingFace 上能找到。

Q3:为什么动作要离散成 256 格?连续输出不行吗?

可以,BC-Z 就是连续输出。但离散化后训练更稳(像选择题不像填空题)、出错更少。代价是精细动作做不了——后续 π0 和 diffusion policy 用连续/扩散输出弥补这点。

Q4:3Hz 够快吗?人手不是更快?

人做"拿可乐放抽屉"大概 2-4 秒。3Hz 意味着这 2-4 秒里模型决策 6-12 次,足够纠错。对慢任务够用,对快速任务(接球、躲避)不够

Q5:8 张 TPU 我哪有?

训练 RT-1 大约用了几十张 TPU 训了两周。普通学校实验室复现不了原版规模。但你可以用开源的 OpenVLA(基于 RT 思路 + LLaVA 主干)+ 公开数据,几张 A100 就能微调出可用的版本。

Q6:FiLM 为什么要 identity-initialized?

EfficientNet 是 ImageNet 预训练好的,权重很金贵。直接插一个 FiLM 层会破坏预训练特征。Identity-init 的意思是"刚开始 γ=1, β=0"——FiLM 层一开始啥也不做,等慢慢训练才开始发挥作用。这是个保护已有知识的小技巧。

Q7:Gato 模型 1.2B 参数,比 RT-1 大几十倍,怎么反而更差?

两点:(1) Gato 训练数据机器人占比小,啥都学就啥都不精;(2) Gato 1.2B 在真机器人上推理 1.9 秒,RT-1 团队为了公平比较把 Gato 缩到 37M,但架构没改,所以它的语言条件作用、token 化方式都不如 RT-1 优

Q8:RT-1 之后该看什么?

最直接的下一步是 RT-2(2023.7):把图像编码器从 EfficientNet 换成预训练的大 VLM(PaLI-X / PaLM-E),让机器人带着互联网常识做事。比如它能理解"把那个能让我提神的东西拿过来"指的是咖啡——这是 RT-1 做不到的。再之后的 OpenVLA 是开源版本,π0 加了扩散输出做更平滑的动作。

所以这一节是想说:实操问题(多大、多贵、能不能跑、合规怎么办)作者都想到了,门槛远比想象低,但真正复现仍需要工业级资源。


如果你想再深入

按"前传 → 同期对手 → 续作 → 衍生方向"四类排序:

  1. 前传:BC-Z(Jang et al., CoRL 2021) — 行为克隆派的代表作。读完 RT-1 再读它,能清楚看到"加 Transformer 多重要"。
  2. 前传:Gato(Reed et al., 2022) — DeepMind 的通才模型。读它能理解"通才 vs 专精"这个机器人圈大辩论的源头。
  3. 同期对手:Perceiver-Actor / PerAct(Shridhar et al., 2022) — 用 Perceiver 架构 + 体素表征的多任务机器人。和 RT-1 的二维图像派形成对比。
  4. 续作:RT-2(Brohan et al., 2023)真要用,请直接读这版。把视觉编码器换成预训练 VLM,机器人开始具备"常识"。
  5. 衍生:OpenVLA(Kim et al., 2024) — 7B 开源 VLA,能在消费级显卡上跑。是开源社区版的 RT-1+RT-2。
  6. 衍生:π0(Physical Intelligence, 2024) — 把扩散模型当动作头,输出更平滑的连续动作。代表了"VLA + diffusion"的最新方向。

所以这一节是想说:把 BC-Z + RT-1 + RT-2 + OpenVLA 这四篇连起来读,就能看到 2021-2024 年具身 AI 范式从"小模型流水线"演化到"通用 VLA 大模型"的全貌。


最后一个画面

RT-1 论文里有一组对比照片:同一台机器人在训练厨房成功率 97%,搬到一个完全没见过的真实办公室厨房(不同的灯光、不同的橱柜、不同的台面、9 个干扰物体),还能 67% 把 50 步长任务做完。

这一刻,"端到端机器人 AI"第一次在真实物理世界变成了能用的东西。从此机器人圈的研究范式彻底转向了 VLA——大模型 + 大数据 + 端到端 + Transformer。

所以最后一节是想说:RT-1 不只是一个论文里的指标好看,它是机器人 AI 范式从"流水线/手工特征"切换到"大模型端到端"的拐点——所有后续的 VLA 工作都是站在它的肩膀上。

引用本笔记 / Cite this note
BibTeX
@online{eai_rt_1_2026,
  title       = {(readable note) RT-1: Robotics Transformer for Real-World Control at Scale},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2022 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/rt-1/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim