回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Imitation Learning · Plate Nº 55

RoboCat

7 min read · 2370 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

一个 AI 大脑同时指挥好几种不同的机械臂干活,干完还会把成功的录像收回来当作下一轮的教材,越练越强。

这是个什么场景 — 日常类比

你在家学做菜,菜谱上贴了一张「成品图」——红烧肉端上桌应该长这样。你照着图把肉切好、糖炒出来、收汁,比对一下成品和图差不多就算成功。RoboCat 干的就是这件事,只不过执行者是机械臂:给它一张「目标画面」(比如方块该堆成什么样),它就动手摆。

更有意思的是身体不一样的事。想象同一家厨师培训学校:

  • 传统做法:每个学徒(机器人)只学一道菜(一个任务),从头练到熟,换道菜得重学。
  • 多任务做法:一个学徒学十道菜,但还是同一双手(同一种机械臂)。
  • RoboCat 做法:一个总厨(同一个 Transformer 大脑),同时指挥几种身材完全不同的学徒(短臂的、长臂的、夹爪不同的机械臂),让他们各自做几十道菜。学得差不多了,让他们自己上手练新菜、自己录视频,再把视频收回来当下一批教材。

关键是「同一个大脑」要能驱动「不同身体」,而且这个大脑会自己产出新教材。

RoboCat — 场景示意:这论文要解决的现实问题
Plate Nº IRoboCat — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 单任务单机器人 BC(behavioral cloning):每个任务训一个策略,换任务/换机器人就得重训,迁移基本为零。
  • RT-1(Google):单一形态(mobile manipulator)+ 大量真机演示数据,一个 Transformer 跨任务,但不跨形态。
  • Gato(DeepMind 2022):通才 agent,吃文本/图像/控制等多模态 token,证明了「一个 Transformer 能干一堆活」,但机器人控制部分还比较粗糙,且没有自生数据回路。
  • Decision Transformer / Trajectory Transformer:把 RL 当序列建模,但通常单一环境。
  • Sim-to-real + domain randomization:靠仿真数据补足,但跨形态依然要重新设计观测/动作空间。

这篇论文的关键想法

两件事叠加:

  1. 视觉目标条件 + 多形态共享 token 化:像翻译官把中文、日文、韩文都先翻成同一种「中介语」再处理。RoboCat 把不同机器人的画面(图像)、动作(关节角度/末端位置)、目标(一张「应该长这样」的成品图)统统切成 token(小整数块),喂给同一个 Transformer。这样哪怕是 6 关节臂还是 7 关节臂,到大脑里都长一个样,可以共用一套学习经验。
  2. 自生数据滚雪球(self-improvement loop):像学生先抄老师的作业,等抄熟了开始自己写题,写对的部分留下来给下一届学弟当参考。RoboCat 训好之后,在新任务上少量微调(fine-tune,小修小补)→ 自己跑几千次尝试(rollout)→ 把成功的那几次拎出来当新教材 → 合进总数据集 → 重训下一代 RoboCat。每滚一轮,数据集更大、能力更强。

类比:第一代厨师靠师傅手把手教;到了第二代,自己就能录几百段做菜视频,下一代徒弟有更多教材可看。

RoboCat — 方法示意:核心 pipeline
Plate Nº IIRoboCat — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

架构。骨干是一个 decoder-only Transformer(具体规模需读原文,论文报告了多个尺寸)。输入序列是 [目标图像 token, 历史观测图像 token, 历史动作 token, ...],输出是下一步动作 token。图像编码用 VQ-GAN 风格的 token 化器(把图像离散成一串 visual token),动作直接 tokenize 成离散值。这种设计的好处是:不同机器人有不同的关节数/动作维度,但 token 化后都变成一串整数,Transformer 不需要为每个形态改架构。

训练阶段一:通才预训练。用大量已有数据集(DeepMind 内部的多种机械臂任务、若干公开数据集),把所有 (observation, action, goal) 元组混在一起做 VGCBC。损失函数就是预测下一动作 token 的交叉熵。这一步得到一个「啥都会一点」的 RoboCat-v0。

训练阶段二:少样本微调 + 自生数据。给定一个新任务(新形态或新物体),先收集少量人类演示(论文提到大约 100-1000 条数量级,具体数字需读原文),微调 RoboCat-v0 得到专家策略。让这个专家在真机/仿真里跑几千上万次 rollout,筛出成功的轨迹。这些自生轨迹合并进总数据集,再训 RoboCat-v1。重复几轮。

部署。最终的 RoboCat 直接吃一张目标图像就能在多种机械臂上完成任务,包括它训练时没见过的物体组合。论文展示了在堆叠、插入、按按钮、用工具等任务上的跨形态泛化。

实验在做什么

实验设计围绕三个问题展开:

  • **跨形态共享是否有效?**对比「每个形态单独训」vs「合在一起训 RoboCat」。RoboCat 应该在数据少的形态上明显更强(从其他形态借了知识)。
  • **自生数据回路是否真的滚雪球?**记录每一轮(v0 → v1 → v2 ...)在新任务上的成功率,看是否单调上升、收敛到什么水平。
  • 少样本适应能力:给一个全新任务(甚至全新机器人),用 N 条演示微调,看 N 多小时还能学会。

机器人覆盖(公开资料里提到的):Sawyer、Panda、KUKA 等几种工业/科研机械臂;任务包括方块堆叠、形状插入、水果分类、用工具等。具体数字、表格、消融需读原文。

你应该懂的几个新词 — 4-6 个

  • Embodiment(形体):机器人本体的物理形态——多少关节、多长手臂、什么夹爪。多形体 = 多种身体共享一个大脑。
  • Behavioral Cloning(BC,行为克隆):监督学习的方式让策略模仿专家轨迹,不做 RL。简单稳定,但有 distribution shift 问题(参考 DAgger 笔记)。
  • Visual Goal-Conditioned:策略的输入除了观测,还有一张「目标图像」告诉它最终画面应该长啥样。比起文本目标,图像目标对底层控制更直接。
  • Self-Improvement Loop:训好的策略自己生数据,再回喂训练。和 AlphaGo Zero 自我对弈是一类思路,但这里需要严格的成功筛选避免污染数据。
  • Foundation Model for Robotics:模仿 NLP 大模型的「先预训练、后微调」范式,希望一个底座模型能下游适配各种任务。RoboCat 是这条路线的早期代表之一。
  • Tokenization of Actions:把连续动作离散化成一串整数 token,让 Transformer 能像处理语言一样处理控制信号。

它和其他论文什么关系

  • 上承 Gato(2022):Gato 证明了一个 Transformer 可以处理图像、文本、控制等多模态。RoboCat 把这条路收窄到「机器人控制」,并加了自生数据回路。
  • 平行 RT-1(2022)/RT-2(2023):Google 的 RT 系列偏单形态多任务、强调 VLM(vision-language model)和大规模真机数据;RoboCat 偏多形态、用图像目标、强调自生数据。两条路线在 2023 年并行推进。
  • 下接 OpenVLA(2024):OpenVLA 等更晚的工作把 VLM 直接作为底座,路线更接近 RT-2。RoboCat 的「自生数据滚雪球」思路被后续多个 robot foundation model 借鉴。
  • 方法上邻近 BeT、Diffusion Policy:都是 BC 框架下的策略学习,但 RoboCat 强调跨形态和自迭代,BeT/DP 强调多模态动作分布建模。
  • 基础参考 DAgger:BC 的 distribution shift 问题,RoboCat 用「自生数据」从另一个角度缓解(不是查询专家,而是筛成功 rollout)。

我建议这样读 — 3-4 步

  1. 先读摘要 + Figure 1(系统总览图):搞清楚「输入是什么、输出是什么、目标怎么表达、自生数据怎么循环」。这一步 15 分钟。
  2. 跳到方法节,重点看 token 化方式和 self-improvement 的具体协议:成功 rollout 怎么筛?每一轮加多少数据?哪些超参?这是论文的真正贡献。
  3. 看实验主表 + 消融:跨形态消融最关键——「合训」vs「单训」差多少;自生数据 v0/v1/v2 的成功率曲线。
  4. (可选)扫一眼局限性:RoboCat 依赖目标图像,所以在「没法用一张图说清的任务」(比如长程语言指令)上有天花板,这也是后来 RT-2/OpenVLA 转向 VLM 的动机。

为什么值得读

  • 是「机器人基础模型」这条路线的关键早期节点:在 RT-2、OpenVLA 之前,RoboCat 已经把「一个 Transformer + 多形态 + 视觉目标 + 自生数据」拼成完整系统。理解它能看懂后续所有 robot foundation model 的 lineage。
  • 自生数据回路是个朴素但强大的工程范式:不依赖更精巧的算法,只靠「筛成功、回喂、再训」就把数据集滚大。这个思路在数据稀缺的 embodied AI 领域非常重要,也是和 NLP 不同的关键差异点。
  • 跨形态 token 化的工程细节有借鉴价值:如果你以后要做自己的多机器人系统,这篇论文的 token 设计和数据混合策略是直接可抄的模板。
  • 作为 imitation learning 难度 ⭐⭐⭐⭐ 的代表:比 BC/DAgger 复杂一档,但比纯 RL 路线(Dreamer 系列)容易上手,是从「单任务模仿」到「通用决策模型」中间最好的过渡阅读。

引用本笔记 / Cite this note
BibTeX
@online{eai_robocat_2026,
  title       = {(readable note) RoboCat},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/robocat/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim