回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Datasets & Benchmarks · Plate Nº 36

RoboCasa

6 min read · 2198 字 · ⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

想造个会做饭的家用机器人?RoboCasa 给你 120 个虚拟厨房、100 个小动作、十万次练习录像,让它先在游戏里练会,再上岗。

这是个什么场景 — 日常类比

你想教一个新来的保姆做饭,会怎么办?最理想的当然是带她去 100 个不同的厨房(你妈家、你姨家、Airbnb、米其林后厨……)每个都练几遍。可现实里这事做不到——租不起场地、买不起锅碗、更不可能让她真的把 10 万只盘子摔在地上学手感。

RoboCasa 就是把"教保姆"这件事搬进了游戏引擎,像在《模拟人生》里训练一个 NPC:

  • 厨房 = 游戏地图(120 张不同风格的厨房,北欧、日式、美式乡村都有)
  • 锅碗瓢盆 = 游戏道具(让 AI 批量生出来一堆,避免每个杯子都长一样)
  • 任务(把锅放到炉子上)= 游戏关卡(100 个"原子关卡",再加若干组合长任务)
  • 演示数据 = 通关录像(先让人或脚本通关一次,留下十万级录像供"学徒"模仿)

你训练出来的策略(policy,机器人的"大脑"),就能在这个虚拟厨房里反复刷分,再迁移到真机或别人家的厨房里。

RoboCasa — 场景示意:这论文要解决的现实问题
Plate Nº IRoboCasa — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • RoboSuite / robomimic:同一个 MuJoCo 系作品的前作,但场景偏"实验室桌面",物品种类少、风格单一。
  • Habitat / iGibson / AI2-THOR:偏室内导航 + 粗粒度交互,物理保真度对操作(manipulation,机械臂抓取)来说不够。
  • RLBench / Meta-World:任务多但都是"工厂积木"风,离真实厨房很远。
  • 真机数据集(RT-1、Bridge):真实但贵、慢、没法穷尽长尾,物体多样性受限于实验室仓库里有什么。
  • 过去仿真平台共同短板:场景少(一两个 demo 厨房)、资产同质(同一个杯子复制粘贴)、任务定义模糊(缺"原子动作"颗粒度)。

这篇论文的关键想法

把"造厨房 + 造任务 + 造数据"这三件原本各自为战的事,做成一个端到端的 pipeline:

  1. 多样性靠 AI 生成:场景纹理、家具风格、餐具外观用大模型 + 程序化建模批量生,不靠人手摆。
  2. 任务定义降到"原子"颗粒度:100 个原子任务(开门、按按钮、倾倒、滑动……)是可组合的乐高块;长任务("煮一杯咖啡")由原子任务串联。
  3. 演示数据靠仿真自动采:用运动规划器 / 脚本 / 少量人类遥操作种子,配合自动化 retry,刷出十万级轨迹(具体数字需读原文)。
  4. 统一评估协议:所有任务都有标准成功判据,方便不同方法横向比。

核心命题:操作策略的瓶颈是数据的多样性而不是数量,仿真 + 生成式资产可以把多样性这个瓶颈打开。

RoboCasa — 方法示意:核心 pipeline
Plate Nº IIRoboCasa — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

场景与资产的程序化生成——像让一个室内设计师拿着模板批量出图,每张都不重样。RoboCasa 底子是 RoboSuite/MuJoCo(一种物理引擎,专门算抓握、碰撞、摩擦这些"手感"),上面叠了一层"厨房模板":橱柜、台面、灶台的位置参数化(一调数字就换布局),纹理和小物件则从一个 AI 生成的资产库里随机抽。资产库分两类来源——文生 3D(text-to-3D,输入"复古铜壶"输出 3D 模型)拿到的新东西,和 Objaverse 风格公开数据集筛过之后的旧东西。结果:每开一局都是"长得不一样的厨房"。

任务集合的设计——像把"做一道菜"拆成菜谱里最小的步骤("打蛋""倒油""开火")。100 项原子任务(atomic task)覆盖厨房里高频的物理动作族:pick/place(拿起放下)、open/close(开关)、pour(倒)、press(按)等等。每个任务都明确写了初始状态怎么摆、目标状态算赢的标准、还有一句自然语言描述(用于训练能听懂指令的视觉-语言策略)。原子任务之上再叠组合任务(composite task),用来检验"连续做完一长串"的能力。

演示数据采集——像先让真人老师傅录一段示范,再让 AI 把这段视频"换皮重拍"出几百遍。论文走两路:一路是人类遥操作(teleop,人远程控制机器人)当种子,量小但语义干净;另一路靠 MimicGen 风格的轨迹改写或运动规划器,把一条人类轨迹放大成 N 条变体(换初始位姿、换物体外观)。最后总量到十万 episode 级别(具体数字需读原文)。

等等,先慢一拍——episode 是什么? 一个 episode = 机器人从开始到完成一个任务的一次完整尝试录像(成功或失败都算一条)。十万级就是十万次完整的"开始→结束"录像。

基线与训练接口——像写好了插槽,常见的"学徒算法"插上就能学。平台对接 BC-RNN、Diffusion Policy 这类模仿学习算法,也对接 VLA(vision-language-action,能直接把图像 + 语言指令变成动作的多模态大模型),提供统一的观测/动作接口和评估脚本。

实验在做什么

论文实验主要回答几件事(具体数字需读原文):

  • 多样性是否真的有用:固定数据量,比较"多场景多物件"和"少场景少物件"训出来的策略,看泛化差距。
  • 数据量 scaling:演示数量从 1k → 10k → 100k 的成功率曲线,是否能 saturate 还是仍在涨。
  • 从仿真到真机(sim-to-real):把仿真训出来的策略放到真厨房里跑,看有多少能力守住。
  • 对 VLA 类大模型的价值:作为预训练 / 微调数据,是否能让 RT-2 / OpenVLA 类模型更强。
  • 任务粒度对比:原子任务的成功率 vs 组合任务的成功率,量化"长程退化"现象。

你应该懂的几个新词 — 4-6 个

  • 原子任务(atomic task):把复杂动作分解后最小、不可再拆的一步("按下按钮"),一个原子任务通常 < 几秒。
  • 演示数据(demonstration / demo):人类或脚本完成一次任务的完整轨迹(obs + action 序列),用于模仿学习。
  • MuJoCo:一种刚体物理引擎,机器人仿真常用,速度快、接触建模好。
  • 程序化生成(procedural generation):用规则 + 随机数自动生成场景,而不是手摆。
  • VLA(vision-language-action):能直接把图像 + 语言指令映射到动作的多模态大模型,如 RT-2 / OpenVLA。
  • MimicGen:一种轨迹扩增方法,从少量人类示范出发,自动生成大量变体轨迹。

它和其他论文什么关系

  • 上游基础设施:站在 RoboSuite(同作者 line)和 MuJoCo 之上,是它们的"厨房特化 + scale up"版本。
  • 资产路线的同代:和 Objaverse、PartNet-Mobility 共同推动"3D 资产规模化"叙事。
  • 数据扩增方向的延续:MimicGen 把数据从"少量人类示范"放大;RoboCasa 把场景维度也加进来,是横向 + 纵向都做扩增。
  • 评估对手:和 Habitat、AI2-THOR、RLBench 在"具身评估平台"这条赛道上对位,但定位更偏 manipulation 而非 navigation。
  • 下游受益者:OpenVLA、RT-2、π0 等通用机器人大模型都可能把它当作预训练 / 评测基准。

我建议这样读 — 3-4 步

  1. 先看主图和任务列表:把 100 个原子任务扫一眼,建立"这个平台覆盖什么动作族"的直觉。
  2. 看资产生成 pipeline 那一节:理解"AI 生成"具体生成的是哪一层(贴图?几何?布局?),这是它和 RoboSuite 的核心差异。
  3. 看实验里的多样性消融:这是论文最想让你买账的命题(多样性 > 数量),数字最有说服力。
  4. 跳读 sim-to-real 部分:如果你关心实用性,重点看真机 transfer 的 gap 有多大;如果只关心仿真训练,可以略过。

为什么值得读

  • 理解"机器人数据"瓶颈如何被 AI 生成式资产打开:这是 2024 年开始成型的新范式,RoboCasa 是代表作之一。
  • 对比维度密集:120 场景 × 100 任务的笛卡尔积自带丰富的消融空间,做研究很好用。
  • 离生产很近:厨房是家用机器人最先落地的场景之一,平台的任务定义直接对应未来产品 SKU。
  • 评估基础设施的范例:如果你要自己造仿真环境,它的"模板 + 程序化 + 评估协议"三段式是好抄的样板。

引用本笔记 / Cite this note
BibTeX
@online{eai_robocasa_2026,
  title       = {(readable note) RoboCasa},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/robocasa/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim