Datasets & Benchmarks · Plate Nº 36

RoboCasa

6 min read · 2198 字 · ⭐⭐⭐ · 短摘要

#diffusion #manipulation #navigation #imitation #VLA #sim2real

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

想造个会做饭的家用机器人？RoboCasa 给你 120 个虚拟厨房、100 个小动作、十万次练习录像，让它先在游戏里练会，再上岗。

这是个什么场景 — 日常类比

你想教一个新来的保姆做饭，会怎么办？最理想的当然是带她去 100 个不同的厨房（你妈家、你姨家、Airbnb、米其林后厨……）每个都练几遍。可现实里这事做不到——租不起场地、买不起锅碗、更不可能让她真的把 10 万只盘子摔在地上学手感。

RoboCasa 就是把"教保姆"这件事搬进了游戏引擎，像在《模拟人生》里训练一个 NPC：

厨房 = 游戏地图（120 张不同风格的厨房，北欧、日式、美式乡村都有）
锅碗瓢盆 = 游戏道具（让 AI 批量生出来一堆，避免每个杯子都长一样）
任务（把锅放到炉子上）= 游戏关卡（100 个"原子关卡"，再加若干组合长任务）
演示数据 = 通关录像（先让人或脚本通关一次，留下十万级录像供"学徒"模仿）

你训练出来的策略（policy，机器人的"大脑"），就能在这个虚拟厨房里反复刷分，再迁移到真机或别人家的厨房里。

之前的人怎么做的 — 3-5 bullet

RoboSuite / robomimic：同一个 MuJoCo 系作品的前作，但场景偏"实验室桌面"，物品种类少、风格单一。
Habitat / iGibson / AI2-THOR：偏室内导航 + 粗粒度交互，物理保真度对操作（manipulation，机械臂抓取）来说不够。
RLBench / Meta-World：任务多但都是"工厂积木"风，离真实厨房很远。
真机数据集（RT-1、Bridge）：真实但贵、慢、没法穷尽长尾，物体多样性受限于实验室仓库里有什么。
过去仿真平台共同短板：场景少（一两个 demo 厨房）、资产同质（同一个杯子复制粘贴）、任务定义模糊（缺"原子动作"颗粒度）。

这篇论文的关键想法

把"造厨房 + 造任务 + 造数据"这三件原本各自为战的事，做成一个端到端的 pipeline：

多样性靠 AI 生成：场景纹理、家具风格、餐具外观用大模型 + 程序化建模批量生，不靠人手摆。
任务定义降到"原子"颗粒度：100 个原子任务（开门、按按钮、倾倒、滑动……）是可组合的乐高块；长任务（"煮一杯咖啡"）由原子任务串联。
演示数据靠仿真自动采：用运动规划器 / 脚本 / 少量人类遥操作种子，配合自动化 retry，刷出十万级轨迹（具体数字需读原文）。
统一评估协议：所有任务都有标准成功判据，方便不同方法横向比。

核心命题：操作策略的瓶颈是数据的多样性而不是数量，仿真 + 生成式资产可以把多样性这个瓶颈打开。

它怎么做的（方法）— 3-4 段

场景与资产的程序化生成——像让一个室内设计师拿着模板批量出图，每张都不重样。RoboCasa 底子是 RoboSuite/MuJoCo（一种物理引擎，专门算抓握、碰撞、摩擦这些"手感"），上面叠了一层"厨房模板"：橱柜、台面、灶台的位置参数化（一调数字就换布局），纹理和小物件则从一个 AI 生成的资产库里随机抽。资产库分两类来源——文生 3D（text-to-3D，输入"复古铜壶"输出 3D 模型）拿到的新东西，和 Objaverse 风格公开数据集筛过之后的旧东西。结果：每开一局都是"长得不一样的厨房"。

任务集合的设计——像把"做一道菜"拆成菜谱里最小的步骤（"打蛋""倒油""开火"）。100 项原子任务（atomic task）覆盖厨房里高频的物理动作族：pick/place（拿起放下）、open/close（开关）、pour（倒）、press（按）等等。每个任务都明确写了初始状态怎么摆、目标状态算赢的标准、还有一句自然语言描述（用于训练能听懂指令的视觉-语言策略）。原子任务之上再叠组合任务（composite task），用来检验"连续做完一长串"的能力。

演示数据采集——像先让真人老师傅录一段示范，再让 AI 把这段视频"换皮重拍"出几百遍。论文走两路：一路是人类遥操作（teleop，人远程控制机器人）当种子，量小但语义干净；另一路靠 MimicGen 风格的轨迹改写或运动规划器，把一条人类轨迹放大成 N 条变体（换初始位姿、换物体外观）。最后总量到十万 episode 级别（具体数字需读原文）。

等等，先慢一拍——episode 是什么？ 一个 episode = 机器人从开始到完成一个任务的一次完整尝试录像（成功或失败都算一条）。十万级就是十万次完整的"开始→结束"录像。

基线与训练接口——像写好了插槽，常见的"学徒算法"插上就能学。平台对接 BC-RNN、Diffusion Policy 这类模仿学习算法，也对接 VLA（vision-language-action，能直接把图像 + 语言指令变成动作的多模态大模型），提供统一的观测/动作接口和评估脚本。

实验在做什么

论文实验主要回答几件事（具体数字需读原文）：

多样性是否真的有用：固定数据量，比较"多场景多物件"和"少场景少物件"训出来的策略，看泛化差距。
数据量 scaling：演示数量从 1k → 10k → 100k 的成功率曲线，是否能 saturate 还是仍在涨。
从仿真到真机（sim-to-real）：把仿真训出来的策略放到真厨房里跑，看有多少能力守住。
对 VLA 类大模型的价值：作为预训练 / 微调数据，是否能让 RT-2 / OpenVLA 类模型更强。
任务粒度对比：原子任务的成功率 vs 组合任务的成功率，量化"长程退化"现象。

你应该懂的几个新词 — 4-6 个

原子任务（atomic task）：把复杂动作分解后最小、不可再拆的一步（"按下按钮"），一个原子任务通常 < 几秒。
演示数据（demonstration / demo）：人类或脚本完成一次任务的完整轨迹（obs + action 序列），用于模仿学习。
MuJoCo：一种刚体物理引擎，机器人仿真常用，速度快、接触建模好。
程序化生成（procedural generation）：用规则 + 随机数自动生成场景，而不是手摆。
VLA（vision-language-action）：能直接把图像 + 语言指令映射到动作的多模态大模型，如 RT-2 / OpenVLA。
MimicGen：一种轨迹扩增方法，从少量人类示范出发，自动生成大量变体轨迹。

它和其他论文什么关系

上游基础设施：站在 RoboSuite（同作者 line）和 MuJoCo 之上，是它们的"厨房特化 + scale up"版本。
资产路线的同代：和 Objaverse、PartNet-Mobility 共同推动"3D 资产规模化"叙事。
数据扩增方向的延续：MimicGen 把数据从"少量人类示范"放大；RoboCasa 把场景维度也加进来，是横向 + 纵向都做扩增。
评估对手：和 Habitat、AI2-THOR、RLBench 在"具身评估平台"这条赛道上对位，但定位更偏 manipulation 而非 navigation。
下游受益者：OpenVLA、RT-2、π0 等通用机器人大模型都可能把它当作预训练 / 评测基准。

我建议这样读 — 3-4 步

先看主图和任务列表：把 100 个原子任务扫一眼，建立"这个平台覆盖什么动作族"的直觉。
看资产生成 pipeline 那一节：理解"AI 生成"具体生成的是哪一层（贴图？几何？布局？），这是它和 RoboSuite 的核心差异。
看实验里的多样性消融：这是论文最想让你买账的命题（多样性 > 数量），数字最有说服力。
跳读 sim-to-real 部分：如果你关心实用性，重点看真机 transfer 的 gap 有多大；如果只关心仿真训练，可以略过。

为什么值得读

理解"机器人数据"瓶颈如何被 AI 生成式资产打开：这是 2024 年开始成型的新范式，RoboCasa 是代表作之一。
对比维度密集：120 场景 × 100 任务的笛卡尔积自带丰富的消融空间，做研究很好用。
离生产很近：厨房是家用机器人最先落地的场景之一，平台的任务定义直接对应未来产品 SKU。
评估基础设施的范例：如果你要自己造仿真环境，它的"模板 + 程序化 + 评估协议"三段式是好抄的样板。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_robocasa_2026,
  title       = {(readable note) RoboCasa},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/robocasa/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)