回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Datasets & Benchmarks · Plate Nº 35

Open X-Embodiment

8 min read · 2646 字 · ⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

22 家实验室把各种机器人的"练手视频"凑成一个大数据集,再训一个通吃模型,发现喂多种机器人比单喂一种学得更好。

这是个什么场景

你有没有想过:为什么人学会骑自行车之后,再去骑电动车、摩托车,上手都很快?因为大脑里"怎么保持平衡、怎么转把手"这些经验是通用的,不会因为换了车就归零。

机器人学习圈一直没这种好事。全世界 22 家实验室各自养着不同的机器人——有的是单只机械臂在桌面上抓杯子,有的是双臂厨房机器人切菜,有的是四足机器狗,还有的是带轮子的移动平台。每家都给自己的机器人拍了大量"练手视频"(演示数据),但录像格式、镜头位置、动作记录方式全是各家自己定的,像 22 种方言,互相听不懂,数据没法共用。

OXE 干的事就两件:

  1. 拉这 22 家坐下来商量一份"通用录像模板"——每段视频都按同一种字段填(看到什么画面、机器人当前姿态、做了什么动作、人下了什么指令),然后把全部档案打包公开,凑出 160 万段轨迹。
  2. 拿这堆形态完全不一样的机器人录像混在一起,训一个"通吃 AI 教练"(叫 RT-X)。结果让人意外:这个教练去操作任何一台机器人,都比"只看自家录像"训出来的教练做得好。

这就是机器人版的"骑过自行车再骑电动车更快"——叫正迁移(positive transfer),业界等这个证据等了很多年。

Open X-Embodiment — 场景示意:这论文要解决的现实问题
Plate Nº IOpen X-Embodiment — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 每家实验室自己采、自己训:UCB 的 Bridge、Google 的 RT-1、Stanford 的 ALOHA,数据格式互不兼容,模型只能在自己机器人上跑。
  • 机器人形态差太多:机械臂自由度 6 / 7 / 14 不等,夹爪 vs 灵巧手,单臂 vs 双臂,相机视角五花八门——共享数据看着没意义。
  • 小数据下只能模仿学习:每个任务采几百条演示训 BC(Behavioral Cloning,行为克隆),换任务就要重采,泛化基本靠运气。
  • CV / NLP 已经走完这一步:ImageNet(2009)、Common Crawl 让视觉和语言模型起飞,机器人界一直缺一个"大家都能用的大数据池"。
  • 零星的跨实验室尝试:RoboNet 之类项目尝试过聚合多家数据,但规模和形态多样性都没到 OXE 这个量级。

这篇论文的关键想法

核心赌注:哪怕机器人形态不一样,只要把"动作 + 观测"抽象成统一接口,多机器人数据放一起训反而能彼此增强。

具体三个关键决策:

  1. 统一格式而非统一硬件:不要求大家换机器人,而是定一个 RLDS(Reinforcement Learning Datasets)schema,所有数据集 ETL 进来。
  2. 保留差异、不强行对齐:不同机器人动作维度不一样就不一样,模型自己学会"看图就知道这是哪种机器人"。
  3. 用大模型架构吃下异质性:把 RT-1 / RT-2 这种基于 Transformer 的视觉-语言-动作(VLA, Vision-Language-Action)模型当承接器,参数量足够就有能力把形态差异当作一种"输入扰动"消化掉。

最后用实验回答:"多家机器人数据混着训,比每家自己单训好吗?" 答案是:好,且不止好一点。

Open X-Embodiment — 方法示意:核心 pipeline
Plate Nº IIOpen X-Embodiment — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

数据侧 — 统一 schema(像让 22 家餐厅都用同一份菜单模板):不是要求大家把厨房改造成一样的,而是规定"菜名怎么写、配料怎么列、做法怎么记"统一格式。22 家机构把各自原始数据转成 RLDS(Reinforcement Learning Datasets,谷歌推的机器人数据标准格式),每条轨迹都有标准字段:图像、机器人状态、动作、语言指令、元数据。22 种机器人涵盖单臂、双臂、移动底盘、四足等,共约 160 万段轨迹、500+ 技能、150,000+ 任务。数据集托管在 GCS,配官方 dataloader。

等等,先慢一拍 — RLDS 是什么? 你可以把它理解成 Excel 模板:每一行是一个时间步,固定列填"这一刻看到啥、机器人在哪、要往哪动、人说了啥"。Google 工程师之前做强化学习数据时定的标准。OXE 选它是因为现成、社区已经接受。

模型侧 — RT-X 系列(像同一个厨师试两种食量级别):作者复用了之前 RT-1 / RT-2 两个现成模型,只换训练数据。

  • RT-1-X:小厨师版。基于 RT-1 架构(35M 参数,EfficientNet + Transformer),用 OXE 全量数据训。
  • RT-2-X:大厨师版。基于 RT-2 架构(55B 参数,PaLI-X / PaLM-E 微调成 VLA,即视觉-语言-动作模型),把 OXE 加进 co-fine-tuning(共同微调)阶段。

训练策略 — 共训而非顺序训(像学厨师同时练川菜粤菜,而不是先学完再学):把多家数据按某种采样比例混合喂入,每个 batch 里可能同时有 Google 的桌面操作、UCB 的厨房操作、ETH 的四足。模型输入会带上"这是哪种机器人"的标识(embodiment 信息),输出的动作做 token 化(切成离散 token)后回归预测。

评测侧 — in-distribution + 跨实验室复现(像盲测:把同一道菜端给本店和友店厨师比):选定每家机构的代表性任务,在它们各自的实体机器人上跑 RT-X,跟"只用本家数据训的 baseline"比成功率。同时测涌现能力——比如 RT-2-X 在没见过的新组合指令上零样本能不能做对。

实验在做什么

实验回答三个层级的问题:

  • 正迁移存在吗? 在每家机构的真实机器人上,RT-1-X / RT-2-X 的成功率是否高于该家自训模型。摘要给的结论是"显著超过 baseline",平均改进幅度具体数字需读原文。
  • 大模型能放大正迁移吗? RT-2-X 相比 RT-1-X 是否在跨形态泛化上拉得更开(涌现能力)。论文重点宣传 RT-2-X 在"用一个机器人的数据学的技能,迁移到另一个形态机器人"上的能力。
  • 跨实验室能复现吗? 数据 + 模型 checkpoint 公开后,其他机构能不能在自己机器人上跑出一致结果。这是这篇论文最"infra"的部分——不是单点 SOTA,而是建立社区基准。

你应该懂的几个新词 — 4-6 个

  • Embodiment(具身 / 形态):机器人的物理本体——多少自由度、什么夹爪、什么相机配置。"跨 embodiment"就是同一个模型应对多种本体。
  • VLA(Vision-Language-Action)模型:把"看图 + 听语言指令 + 输出动作"打包进一个 Transformer 的范式。RT-2 是奠基作。
  • 正迁移(Positive Transfer):A 任务的数据帮助了 B 任务的学习。反义是"负迁移"(互相干扰,越混越烂)。这篇是证明跨形态机器人之间存在正迁移。
  • RLDS(Reinforcement Learning Datasets):Google 推的强化学习/机器人数据标准格式,基于 TFDS(TensorFlow Datasets)。OXE 全部用这个 schema。
  • Behavior Cloning(BC,行为克隆):最朴素的模仿学习——给一堆"看到 X 就做 Y"的演示对,监督学习训个策略。OXE 上的训练本质就是大规模 BC。
  • Co-fine-tuning(共同微调):训练时不是先 A 后 B,而是把 A、B 数据按比例混在一个 batch 里。RT-2-X 用这个方式把机器人数据塞进 VLM 微调。

它和其他论文什么关系

  • 承接 RT-1(2022)/ RT-2(2023):RT-X 直接复用这两个架构,OXE 只换了"训练数据"。所以读懂 OXE 必须先懂 RT-1 和 RT-2 的模型结构。
  • 数据上承 BridgeData V2、RoboNet 等社区聚合尝试:但规模和形态多样性大幅扩展,22 vs 之前的个位数。
  • 理念上类比 ImageNet / Common Crawl:基础设施型工作,本身不是模型创新,而是给后续所有人提供"数据池底座"。
  • 下游催生 OpenVLA(2024):OpenVLA 直接基于 OXE 数据池 + Llama 2 训了开源版 VLA,把 OXE 的价值兑现给社区。读 OpenVLA 前必须读 OXE。
  • 同期对比 DROID(2024):DROID 是另一个大型机器人数据集,但用统一硬件采集;OXE 走"异质聚合"路线。两条路线的张力值得对比读。
  • 延续到 RT-Trajectory、Mobile ALOHA、RT-H 等:这一脉都把 OXE 当数据底座或对比基线。

我建议这样读 — 3-4 步

  1. 先扫摘要 + 看官网(robotics-transformer-x.github.io):看 22 种机器人长啥样、数据规模直觉、demo 视频。这一步比读 PDF 高效。
  2. 读 RT-1 / RT-2 的笔记(本目录下已有):确认你懂了 VLA 架构和 token 化动作。OXE 自己的方法部分很短,重点全在"复用这两个模型 + 喂新数据"。
  3. 跳到实验章节:重点看跨形态正迁移的对比表——哪些任务涨、哪些没涨/掉了,作者怎么解释。负迁移案例往往比正迁移更有信息量。
  4. 可选 — 跑一遍 dataloader:如果你打算做 VLA 相关项目,花一小时把 RLDS dataloader 跑通比读三遍 paper 有用,会立刻知道字段是什么粒度、采样怎么写。

为什么值得读

  • 它是 2023-2025 这一波具身智能爆发的"数据底座"。OpenVLA、Octo、RT-2-X 全部建立在它之上,不读 OXE 等于跳过一代基础设施。
  • 它回答了一个长期悬而未决的问题:跨形态数据混训到底有没有用。答案是"有",这给整个领域指了一条"先聚合数据再做大模型"的路。
  • 它是社区合作范本:22 家机构能坐下来定 schema 这件事本身就是难题,论文和官网披露的协作模式对未来类似项目有参考价值。
  • 它的方法论上很朴素:数据统一 + 已有模型 + 多源训练。但这种"infra 大于 trick"的工作往往才是真正推动领域前进的,值得作为一篇"reproduce / 改造为子集" 的练手对象。
  • 对你(学习路径):作为 dataset-eval 类笔记的代表,理解 OXE 之后再看 OpenVLA / RT-2 / Mobile ALOHA 等模型论文,会有"它们在用什么数据"的清晰心智图。

引用本笔记 / Cite this note
BibTeX
@online{eai_open_x_embodiment_2026,
  title       = {(readable note) Open X-Embodiment},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/open-x-embodiment/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim