回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Datasets & Benchmarks · Plate Nº 29

BridgeData V2

7 min read · 2371 字 · ⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

BridgeData V2 是一份公开的"机器人干活录像库"——6 万段机械臂在 24 个真实场景里的演示视频,大家训机器人时把它当共同起跑线。

这是个什么场景

想象你新请了一位钟点工阿姨,她从来没进过别人家。如果你只让她在你家厨房练一次"把胡萝卜从抽屉拿出来放进锅里",明天她去邻居家——灶台高度变了、锅换成深口的、光线变暗了——她大概率就僵在原地。

要让她真的"会干家务",得让她去 24 户不同的厨房里都练过类似的动作,攒上 6 万次开抽屉、拿东西、放进容器的肌肉记忆。等她见过的厨房足够多、抽屉足够杂,再进一个全新的家也不慌。

BridgeData V2 做的就是这件事:给机器人攒一份"看过 24 种厨房、练过 6 万次基础动作"的录像库,让它进入真实世界前先有点底子。

BridgeData V2 — 场景示意:这论文要解决的现实问题
Plate Nº IBridgeData V2 — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 单实验室、单场景的小数据集:早期 imitation learning(模仿学习)研究每篇论文自己采几百到几千条数据,换个桌子、换个光线就崩,泛化几乎为零。
  • 仿真大规模 + sim-to-real:Meta-World、RoboSuite、Isaac Gym 等仿真环境产数据便宜,但真实物理细节(摩擦、形变、视觉噪声)对不上,迁移到真机经常掉点。
  • BridgeData V1(2021):同一团队的前作,已经是跨场景多任务,但任务种类、轨迹数量、环境多样性都还偏小。
  • RT-1 数据集(Google,2022):13 万条 Everyday Robot 数据,但不开源,社区拿不到。
  • 结果:开源世界缺一个"够大、够杂、够标准"的真机操作数据集,每个团队都要重复造轮子。

这篇论文的关键想法

一句话:用一台便宜的机械臂(WidowX 250),在 24 个真实环境里采 60K 条带语言标注的演示轨迹,全开源,让所有想训 VLA 的人有一个共同的起点。

关键决策有三:

  1. 横向广 > 纵向深:不追求单任务的极致表现,追求场景/物体/任务的多样性。这个权衡是为"预训练"服务的,不是为"刷某个 benchmark"服务的。
  2. 真机 > 仿真:直接在物理世界采,省掉 sim-to-real gap,代价是采集慢、成本高。用便宜硬件(WidowX 而不是 Franka/UR5)来抵消成本。
  3. 语言标注全覆盖:每条轨迹都配自然语言指令("把胡萝卜放进锅里"),这是它能成为 VLA 预训练底座的关键——没有语言,就只是动作数据,不是 vision-language-action 数据。
BridgeData V2 — 方法示意:核心 pipeline
Plate Nº IIBridgeData V2 — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

硬件统一:就像一个连锁店要求所有分店用同一款收银机——所有数据都用同一款机械臂:WidowX 250 6-DoF 机械臂 + 第三人称 RGB 相机(具体相机数量和型号需读原文)。统一硬件意味着收来的数据可以直接拼一起训练,不用做"跨本体"(cross-embodiment,不同型号机器人)的归一化处理。

采集方式:像驾校教练手把手带学员开车——以人类遥操作(teleoperation,人远程控制机械臂)为主,少量轨迹用脚本策略(scripted policy,预先写好的动作脚本)+ 少量自主探索(autonomous)补充。遥操作保证数据质量"看得过去",演示者的意图清晰,不像让机器人乱试那样动作零散。具体每种来源的占比需读原文。

等等,先慢一拍——为什么非要"人来手把手教"?因为机器人自己乱动一通,10 次里 9 次是失败动作,学不到什么有用的东西。让人来开一遍,每条数据都是"成功完成任务"的样板。

环境设计:像旅游博主刻意拍 24 家不同风格的咖啡店——24 个环境分布在多个真实场景里:厨房、桌面、玩具房等。每个环境里有多个任务,每个任务里有多种物体姿态/初始条件。这样训出来的策略(policy)不会"只认得这一张桌子的这个角落"。

语言标注:像给每段录像配一句旁白——每段轨迹(trajectory,一段连续的"看到什么+做了什么"序列)配一条自然语言指令,比如"把胡萝卜放进锅里"。标注既有人工写的,也有模板化生成的。这一层让数据集天然适配 BC(Behavior Cloning,行为克隆)+ 语言条件化(language conditioning)的训练范式,也是后来 RT-2、OpenVLA 直接用它做预训练的原因。

实验在做什么

论文除了发布数据集本身,还跑了一组 baseline 实验,验证"在 BridgeData V2 上预训练能让下游任务更好"。具体配置:

  • Baseline 模型:跑了几种主流 imitation learning 算法——大概率包含 BC-RNN、Diffusion Policy、RT-1 风格的 transformer policy(具体清单需读原文)。
  • 评测协议:在数据集内的任务上做 in-distribution 评测(同环境换初始条件),以及 held-out 评测(没见过的环境/物体)。
  • 关键指标:任务成功率(task success rate),按任务类别分桶报告。
  • 主要发现:在更大、更杂的数据子集上训出的 policy,泛化更好;语言条件化(language conditioning)确实帮助跨任务迁移。具体数字需读原文。

实验本身不是论文的主菜——主菜是数据集。这些实验只是说"这个数据集是可用的,请放心来训"。

你应该懂的几个新词 — 4-6 个

  • VLA(Vision-Language-Action)模型:吃图像 + 语言指令、吐机器人动作的端到端模型。BridgeData V2 是 VLA 预训练数据的事实标准之一。
  • Demonstration / Trajectory(演示轨迹):一段连续的"观测-动作"序列,记录机器人在执行某任务时每一帧看到什么、做了什么。模仿学习的训练样本就是它。
  • Teleoperation(遥操作):人通过手柄/VR 等设备远程控制机械臂完成任务,机器人记录这段操作作为训练数据。BridgeData V2 主要靠这个采。
  • Behavior Cloning(BC,行为克隆):最朴素的模仿学习——直接监督学习 (observation) → action。简单但容易在分布外(OOD)崩盘。
  • Cross-embodiment(跨本体):不同型号机器人的数据混在一起训。BridgeData V2 自己是单本体(全 WidowX),但它常被合并进跨本体数据集(如 Open X-Embodiment)。
  • Held-out evaluation(保留集评测):训练时没见过的环境/任务,专门留出来测泛化能力。

它和其他论文什么关系

  • 数据集层(同代):和 RT-1 数据集(闭源)形成对照——BridgeData V2 是开源世界的对应物。和 RoboNet(更早、更杂但质量参差)相比,BridgeData V2 更精、更标。
  • 预训练底座(下游):OpenVLA、RT-2、RT-X、Octo 等几乎所有 2023-2024 的开源 VLA 工作都在它上面预训练或混训。要看OpenVLA 笔记对照"它怎么用"。
  • 跨本体数据集(聚合):Open X-Embodiment(RT-X 的数据基座)把 BridgeData V2 作为子集纳入,进一步扩展规模。
  • 同方向的扩展:DROID(2024,更大规模、Franka 机械臂)可以看作 BridgeData V2 思路的延续——更大、更多本体、更多场景。
  • 方法论对照:和 Diffusion PolicyACT/Aloha 这些"算法侧"工作互补——它们关心怎么从数据里学,BridgeData V2 关心数据从哪来。

我建议这样读 — 3-4 步

  1. 先看数据集卡片和示例视频(项目主页 rail-berkeley.github.io/bridgedata):花 10 分钟看几段实际轨迹的视频,对"24 个环境长什么样、任务多杂"建立直觉。这一步比读 abstract 重要十倍。
  2. 再读论文 Section 3(数据集构成)和 Section 4(采集流程):搞清楚硬件、标注、任务分类的具体设计。这部分决定了你下游用它时怎么过滤、怎么混。
  3. 跳读实验:除非你要复现 baseline,否则实验部分扫一眼指标即可,不必逐表读。
  4. 结合 OpenVLA 论文的训练混合表:看一眼 OpenVLA 是怎么把 BridgeData V2 和其他数据集按比例混的,你就理解它在生态里的实际定位了。

为什么值得读

如果你打算做任何 VLA 相关的工作,BridgeData V2 是绕不过去的——它要么在你的训练数据里,要么在你的对比 baseline 里。读它的价值有三:

  1. 理解"开源 VLA 预训练底座"长什么样:你会建立一个具体的参照——60K 轨迹、24 环境、单本体、带语言、真机,这是 2023 年的"标准配方"。后面的工作都是在这个基础上加规模、加多样性。
  2. 理解数据集论文的写法:和算法论文不同,数据集论文的核心是"采集决策的合理性"和"对社区的可用性"。读它能学会怎么评估一个数据集(不只是看大小,还要看分布、标注、可重现性)。
  3. 理解机器人学习的"数据瓶颈"现实:VLA 之所以还没到 LLM 那种 scaling 程度,根本原因是真机数据贵、慢、杂。BridgeData V2 的存在本身就是在告诉你这个领域的"地心引力"在哪——读完你会更清醒地看待"机器人 GPT 时刻"这种话。

引用本笔记 / Cite this note
BibTeX
@online{eai_bridgedata_v2_2026,
  title       = {(readable note) BridgeData V2},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/bridgedata-v2/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim