Datasets & Benchmarks · Plate Nº 34

DROID

7 min read · 2308 字 · ⭐⭐⭐ · 短摘要

#diffusion #transformer #language #vision #manipulation #RL

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

全球 18 家实验室一起拍机器人干活的视频，凑出 7.6 万段、564 个真实场景，让机器人不再只会"自家桌子上那点活"。

这是个什么场景

想象你只在自家厨房教过小孩擦桌子。他在自家擦得飞起，可一到奶奶家、到小区会议室，灶台高度变了、抹布颜色变了、光线也不一样，他立刻愣住——这其实就是机器人长期以来的窘境。

过去的训练数据像是"一个家长在自家厨房反复教孩子叠 5 件衣服"：场景固定、光照固定、桌面千篇一律，孩子（模型）学得熟，可一换房间就懵
DROID 干的事是"召集全球 18 个家庭，把各自厨房、客厅、办公室、宿舍、洗手间里教孩子拧瓶盖、开抽屉、拿杯子的过程都录下来寄到一起"
等孩子看过这么多种"家"，再走进一间没去过的房间，也不至于完全束手无策

它要治的就是机器人学习里"训练数据像温室"这个老毛病——同一只机械臂、同样背景、固定光照，策略一出实验室就崩。

之前的人怎么做的 — 3-5 bullet

单实验室小规模数据：RT-1、ACT、Diffusion Policy 等大多在 1-3 个实验室、几百到几千段轨迹规模上训练，多样性受限
仿真大规模采集：Isaac Gym / RoboSuite / RLBench 走仿真路线，量大但 sim-to-real 鸿沟难补
跨机构联合数据集：Open X-Embodiment（2023）首次把 22 种机器人、几十个实验室的数据拼在一起，但硬件异构导致动作空间难统一
众包人类示范：BC-Z、RoboNet 等尝试众包，但场景仍偏受控
共性短板：要么"硬件统一但场景单一"，要么"场景多但硬件杂乱难训"，没人在"统一硬件 × 极度多样真实场景"这条路上把规模做到位

这篇论文的关键想法

用一套硬件标准 + 一套采集协议 + 全球协作，把"硬件统一"和"场景多样"同时拉满。

具体三个支点：

硬件统一：所有数据采集站都用 Franka Panda 7-DoF 机械臂 + 双 ZED 立体相机 + 一个手腕相机 + Oculus 控制器遥操作。这样动作空间、观测空间一致，下游训练不用做异构对齐
场景与任务多样：13 国 18 机构每家在自己的真实环境（厨房、办公室、宿舍、洗手间……）采，自然形成 564 个场景、86 项任务的天然分布
众包规模：累计约 350 小时遥操作演示、约 7.6 万段轨迹，是当时单一硬件下最大的真实机器人数据集之一

它的认知论是："机器人基础模型缺的不是更聪明的算法，是更接近真实世界分布的数据"——这与 LLM/VLM 时代"scaling data"的逻辑同构。

它怎么做的（方法）— 3-4 段

统一硬件平台 — 像连锁店统一菜单。 18 家实验室不是各搭各的，而是按同一份"装机清单"装：Franka Panda 7 自由度机械臂、Robotiq 夹爪、两个 ZED 2 立体相机（拍全景）+ 一个 ZED Mini（绑在手腕上拍特写）、一个 Oculus Quest 2 头显当遥控器。每家店的菜（数据）虽然口味不同，但厨具一样，回头客（模型）才不用学一次换一套。

等等，先慢一拍 — 这里的"遥操作（teleoperation）"是什么？说白了就是人戴着 VR 头显当"提线木偶师"，手怎么动机械臂就怎么动，电脑把人的动作和机械臂看到的画面一起录下来当教材。

遥操作与采集协议 — 像录烹饪教学视频。 操作员戴上 Oculus，用手柄牵着机械臂的"手腕"在空间里走 6D 位姿（位置 + 朝向），机械臂用阻抗控制柔顺地跟随。每段演示都同步录下 RGB 画面 + 深度 + 本体感觉（关节角度/速度）+ 动作指令，再配一句自然语言任务描述，比如 "put the mug in the sink"（把杯子放进水槽）。

任务与场景设计自由 — 像让各分店自报招牌菜。 论文没硬性规定"必须采哪 86 个任务"，只给出几个大类——pick-and-place（拿起放下）、articulated object manipulation（开抽屉/开门这类带轴的操作）、tool use（用工具）、deformable（操作毛巾、衣服这种会变形的东西）——剩下让各机构按自家场景自由发挥，事后再聚类打标签。这种"自下而上"长出来的多样性，正是数据集贴近真实世界的关键。

质量控制与发布 — 像总店审核加盟店上传的视频。 数据汇到中心仓库前要过自动校验（轨迹长度、相机帧率、标注完整度）和人工抽查；最终以标准格式（HDF5 + RLDS）开源，还附赠一个 Diffusion Policy 在 DROID 上预训练好的模型，作为别人对照用的 baseline。

实验在做什么

论文核心实验回答两个问题：DROID 的规模和多样性是否真的提升了下游策略的泛化？

预训练 + 微调对照：在 DROID 上预训练 Diffusion Policy，再在新场景/新任务上做少样本微调，对比"从零训练"和"在 Open X-Embodiment 上预训练"两种 baseline。论文报告 DROID 预训练在新环境下成功率显著领先（具体数字需读原文）
场景外推：在数据集中没出现过的真实环境（合作机构外的第三方场景）测试 zero-shot 与 few-shot 性能
数据规模消融：用 25%、50%、100% 的 DROID 数据训练，看性能是否随规模单调提升——这是验证"scaling law 在机器人数据上成立"的关键证据
任务类别消融：分析哪些任务类（如 deformable、tool use）从多样性中受益最多

你应该懂的几个新词 — 4-6 个

Franka Panda：一款 7 自由度协作机械臂，研究界事实标准之一，因控制接口开放、阻抗控制好用而被广泛采用
遥操作（teleoperation）：人通过控制器（手柄/VR/外骨骼）实时驱动机器人完成任务，机器人录下的轨迹作为示范
模仿学习（Imitation Learning, IL）：从人类示范学策略，最常见是行为克隆（Behavior Cloning），DROID 的主要用法
Open X-Embodiment（OXE）：2023 年 Google 牵头的跨机器人联合数据集，DROID 的主要对照与互补对象
RLDS（Reinforcement Learning Datasets）：Google 推的机器人/RL 数据标准格式，跨数据集训练的事实标准
Diffusion Policy：用扩散模型生成动作序列的策略类，DROID 论文用它做预训练 baseline

它和其他论文什么关系

上游/前置：RT-1（2022）首次证明大规模真实数据 + Transformer 能学通用操作；Open X-Embodiment（2023）开启跨机构协作范式。DROID 是这条线的"硬件统一版加强版"
同期对照：Mobile ALOHA（2024）走"廉价硬件 + 高质量小数据"路线，DROID 走"标准硬件 + 大规模多样数据"路线，是真实机器人数据的两条互补路径
下游应用：OpenVLA、π0 等 2024-2025 年的机器人基础模型把 DROID 列为关键预训练源之一；DROID + OXE 几乎是当下"想训通用 VLA（Vision-Language-Action）模型"的默认数据组合
数据 vs 算法之争：和 Diffusion Policy、ACT 这类"算法侧"工作互补——DROID 论证"数据侧也要 scale"，两条线合起来才是机器人基础模型的完整图景

我建议这样读 — 3-4 步

先读 Abstract + Figure 1（10 分钟）：看清楚"13 国 / 18 机构 / 7.6 万段 / 564 场景 / 86 任务"这组数字背后的采集图景
跳到实验章节（30 分钟）：重点看"DROID 预训练 vs OXE 预训练 vs from scratch"那张对照表，建立 DROID 的相对价值感
回看方法章节（30 分钟）：理解硬件标准、遥操作协议、数据格式——如果将来要自己搭采集站或用 DROID 微调，这部分是工程入口
看附录的任务分类与场景照片（20 分钟）：感受 564 个场景的真实多样性，对"机器人数据的真实分布长什么样"建立直觉

如果你时间紧，只读 1+2 即可——3+4 是想动手时再翻。

为什么值得读

数据集是机器人时代的 ImageNet 之一：2024 之后几乎所有通用机器人模型论文都会引用 DROID，不读一遍方法部分会缺一块基础设施常识
理解"机器人 scaling"的入门读物：它把"data scaling 在机器人上是否成立"这个问题用实证回答了一次，是把 LLM 时代的 scaling 思维迁移到具身的关键参考
工程参考价值高：硬件清单、采集协议、数据格式是现成的"机器人数据采集 starter kit"，自己组实验室直接抄
领域协作范式样本：13 国 18 机构怎么做数据治理、质量控制、版本发布——这本身是一种科研工程实践，值得做大型项目的研究者借鉴

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_droid_2026,
  title       = {(readable note) DROID},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/droid/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)