Datasets & Benchmarks · Plate Nº 32

RH20T

6 min read · 2079 字 · ⭐⭐⭐ · 短摘要

#diffusion #vision #manipulation #imitation #sim2real #dataset

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

机器人数据集，除拍视频外还录了"手感"和"声音"：拧瓶盖多大力、咔哒卡到位。147 项任务、11 万段。

这是个什么场景 — 日常类比

教别人做家务，光看视频是不够的。

教学徒拧瓶盖：他光看手势学不会"该用多大劲"——拧太松不动，拧太紧滑丝。
教孩子插 USB：插反了会卡住。"卡住"是用手感觉到的，眼睛只看到"没插进去"。
教新手盖瓶子：那一声"咔哒"是盖到位的信号——但普通视频里听不清。

主流机器人数据集（比如 RT-1、BridgeData）只录了视频和动作，等于只让学徒看视频、不让他摸也不让他听。RH20T 这篇论文做的事，是把"摸"和"听"也加进数据集——多录了力/力矩（force-torque，手上压力和扭力多大）和音频两个通道。它瞄准的是 147 项要"动手感受"的任务，超过 11 万段轨迹（trajectory，机器人从动作开始到结束的状态序列）。

之前的人怎么做的 — 3-5 bullet

RT-1 / RT-2（Google）：百万级轨迹，但全是 RGB 视频 + 动作，没有力觉
BridgeData：跨任务、跨实验室，泛化导向，依然是视觉为主
RoboNet：早期合作数据集，几百段轨迹，规模小且模态单一
学术数据集（如 MIME、RoboTurk）：通常聚焦单一技能或单一机器人，缺多任务多模态
力觉数据：以前要么只在仿真里收集（无 sim-to-real），要么是单任务小规模（如插拔 USB 的几百段）

共同短板：接触富集任务（拧、插、按、撕）下的真机多模态数据严重缺失。

这篇论文的关键想法

三个核心立场：

接触富集任务必须有力觉和声音——视觉看不到"压力大小"和"咔哒卡入"。
一次示教泛化（one-shot imitation）才是实用底线——真实场景里没人愿意为每个新任务收集 1000 段示教。
数据采集平台要标准化、可复制——不是某个实验室的私有 setup，而是"任何实验室都能搭一套同样的"，方便后续社区扩展。

它怎么做的（方法）— 3-4 段

采集平台。像在厨房里架一台多机位拍摄做菜的纪录片：菜板上方俯拍、左右两侧侧拍、操作者第一视角，再加上一支挂在锅边的麦克风。论文搭的工位类似——4 个 RGB-D 相机从不同角度拍（避免被手臂挡住）+ 力/力矩传感器（装在末端执行器，即夹爪根部）+ 麦克风（录接触声音）+ 触觉传感器（部分配置中）。所有传感器时间同步到毫秒级——这是关键。等等，先慢一拍 —— 为什么时间同步这么要紧？因为下游模型学的是"先看到什么、然后摸到什么、最后听到什么"的因果顺序。如果视频比力觉慢半秒，模型会以为"先卡住、后看到接触"，学到的就是错的物理。

任务设计。像设计一本"必须动手感受才能完成"的菜谱：147 道任务包括拧瓶盖、插拔 USB、撕胶带、按按钮、用工具、双臂协作。每项任务都至少有一段需要接触富集（contact-rich，全程都和物体抵着发力）的子动作——"力觉用得上"是设计目标而不是顺手附带的副产物。

示教方式。像老师傅手把手教徒弟，但工具是 VR 手柄。主要靠人类遥操作（teleoperation，操作员用手柄/VR 控制器实时操纵机器人，像玩高精度游戏一样）+ 一部分动觉示教（kinesthetic，直接抓住机器人的手腕拽着它走一遍，像握着小孩的手教写字）。每条轨迹同时记录：本体感受（关节角/速度）、视觉、力/力矩、音频、操作员的指令文本。

数据规模与分发。最后像超市开放试吃区一样把所有原料摆出来：量级是 11 万+ 段轨迹，覆盖约 50 种物体和多种机器人本体。配套放出了数据加载、可视化和基线代码，主要支持 imitation learning（模仿学习，让模型抄人类示教的作业）和 one-shot imitation（一次示教就泛化）两种 setup。

实验在做什么

注：本节基于摘要级理解，具体数字与对比表需读原文。

主要做三类验证：

数据集统计验证：任务覆盖度、模态完整度、采集吞吐量（多少分钟一段）。
基线模型评估：在 RH20T 上跑几个标准模仿学习方法（行为克隆 BC、Diffusion Policy 等），证明加入力觉/音频确实让接触任务的成功率提升——这是数据集论文的"我们这样多模态有用"自证。
One-shot 迁移：在见过的相邻任务上只给 1 段新示教，看模型能不能泛化。这是论文最想强调的故事线。

你应该懂的几个新词 — 4-6 个

Contact-rich task：接触富集任务，比如拧瓶盖、插插头——任务全程都在"和物体抵着"，不像 pick-and-place 那种"夹起来移动"几乎不需要精细力控
Force-torque sensor：力/力矩传感器，通常装在机械臂末端，6 维输出（3 个方向的力 + 3 个方向的扭矩），相当于机器人的"皮肤压力感"
Teleoperation：遥操作，人通过 VR 手柄/3D 鼠标实时控制机器人，是当前最高质量示教来源
Kinesthetic teaching：动觉示教，直接用手把机器人手臂"拖动"到目标位置，机器人记录轨迹——比遥操作直观但精度低
One-shot imitation：一次示教模仿，目标是给模型 1 段新任务的演示，它就能在那个任务上工作（vs 传统方法需要几十几百段）
Multimodal alignment：多模态对齐，让视觉/力觉/音频/动作流在时间轴上对齐到同一时钟，是多模态数据集的工程难点

它和其他论文什么关系

vs RT-1/RT-X（Google 大数据集）：RT-X 是"广度"路线，跨实验室拼数据；RH20T 是"深度+模态"路线，单一标准平台，但模态更全
vs DROID（2024 后续大数据集）：DROID 在规模和场景多样性上更大，但 RH20T 在接触富集 + 力音频模态上仍是稀缺资源
vs Diffusion Policy（学习方法）：DP 这种方法证明"数据够好够多就能学会复杂操作"，RH20T 提供的就是"够好够多 + 还带力觉"的训练食材
下游影响：很多研究 contact-rich manipulation 的论文（插拔/装配/工具使用方向）会把 RH20T 当作 benchmark 或预训练源
同期工作：MimicGen（数据增强造数据）走的是"少量真实+大量合成"路线；RH20T 是"老老实实采真机"——两条路都有人在走

我建议这样读 — 3-4 步

先看 teaser 图和任务列表：扫一遍 147 项任务名，建立"哦原来覆盖这些场景"的直觉
看采集平台示意图：硬件 setup 图最值得看，理解多模态时间同步是怎么做的
跳读基线实验：重点看"加力觉 vs 不加力觉"的对比表，确认论文核心 claim 站得住
如果要用数据：去 GitHub/官网读 data loader 文档比读论文更实用——数据集论文的工程细节通常在代码里

为什么值得读

如果你研究 contact-rich manipulation：这是少数公开的、带力觉和音频的真机大规模数据集，几乎是绕不开的资源
如果你研究多模态学习：RH20T 提供了"视觉 + 力觉 + 音频 + 动作"四模态时间同步数据，做模态融合实验的好素材
如果你只是想了解机器人数据集生态：把它和 RT-X、DROID、BridgeData 放一起对比，能快速建立"什么数据集解决什么问题"的地图
历史定位：2023 年 RSS Workshop，处于"大模型 + 大数据"机器人范式刚起来的阶段，是 era=classic 的代表性数据集论文之一

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_rh20t_2026,
  title       = {(readable note) RH20T},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2023 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/rh20t/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)