Imitation Learning · Plate Nº 62

Universal Manipulation Interface

8 min read · 2724 字 · ⭐⭐⭐ · 短摘要

#diffusion #vision #manipulation #navigation #imitation #sim2real

Featured in Issue Nº VI

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

人手拿一个"带摄像头的夹子"在厨房自己做事，录下来就能教机器人，全程不用机器人在场。

这是个什么场景 — 日常类比

你刷短视频学做菜，跟着颠几次勺就会——前提是镜头得对着锅，别只拍人脸。教机器人也是这道理：得让它看到"和它将来动手时一样的视角"。

但现实里，给机器人喂示范数据特别麻烦：

想让它学叠衣服，得把它搬到衣柜前用手柄一格一格遥控（遥操作 teleoperation）。慢、贵、还离不开机器人本体。
或者抓着它胳膊走一遍（动觉示范）——胳膊几十斤，人拽得累。
想偷懒抄 YouTube 视频？人家 5 根手指，机器人就 2 个爪，看了也学不像。

UMI 想到的招：做一个"和机器人末端手长得一模一样的夹子"再绑个 GoPro，人拿着它去厨房、超市、办公室随便干活，录下来的视频机器人看了就能学。相当于戴一只机器人同款假手去生活，你做的每件事它都能"代入"。

Plate Nº IUniversal Manipulation Interface — 场景示意：这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

机器人遥操作（teleop）：人通过手柄/VR 远程控制机器人本体做任务。代表作：Mobile ALOHA。优点是数据"一手"对应机器人；缺点是必须有机器人在场，每分钟数据成本极高。
动捕示范（kinesthetic teaching）：人直接拽着机器人胳膊走一遍。同样需要机器人在场，且人会受机器人重量/惯性干扰。
第三人称视频学习：从 YouTube/Ego4D 等海量人类视频学。数据量大但缺动作标签——只看到手在动，不知道夹爪开合、力度、精确轨迹，跨实体（embodiment gap，人手 vs 机械夹爪）很难跨。
仿真训练 + sim2real：在仿真器里采海量数据然后迁到真机。问题是真实世界的接触、可形变物体（衣服、面团）很难仿真。

UMI 的位置：在"必须用机器人采"和"只能看人类视频"之间开了一条新路——用一个"长得像机器人末端"的手持设备让人采，既保留了动作精确性，又解放了采集场所。

这篇论文的关键想法

一句话：教徒弟之前，先让师傅戴上和徒弟一样的"假手"再示范——这样徒弟看到的画面、用到的工具，都跟自己将来要干的活一模一样。

UMI 把这个想法拆成三个对齐：

硬件镜像（手长得一样）。像让师傅穿上跟新员工同款的工作手套——你做的动作徒弟能 1:1 复刻，不用脑补"我的 5 指要换成它的 2 爪"。手持设备的夹爪和真机器人的末端执行器（end-effector）型号、开合范围完全一致。
视觉镜像（看得一样）。像主播开第一人称游戏直播——观众看到的就是主播视野。夹爪上装一个广角 GoPro，角度和机器人手腕相机（wrist camera，装在机械臂手腕的摄像头）严格对齐。机器人将来"看到"的画面和人录视频时一样，省去"换视角再翻译"的麻烦。
延迟匹配（节奏一样）。像直播玩游戏会有 200ms 延迟——人手嗖一下就到位，机器人马达反应慢半拍。UMI 在训练时就把这个慢半拍建进数据里，让机器人不会"按训练数据猛冲然后撞墙"。

等等，先慢一拍——Diffusion Policy（扩散策略） 是啥？一种 2023 年的模仿学习方法，简单理解：用画图 AI（Stable Diffusion 那一类）的技术不去画图，而是"画"出机器人下一步该怎么动。UMI 不发明它，只是当现成工具用。

Plate Nº IIUniversal Manipulation Interface — 方法示意：核心 pipeline

它怎么做的（方法）— 3-4 段

硬件层——像 DIY 一把"会拍视频的夹子"。UMI 设备是一个 3D 打印的手持夹爪外壳，里面装着和目标机器人（论文里主要是 UR5/Franka 配 WSG-50 夹爪）一模一样的夹爪机构。手持端有按钮控制开合，顶部刚性绑一个 GoPro。整套东西没电机、没外部追踪器，全靠 GoPro 的画面反推位置。便宜、轻、谁都能复制一个。

位姿估计层——像看 vlog 反推作者走过哪些街角。GoPro 的视频送进 ORB-SLAM3（一种视觉 SLAM 算法，仅靠相机画面就能算出"我此刻在房间哪里、朝哪个方向"），反推出每一帧夹爪在世界坐标里的 6D 位姿（3 维位置 + 3 维朝向）。夹爪开合角度则通过装置上的传感器或视觉标记记录。这一步把一段普通视频变成 (图像, 6D 位姿, 夹爪开合) 的轨迹，正是模仿学习要的标准格式。

等等，先慢一拍——为啥不直接用动捕设备？因为动捕要在房间里布一堆红外摄像头，你就走不出实验室了。GoPro + SLAM 让你能去任何地方采数据，这才是 UMI"野外可用"的关键。

策略训练层——像让 AI 抄 100 段录像作业。把人采的轨迹喂给 Diffusion Policy 模仿学习。输入：GoPro 当前帧 + 前面几帧；输出：未来若干步的位姿增量 + 夹爪开合指令。整个训练阶段机器人压根不用插电——纯靠人录的数据。

部署层——像让徒弟把师傅录的视频在自己的手上"重演"。把训好的策略直接挂到真机器人上：机器人腕部相机的视角早就和 GoPro 对齐过，所以它"看到"的画面和训练时分布一致；输出的位姿增量直接驱动机械臂。论文展示了"洗碗""整理""叠衣服"等多步灵巧任务的零样本泛化（zero-shot generalization，没在那个具体场景采过数据也能直接做对）。具体数字需读原文。

实验在做什么

论文展示的几类任务方向（具体成功率/任务数需读原文）：

长程任务：比如"拿杯子→放到水槽→打开水龙头"这种需要好几步组合的。
可形变物体：叠衣服、整理布料——这是仿真很难做的领域，UMI 的"真实数据为主"路线在这里有优势。
跨场景泛化：在 A 厨房采的数据在 B 厨房（光线、台面、物体外观都不同）能跑。这测的是"野外采集"的真正价值——你能去任何地方采，不是只能在实验室。
跨机器人：因为夹爪硬件标准化了，同一份数据可以训不同机器人本体（UR5、Franka 等）。

实验对比的 baseline 主要是：用机器人遥操作采等量数据训练的策略，看 UMI 能不能匹敌甚至超越。

你应该懂的几个新词 — 4-6 个

embodiment gap（实体差距）：示范数据的"做事的身体"和部署时"做事的身体"不一样导致的迁移困难。比如人手 5 指 vs 机器人 2 指夹爪。UMI 通过硬件镜像消除这个差。
visual SLAM（视觉同步定位与建图）：仅靠相机推测自身在世界中位置和姿态的算法。UMI 用它把 GoPro 视频反推成 6D 轨迹。代表算法 ORB-SLAM3。
Diffusion Policy（扩散策略）：用扩散模型生成机器人动作序列的模仿学习方法（CMU/MIT 2023）。UMI 不是在 propose 它，是在用它。
wrist camera（腕部相机）：装在机器人手腕上的相机，视角随末端运动。和"第三人称固定相机"对应。UMI 的核心设计就是让人采时的相机和部署时的腕部相机视角一致。
kinesthetic teaching（动觉示范）：人物理拽着机器人胳膊走一遍来示范。是 teleoperation 之外另一种"机器人在场"的采集方式。
6D pose（6 自由度位姿）：3 维位置 + 3 维朝向，描述刚体在 3D 空间的完整状态。机械臂末端动作的标准表示。

它和其他论文什么关系

vs Diffusion Policy（2023）：UMI 用 DP 当策略骨干，但贡献是"采集硬件 + 数据管线"，不是策略算法本身。可以理解为"DP 的数据飞轮"。
vs Mobile ALOHA（2024）：两条不同路线。Mobile ALOHA 是把遥操作做到极致（双臂 + 移动底盘），UMI 是干脆不要遥操作。两者互补：ALOHA 适合需要双手协同的精细任务，UMI 适合需要海量场景多样性的任务。
vs RT-1/RT-2（Google 2022/2023）：RT 系列靠 Google 自己的机器人车队 17 个月采 13 万 episode。UMI 想用"志愿者拿着设备到处采"的众包路线把这件事去中心化。
vs 视频预训练（VIP、R3M、Ego4D 派）：那些方法是"拿现成第三人称视频做表征预训练"。UMI 是"重新设计采集设备让一手数据可用"。两条路可以叠加：先用海量视频预训练表征，再用 UMI 数据做 fine-tune。
vs OpenVLA（2024）：OpenVLA 走"大模型吃大数据集（Open X-Embodiment）"路线，UMI 解决"数据集本身怎么扩"的上游问题。

我建议这样读 — 3-4 步

先看项目主页 + 30 秒 demo 视频（umi-gripper.github.io）。UMI 是一篇"硬件让你眼前一亮"的论文，看图比看字快 10 倍。
重点读 Method 第 3 节，搞懂三件事：夹爪硬件怎么镜像机器人末端、GoPro 怎么做 SLAM、延迟匹配怎么实现。其他章节可以跳。
跳过 Diffusion Policy 的细节，那是另一篇论文的内容，UMI 当黑盒用。如果你完全不懂 DP，先看 Diffusion Policy 那篇笔记再回来。
看实验里的"跨场景"和"长程"两类任务的成功率对比，重点关注"和遥操作 baseline 比"的部分——这是判断 UMI 路线值不值的关键证据。

为什么值得读

范式转变信号：机器人学习长期被"采数据贵"卡脖子，UMI 是 2024 年最响亮的"去中心化采集"答案之一。如果这条路证明可行，未来"机器人数据"会像"互联网图片"一样可以众包。
硬件思维的胜利：很多人想用纯算法（VLM、sim2real）跨过 embodiment gap，UMI 反其道——直接让硬件长得一样。这种"工程暴力"思路在系统级研究里很值得学。
可复现性高：UMI 全套硬件设计、SLAM 管线、训练代码都开源了。你如果有 3D 打印机和一只 UR5/Franka，可以原样复刻。这在机器人圈是少见的开放度。
影响后续工作：2024-2025 年涌现的"手持设备采集"系列（DexCap、AnyTeleop 等）大多在 UMI 框架上做扩展。读 UMI 等于读懂这条研究线的起点。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_umi_2026,
  title       = {(readable note) Universal Manipulation Interface},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/umi/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)