回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Imitation Learning · Plate Nº 62

Universal Manipulation Interface

8 min read · 2724 字 · ⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

人手拿一个"带摄像头的夹子"在厨房自己做事,录下来就能教机器人,全程不用机器人在场。

这是个什么场景 — 日常类比

你刷短视频学做菜,跟着颠几次勺就会——前提是镜头得对着锅,别只拍人脸。教机器人也是这道理:得让它看到"和它将来动手时一样的视角"。

但现实里,给机器人喂示范数据特别麻烦:

  • 想让它学叠衣服,得把它搬到衣柜前用手柄一格一格遥控(遥操作 teleoperation)。慢、贵、还离不开机器人本体。
  • 或者抓着它胳膊走一遍(动觉示范)——胳膊几十斤,人拽得累。
  • 想偷懒抄 YouTube 视频?人家 5 根手指,机器人就 2 个爪,看了也学不像。

UMI 想到的招:做一个"和机器人末端手长得一模一样的夹子"再绑个 GoPro,人拿着它去厨房、超市、办公室随便干活,录下来的视频机器人看了就能学。相当于戴一只机器人同款假手去生活,你做的每件事它都能"代入"。

Universal Manipulation Interface — 场景示意:这论文要解决的现实问题
Plate Nº IUniversal Manipulation Interface — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 机器人遥操作(teleop):人通过手柄/VR 远程控制机器人本体做任务。代表作:Mobile ALOHA。优点是数据"一手"对应机器人;缺点是必须有机器人在场,每分钟数据成本极高。
  • 动捕示范(kinesthetic teaching):人直接拽着机器人胳膊走一遍。同样需要机器人在场,且人会受机器人重量/惯性干扰。
  • 第三人称视频学习:从 YouTube/Ego4D 等海量人类视频学。数据量大但缺动作标签——只看到手在动,不知道夹爪开合、力度、精确轨迹,跨实体(embodiment gap,人手 vs 机械夹爪)很难跨。
  • 仿真训练 + sim2real:在仿真器里采海量数据然后迁到真机。问题是真实世界的接触、可形变物体(衣服、面团)很难仿真。

UMI 的位置:在"必须用机器人采"和"只能看人类视频"之间开了一条新路——用一个"长得像机器人末端"的手持设备让人采,既保留了动作精确性,又解放了采集场所。

这篇论文的关键想法

一句话:教徒弟之前,先让师傅戴上和徒弟一样的"假手"再示范——这样徒弟看到的画面、用到的工具,都跟自己将来要干的活一模一样。

UMI 把这个想法拆成三个对齐:

  1. 硬件镜像(手长得一样)。像让师傅穿上跟新员工同款的工作手套——你做的动作徒弟能 1:1 复刻,不用脑补"我的 5 指要换成它的 2 爪"。手持设备的夹爪和真机器人的末端执行器(end-effector)型号、开合范围完全一致。
  2. 视觉镜像(看得一样)。像主播开第一人称游戏直播——观众看到的就是主播视野。夹爪上装一个广角 GoPro,角度和机器人手腕相机(wrist camera,装在机械臂手腕的摄像头)严格对齐。机器人将来"看到"的画面和人录视频时一样,省去"换视角再翻译"的麻烦。
  3. 延迟匹配(节奏一样)。像直播玩游戏会有 200ms 延迟——人手嗖一下就到位,机器人马达反应慢半拍。UMI 在训练时就把这个慢半拍建进数据里,让机器人不会"按训练数据猛冲然后撞墙"。

等等,先慢一拍——Diffusion Policy(扩散策略) 是啥? 一种 2023 年的模仿学习方法,简单理解:用画图 AI(Stable Diffusion 那一类)的技术不去画图,而是"画"出机器人下一步该怎么动。UMI 不发明它,只是当现成工具用。

Universal Manipulation Interface — 方法示意:核心 pipeline
Plate Nº IIUniversal Manipulation Interface — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

硬件层——像 DIY 一把"会拍视频的夹子"。UMI 设备是一个 3D 打印的手持夹爪外壳,里面装着和目标机器人(论文里主要是 UR5/Franka 配 WSG-50 夹爪)一模一样的夹爪机构。手持端有按钮控制开合,顶部刚性绑一个 GoPro。整套东西没电机、没外部追踪器,全靠 GoPro 的画面反推位置。便宜、轻、谁都能复制一个。

位姿估计层——像看 vlog 反推作者走过哪些街角。GoPro 的视频送进 ORB-SLAM3(一种视觉 SLAM 算法,仅靠相机画面就能算出"我此刻在房间哪里、朝哪个方向"),反推出每一帧夹爪在世界坐标里的 6D 位姿(3 维位置 + 3 维朝向)。夹爪开合角度则通过装置上的传感器或视觉标记记录。这一步把一段普通视频变成 (图像, 6D 位姿, 夹爪开合) 的轨迹,正是模仿学习要的标准格式。

等等,先慢一拍——为啥不直接用动捕设备? 因为动捕要在房间里布一堆红外摄像头,你就走不出实验室了。GoPro + SLAM 让你能去任何地方采数据,这才是 UMI"野外可用"的关键。

策略训练层——像让 AI 抄 100 段录像作业。把人采的轨迹喂给 Diffusion Policy 模仿学习。输入:GoPro 当前帧 + 前面几帧;输出:未来若干步的位姿增量 + 夹爪开合指令。整个训练阶段机器人压根不用插电——纯靠人录的数据。

部署层——像让徒弟把师傅录的视频在自己的手上"重演"。把训好的策略直接挂到真机器人上:机器人腕部相机的视角早就和 GoPro 对齐过,所以它"看到"的画面和训练时分布一致;输出的位姿增量直接驱动机械臂。论文展示了"洗碗""整理""叠衣服"等多步灵巧任务的零样本泛化(zero-shot generalization,没在那个具体场景采过数据也能直接做对)。具体数字需读原文。

实验在做什么

论文展示的几类任务方向(具体成功率/任务数需读原文):

  • 长程任务:比如"拿杯子→放到水槽→打开水龙头"这种需要好几步组合的。
  • 可形变物体:叠衣服、整理布料——这是仿真很难做的领域,UMI 的"真实数据为主"路线在这里有优势。
  • 跨场景泛化:在 A 厨房采的数据在 B 厨房(光线、台面、物体外观都不同)能跑。这测的是"野外采集"的真正价值——你能去任何地方采,不是只能在实验室。
  • 跨机器人:因为夹爪硬件标准化了,同一份数据可以训不同机器人本体(UR5、Franka 等)。

实验对比的 baseline 主要是:用机器人遥操作采等量数据训练的策略,看 UMI 能不能匹敌甚至超越。

你应该懂的几个新词 — 4-6 个

  • embodiment gap(实体差距):示范数据的"做事的身体"和部署时"做事的身体"不一样导致的迁移困难。比如人手 5 指 vs 机器人 2 指夹爪。UMI 通过硬件镜像消除这个差。
  • visual SLAM(视觉同步定位与建图):仅靠相机推测自身在世界中位置和姿态的算法。UMI 用它把 GoPro 视频反推成 6D 轨迹。代表算法 ORB-SLAM3。
  • Diffusion Policy(扩散策略):用扩散模型生成机器人动作序列的模仿学习方法(CMU/MIT 2023)。UMI 不是在 propose 它,是在用它。
  • wrist camera(腕部相机):装在机器人手腕上的相机,视角随末端运动。和"第三人称固定相机"对应。UMI 的核心设计就是让人采时的相机和部署时的腕部相机视角一致。
  • kinesthetic teaching(动觉示范):人物理拽着机器人胳膊走一遍来示范。是 teleoperation 之外另一种"机器人在场"的采集方式。
  • 6D pose(6 自由度位姿):3 维位置 + 3 维朝向,描述刚体在 3D 空间的完整状态。机械臂末端动作的标准表示。

它和其他论文什么关系

  • vs Diffusion Policy(2023):UMI 用 DP 当策略骨干,但贡献是"采集硬件 + 数据管线",不是策略算法本身。可以理解为"DP 的数据飞轮"。
  • vs Mobile ALOHA(2024):两条不同路线。Mobile ALOHA 是把遥操作做到极致(双臂 + 移动底盘),UMI 是干脆不要遥操作。两者互补:ALOHA 适合需要双手协同的精细任务,UMI 适合需要海量场景多样性的任务。
  • vs RT-1/RT-2(Google 2022/2023):RT 系列靠 Google 自己的机器人车队 17 个月采 13 万 episode。UMI 想用"志愿者拿着设备到处采"的众包路线把这件事去中心化。
  • vs 视频预训练(VIP、R3M、Ego4D 派):那些方法是"拿现成第三人称视频做表征预训练"。UMI 是"重新设计采集设备让一手数据可用"。两条路可以叠加:先用海量视频预训练表征,再用 UMI 数据做 fine-tune。
  • vs OpenVLA(2024):OpenVLA 走"大模型吃大数据集(Open X-Embodiment)"路线,UMI 解决"数据集本身怎么扩"的上游问题。

我建议这样读 — 3-4 步

  1. 先看项目主页 + 30 秒 demo 视频(umi-gripper.github.io)。UMI 是一篇"硬件让你眼前一亮"的论文,看图比看字快 10 倍。
  2. 重点读 Method 第 3 节,搞懂三件事:夹爪硬件怎么镜像机器人末端、GoPro 怎么做 SLAM、延迟匹配怎么实现。其他章节可以跳。
  3. 跳过 Diffusion Policy 的细节,那是另一篇论文的内容,UMI 当黑盒用。如果你完全不懂 DP,先看 Diffusion Policy 那篇笔记再回来。
  4. 看实验里的"跨场景"和"长程"两类任务的成功率对比,重点关注"和遥操作 baseline 比"的部分——这是判断 UMI 路线值不值的关键证据。

为什么值得读

  • 范式转变信号:机器人学习长期被"采数据贵"卡脖子,UMI 是 2024 年最响亮的"去中心化采集"答案之一。如果这条路证明可行,未来"机器人数据"会像"互联网图片"一样可以众包。
  • 硬件思维的胜利:很多人想用纯算法(VLM、sim2real)跨过 embodiment gap,UMI 反其道——直接让硬件长得一样。这种"工程暴力"思路在系统级研究里很值得学。
  • 可复现性高:UMI 全套硬件设计、SLAM 管线、训练代码都开源了。你如果有 3D 打印机和一只 UR5/Franka,可以原样复刻。这在机器人圈是少见的开放度。
  • 影响后续工作:2024-2025 年涌现的"手持设备采集"系列(DexCap、AnyTeleop 等)大多在 UMI 框架上做扩展。读 UMI 等于读懂这条研究线的起点。

引用本笔记 / Cite this note
BibTeX
@online{eai_umi_2026,
  title       = {(readable note) Universal Manipulation Interface},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/umi/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim