Universal Manipulation Interface
本笔记基于摘要 + 公开资料,未读全文。
一句话讲什么(TL;DR)
人手拿一个"带摄像头的夹子"在厨房自己做事,录下来就能教机器人,全程不用机器人在场。
这是个什么场景 — 日常类比
你刷短视频学做菜,跟着颠几次勺就会——前提是镜头得对着锅,别只拍人脸。教机器人也是这道理:得让它看到"和它将来动手时一样的视角"。
但现实里,给机器人喂示范数据特别麻烦:
- 想让它学叠衣服,得把它搬到衣柜前用手柄一格一格遥控(遥操作 teleoperation)。慢、贵、还离不开机器人本体。
- 或者抓着它胳膊走一遍(动觉示范)——胳膊几十斤,人拽得累。
- 想偷懒抄 YouTube 视频?人家 5 根手指,机器人就 2 个爪,看了也学不像。
UMI 想到的招:做一个"和机器人末端手长得一模一样的夹子"再绑个 GoPro,人拿着它去厨房、超市、办公室随便干活,录下来的视频机器人看了就能学。相当于戴一只机器人同款假手去生活,你做的每件事它都能"代入"。

之前的人怎么做的 — 3-5 bullet
- 机器人遥操作(teleop):人通过手柄/VR 远程控制机器人本体做任务。代表作:Mobile ALOHA。优点是数据"一手"对应机器人;缺点是必须有机器人在场,每分钟数据成本极高。
- 动捕示范(kinesthetic teaching):人直接拽着机器人胳膊走一遍。同样需要机器人在场,且人会受机器人重量/惯性干扰。
- 第三人称视频学习:从 YouTube/Ego4D 等海量人类视频学。数据量大但缺动作标签——只看到手在动,不知道夹爪开合、力度、精确轨迹,跨实体(embodiment gap,人手 vs 机械夹爪)很难跨。
- 仿真训练 + sim2real:在仿真器里采海量数据然后迁到真机。问题是真实世界的接触、可形变物体(衣服、面团)很难仿真。
UMI 的位置:在"必须用机器人采"和"只能看人类视频"之间开了一条新路——用一个"长得像机器人末端"的手持设备让人采,既保留了动作精确性,又解放了采集场所。
这篇论文的关键想法
一句话:教徒弟之前,先让师傅戴上和徒弟一样的"假手"再示范——这样徒弟看到的画面、用到的工具,都跟自己将来要干的活一模一样。
UMI 把这个想法拆成三个对齐:
- 硬件镜像(手长得一样)。像让师傅穿上跟新员工同款的工作手套——你做的动作徒弟能 1:1 复刻,不用脑补"我的 5 指要换成它的 2 爪"。手持设备的夹爪和真机器人的末端执行器(end-effector)型号、开合范围完全一致。
- 视觉镜像(看得一样)。像主播开第一人称游戏直播——观众看到的就是主播视野。夹爪上装一个广角 GoPro,角度和机器人手腕相机(wrist camera,装在机械臂手腕的摄像头)严格对齐。机器人将来"看到"的画面和人录视频时一样,省去"换视角再翻译"的麻烦。
- 延迟匹配(节奏一样)。像直播玩游戏会有 200ms 延迟——人手嗖一下就到位,机器人马达反应慢半拍。UMI 在训练时就把这个慢半拍建进数据里,让机器人不会"按训练数据猛冲然后撞墙"。
等等,先慢一拍——Diffusion Policy(扩散策略) 是啥? 一种 2023 年的模仿学习方法,简单理解:用画图 AI(Stable Diffusion 那一类)的技术不去画图,而是"画"出机器人下一步该怎么动。UMI 不发明它,只是当现成工具用。

它怎么做的(方法)— 3-4 段
硬件层——像 DIY 一把"会拍视频的夹子"。UMI 设备是一个 3D 打印的手持夹爪外壳,里面装着和目标机器人(论文里主要是 UR5/Franka 配 WSG-50 夹爪)一模一样的夹爪机构。手持端有按钮控制开合,顶部刚性绑一个 GoPro。整套东西没电机、没外部追踪器,全靠 GoPro 的画面反推位置。便宜、轻、谁都能复制一个。
位姿估计层——像看 vlog 反推作者走过哪些街角。GoPro 的视频送进 ORB-SLAM3(一种视觉 SLAM 算法,仅靠相机画面就能算出"我此刻在房间哪里、朝哪个方向"),反推出每一帧夹爪在世界坐标里的 6D 位姿(3 维位置 + 3 维朝向)。夹爪开合角度则通过装置上的传感器或视觉标记记录。这一步把一段普通视频变成 (图像, 6D 位姿, 夹爪开合) 的轨迹,正是模仿学习要的标准格式。
等等,先慢一拍——为啥不直接用动捕设备? 因为动捕要在房间里布一堆红外摄像头,你就走不出实验室了。GoPro + SLAM 让你能去任何地方采数据,这才是 UMI"野外可用"的关键。
策略训练层——像让 AI 抄 100 段录像作业。把人采的轨迹喂给 Diffusion Policy 模仿学习。输入:GoPro 当前帧 + 前面几帧;输出:未来若干步的位姿增量 + 夹爪开合指令。整个训练阶段机器人压根不用插电——纯靠人录的数据。
部署层——像让徒弟把师傅录的视频在自己的手上"重演"。把训好的策略直接挂到真机器人上:机器人腕部相机的视角早就和 GoPro 对齐过,所以它"看到"的画面和训练时分布一致;输出的位姿增量直接驱动机械臂。论文展示了"洗碗""整理""叠衣服"等多步灵巧任务的零样本泛化(zero-shot generalization,没在那个具体场景采过数据也能直接做对)。具体数字需读原文。
实验在做什么
论文展示的几类任务方向(具体成功率/任务数需读原文):
- 长程任务:比如"拿杯子→放到水槽→打开水龙头"这种需要好几步组合的。
- 可形变物体:叠衣服、整理布料——这是仿真很难做的领域,UMI 的"真实数据为主"路线在这里有优势。
- 跨场景泛化:在 A 厨房采的数据在 B 厨房(光线、台面、物体外观都不同)能跑。这测的是"野外采集"的真正价值——你能去任何地方采,不是只能在实验室。
- 跨机器人:因为夹爪硬件标准化了,同一份数据可以训不同机器人本体(UR5、Franka 等)。
实验对比的 baseline 主要是:用机器人遥操作采等量数据训练的策略,看 UMI 能不能匹敌甚至超越。
你应该懂的几个新词 — 4-6 个
- embodiment gap(实体差距):示范数据的"做事的身体"和部署时"做事的身体"不一样导致的迁移困难。比如人手 5 指 vs 机器人 2 指夹爪。UMI 通过硬件镜像消除这个差。
- visual SLAM(视觉同步定位与建图):仅靠相机推测自身在世界中位置和姿态的算法。UMI 用它把 GoPro 视频反推成 6D 轨迹。代表算法 ORB-SLAM3。
- Diffusion Policy(扩散策略):用扩散模型生成机器人动作序列的模仿学习方法(CMU/MIT 2023)。UMI 不是在 propose 它,是在用它。
- wrist camera(腕部相机):装在机器人手腕上的相机,视角随末端运动。和"第三人称固定相机"对应。UMI 的核心设计就是让人采时的相机和部署时的腕部相机视角一致。
- kinesthetic teaching(动觉示范):人物理拽着机器人胳膊走一遍来示范。是 teleoperation 之外另一种"机器人在场"的采集方式。
- 6D pose(6 自由度位姿):3 维位置 + 3 维朝向,描述刚体在 3D 空间的完整状态。机械臂末端动作的标准表示。
它和其他论文什么关系
- vs Diffusion Policy(2023):UMI 用 DP 当策略骨干,但贡献是"采集硬件 + 数据管线",不是策略算法本身。可以理解为"DP 的数据飞轮"。
- vs Mobile ALOHA(2024):两条不同路线。Mobile ALOHA 是把遥操作做到极致(双臂 + 移动底盘),UMI 是干脆不要遥操作。两者互补:ALOHA 适合需要双手协同的精细任务,UMI 适合需要海量场景多样性的任务。
- vs RT-1/RT-2(Google 2022/2023):RT 系列靠 Google 自己的机器人车队 17 个月采 13 万 episode。UMI 想用"志愿者拿着设备到处采"的众包路线把这件事去中心化。
- vs 视频预训练(VIP、R3M、Ego4D 派):那些方法是"拿现成第三人称视频做表征预训练"。UMI 是"重新设计采集设备让一手数据可用"。两条路可以叠加:先用海量视频预训练表征,再用 UMI 数据做 fine-tune。
- vs OpenVLA(2024):OpenVLA 走"大模型吃大数据集(Open X-Embodiment)"路线,UMI 解决"数据集本身怎么扩"的上游问题。
我建议这样读 — 3-4 步
- 先看项目主页 + 30 秒 demo 视频(umi-gripper.github.io)。UMI 是一篇"硬件让你眼前一亮"的论文,看图比看字快 10 倍。
- 重点读 Method 第 3 节,搞懂三件事:夹爪硬件怎么镜像机器人末端、GoPro 怎么做 SLAM、延迟匹配怎么实现。其他章节可以跳。
- 跳过 Diffusion Policy 的细节,那是另一篇论文的内容,UMI 当黑盒用。如果你完全不懂 DP,先看 Diffusion Policy 那篇笔记再回来。
- 看实验里的"跨场景"和"长程"两类任务的成功率对比,重点关注"和遥操作 baseline 比"的部分——这是判断 UMI 路线值不值的关键证据。
为什么值得读
- 范式转变信号:机器人学习长期被"采数据贵"卡脖子,UMI 是 2024 年最响亮的"去中心化采集"答案之一。如果这条路证明可行,未来"机器人数据"会像"互联网图片"一样可以众包。
- 硬件思维的胜利:很多人想用纯算法(VLM、sim2real)跨过 embodiment gap,UMI 反其道——直接让硬件长得一样。这种"工程暴力"思路在系统级研究里很值得学。
- 可复现性高:UMI 全套硬件设计、SLAM 管线、训练代码都开源了。你如果有 3D 打印机和一只 UR5/Franka,可以原样复刻。这在机器人圈是少见的开放度。
- 影响后续工作:2024-2025 年涌现的"手持设备采集"系列(DexCap、AnyTeleop 等)大多在 UMI 框架上做扩展。读 UMI 等于读懂这条研究线的起点。
◼
引用本笔记 / Cite this note
@online{eai_umi_2026,
title = {(readable note) Universal Manipulation Interface},
author = {Zhou, Jason},
year = {2026},
note = {Note on a 2024 paper},
howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/umi/}},
organization = {Embodied AI Reading Station}
}
All 156 papers (full index)
- 1. LLaVA: Visual Instruction Tuning
- 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
- 3. SayCan: Do As I Can, Not As I Say
- 4. OpenVLA: An Open-Source Vision-Language-Action Model
- 5. VLAS: VLA Model With Speech Instructions
- 6. MLA: Multisensory Language-Action Model
- 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
- 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
- 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
- 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
- 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
- 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
- 13. Creating speech zones with self-distributing acoustic swarms
- 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
- 15. SoundStream: An End-to-End Neural Audio Codec
- 16. AudioLM
- 17. Conformer
- 18. Dual-path RNN
- 19. EnCodec
- 20. Meta-StyleSpeech
- 21. MusicLM
- 22. Robust Speech Recognition via Large-Scale Weak Supervision
- 23. SeamlessM4T
- 24. Stable Audio
- 25. Universal Source Separation with Weakly Labelled Data
- 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
- 27. RLBench: The Robot Learning Benchmark & Learning Environment
- 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
- 29. BridgeData V2
- 30. CALVIN
- 31. LIBERO
- 32. RH20T
- 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
- 34. DROID
- 35. Open X-Embodiment
- 36. RoboCasa
- 37. SimplerEnv
- 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
- 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
- 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
- 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
- 42. DiT-Policy
- 43. Diffusion Policy Policy Optimization (DPPO)
- 44. Affordance-based Robot Manipulation with Flow Matching
- 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
- 46. FAST: Efficient Action Tokenization for VLA
- 47. pi_0: Vision-Language-Action Flow Model
- 48. pi_0.5: VLA with Open-World Generalization
- 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
- 50. Generative Adversarial Imitation Learning
- 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
- 52. AnyTeleop
- 53. Behavior Transformers: Cloning k Modes with One Stone
- 54. Implicit Behavioral Cloning
- 55. RoboCat
- 56. ALOHA 2
- 57. DexCap
- 58. HumanPlus
- 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
- 60. Mobile ALOHA
- 61. SmolVLA
- 62. Universal Manipulation Interface
- 63. Behavior Generation with Latent Actions (VQ-BeT)
- 64. ImageBind: One Embedding Space To Bind Them All
- 65. Connecting Touch and Vision via Cross-Modal Prediction
- 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
- 67. AudioPaLM
- 68. FROMAGe: Grounding LLMs to Images
- 69. OneLLM
- 70. X-VLM: Multi-Grained Vision Language Pre-Training
- 71. Tactile Beyond Pixels (Sparsh-X)
- 72. Sparsh: Self-supervised Touch Representations
- 73. Tactile-VLA
- 74. TLA: Tactile-Language-Action
- 75. Code as Policies: Language Model Programs for Embodied Control
- 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
- 77. LLM+P: Empowering LLMs with Optimal Planning
- 78. PaLM-E: An Embodied Multimodal Language Model
- 79. ProgPrompt
- 80. ChatGPT for Robotics
- 81. GenSim
- 82. RoboFlamingo
- 83. Tree-Planner
- 84. VoxPoser
- 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
- 86. Can WiFi Estimate Person Pose?
- 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
- 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
- 89. High Resolution Point Clouds from mmWave Radar
- 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
- 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
- 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
- 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
- 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
- 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
- 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
- 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
- 98. Habitat: A Platform for Embodied AI Research
- 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
- 100. DexMV
- 101. Habitat 2.0
- 102. ManiSkill
- 103. ProcTHOR
- 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
- 105. BEHAVIOR-1K
- 106. Habitat 3.0
- 107. Isaac Lab
- 108. MuJoCo Playground
- 109. RT-1: Robotics Transformer for Real-World Control at Scale
- 110. 3D Diffusion Policy (DP3)
- 111. Octo: An Open-Source Generalist Robot Policy
- 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
- 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
- 114. 3D-VLA
- 115. DexVLA
- 116. GR-2: Generative Video-Language-Action Model
- 117. OpenHelix
- 118. OpenVLA-OFT
- 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
- 120. RoboMamba
- 121. SpatialVLA
- 122. TinyVLA
- 123. TraceVLA: Visual Trace Prompting
- 124. Learning Transferable Visual Models From Natural Language Supervision
- 125. Flamingo: a Visual Language Model for Few-Shot Learning
- 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
- 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
- 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
- 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
- 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
- 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
- 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
- 133. Improved Baselines with Visual Instruction Tuning
- 134. OBELICS
- 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
- 136. Sigmoid Loss for Language Image Pre-Training
- 137. What matters when building vision-language models?
- 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
- 139. The Llama 3 Herd of Models
- 140. LLaVA-NeXT-Interleave
- 141. LLaVA-OneVision: Easy Visual Task Transfer
- 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
- 143. Pixtral 12B
- 144. Dream to Control: Learning Behaviors by Latent Imagination
- 145. World Models
- 146. DayDreamer
- 147. Mastering Atari with Discrete World Models
- 148. Dreamer V3: Mastering Diverse Domains through World Models
- 149. Transformers are Sample-Efficient World Models
- 150. TWM: Transformer-based World Models
- 151. 1X World Model Challenge
- 152. Cosmos World Foundation Model Platform
- 153. GAIA-1
- 154. Genie: Generative Interactive Environments
- 155. Navigation World Models
- 156. UniSim