回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Imitation Learning · Plate Nº 58

HumanPlus

6 min read · 2152 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

HumanPlus 让机器人当场跟着人做动作,做几十次后机器人自己也会了——把人当成机器人的"示范老师"。

这是个什么场景 — 日常类比

想象你在健身房跟一个新教练学动作。

最笨的方法是教练给你一本说明书:"先抬左腿 30 度,再前倾 15 度……"——这就是传统机器人写脚本控制,几十个关节挨个写,又长又容易出错。

稍好一点是教练上手扳你(kinesthetic teaching,手把手教学)——可人形机器人浑身几十个关节,老师根本握不过来。

HumanPlus 走的是镜面跟练那条路:你站在机器人面前做一遍深蹲,它当场跟着蹲;做几十遍后把音乐一放,它自己也能跟着节奏蹲了。这里的"音乐"是机器人头上摄像头看到的画面,看到画面它就知道自己该做哪一步。

HumanPlus — 场景示意:这论文要解决的现实问题
Plate Nº IHumanPlus — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 遥操作(teleoperation):人戴 VR + 手柄,远程控制双臂机器人——但人形全身(含腿)有 30+ 自由度,手柄根本映不过来。Mobile ALOHA 这一类只解决了双臂 + 移动底盘。
  • 动捕重定向(mocap retargeting):把人体动捕数据离线转换成机器人关节轨迹——但实时性差,且仿真到真机(sim-to-real)gap 大,机器人容易摔。
  • 强化学习(RL)从零训练:在仿真里跑几亿步学站立行走(如 AnymalRL),技能单一,换任务要重训。
  • 行为克隆(behavior cloning):录视频然后训策略——但缺乏"人体到机器人形态"的中间桥梁,数据效率低。

差距:没有一个系统能让"人当场动几下,机器人就当场学会"。

这篇论文的关键想法

两阶段 + 共享形态——像先"陪练"再"自己练"。

  1. 阶段 1(影子模仿,shadowing,像跟着教练做):人在摄像头前做动作 → 实时姿态估计 → 重定向到机器人 → 机器人立即跟着做。这一步本质是给机器人开了一个"人体接口",人就是遥控器。
  2. 阶段 2(自主技能学习,像看自己录像复习):阶段 1 收集到的"人类视频 + 机器人执行轨迹"配对数据,喂给一个模仿学习策略;之后机器人看自己的第一视角图像就能复现技能。

关键洞察:人形机器人和人长得像——胳膊、腿、躯干位置基本对应,所以人体动作几乎可以一对一抄过来,不用搞复杂的运动规划。换成机械臂就抄不动了,因为形态对不上。

HumanPlus — 方法示意:核心 pipeline
Plate Nº IIHumanPlus — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

底层控制器(low-level policy)——像专门管腿的"教练":你跳舞时不会主动想"我现在要怎么平衡",那是小脑自动管的。论文在仿真里用强化学习(RL)训一个"小脑"——输入是目标关节角度 + 当前状态,输出是各关节力矩;不管上面让它做什么动作,腿都不摔。这样上层就只管"想做什么",不用操心"怎么不摔"。具体仿真器和奖励设计需读原文。

等等,先慢一拍 — 力矩 是什么?简单说就是"关节往哪个方向用多大劲",类似你抬胳膊时肩膀肌肉的发力。RL 学的就是这个发力策略。

实时姿态估计 + 重定向(retargeting)——像同声传译:人说中文,翻译当场转成英文。这里把"人体姿态"当场翻成"机器人能听懂的关节角度"。流程是:一个普通摄像头拍人 → 现成的 3D 人体姿态模型(类似 SMPL 系工作)解出人体骨架 → 按机器人的骨长和关节限位重新算一遍 → 把目标姿态喂给底层控制器。这条链路慢一点机器人就跟不上人,所以延迟是系统能不能"实时影子"的关键。

自主策略学习(Humanoid Imitation Transformer, HIT)——像学生抄作业:阶段 1 收集了一堆"我看到了什么 + 我做了什么"的配对数据,HIT 这个 Transformer 模型就照着抄:给它一张第一视角画面,它就预测接下来该做的一串动作(动作分块,action chunking,一次预测未来 K 步而不是单步,思路来自 ACT/Diffusion Policy)。

任务清单:折衣服、穿鞋系带、清扫桌面、扔垃圾、倒水等家务级任务——用阶段 1 的影子模仿收集约 40 次演示,阶段 2 训练后机器人能自主复现。具体每个任务的成功率需读原文。

实验在做什么

主要验证三件事:

  1. 影子模仿能不能实时做到:人做动作,机器人跟得上吗?是否会失稳摔倒?衡量指标包括追踪误差、稳定时长。
  2. 自主技能能学到什么程度:阶段 1 收集 N 次演示后,阶段 2 训出来的策略在新场景下成功率多少?是否对物体位置/光照鲁棒?
  3. 消融:去掉底层 RL 策略行不行(用纯 PD 控制对比)?数据量从 10 → 50 次演示成功率怎么变?

实验平台是一台真实的成人尺寸人形机器人(具体型号需查原文,社区报道是基于 Unitree H1 改装)。

你应该懂的几个新词 — 4-6 个

  • Shadowing(影子模仿):机器人实时跟踪人体动作,延迟在百毫秒级,人怎么动它怎么动。
  • Egocentric video(第一视角视频):摄像头装在头部/胸前,看到的是"机器人自己看到的世界"——和遥操作时操作员看的画面一致,便于学习。
  • Whole-body control(全身控制):同时管手、腰、腿、脚——对比之下机械臂只管手。难点是平衡耦合(手伸出去重心会偏)。
  • Retargeting(重定向):把一个形态(人)的动作映射到另一个形态(机器人)。即使都是人形,骨长、关节限位也不同,需要 IK + 约束优化。
  • Action chunking(动作分块):策略一次输出未来 K 步动作而不是单步——降低高频抖动,借鉴 ACT 论文。
  • Sim-to-real gap:仿真里训的策略到真机会失效(摩擦、电机延迟、传感器噪声不同)。HumanPlus 用 domain randomization 缓解。

它和其他论文什么关系

  • Mobile ALOHA(同组前作,2024):双臂 + 底盘的遥操作 + 模仿学习。HumanPlus 把"双臂"扩展到"全身人形",把"遥操作"换成了"影子模仿"——遥操接口自然度大幅提升。
  • OpenVLA / RT-2:走的是大模型 + 互联网数据的路线;HumanPlus 走的是小数据 + 人体接口的路线,互补关系。
  • ACT / Diffusion Policy:HIT 的策略架构思想来源——动作分块 + Transformer 解码。
  • AnymalRL / 类似四足 RL:底层控制器的思路来源,但 HumanPlus 把 RL 锁在底层不动,上层用模仿学习——这种"RL 当腿,IL 当脑"的分工后来被很多人形工作沿用。
  • SMPL 类人体重建:阶段 1 的姿态估计模块依赖这一系工作。

我建议这样读 — 3-4 步

  1. 先看项目主页(humanoid-ai.github.io)的视频——影子模仿这种事,看 30 秒视频比读 10 页论文都直观。
  2. 读 Mobile ALOHA 的方法部分作为前置——理解"双臂遥操 + 模仿学习"的基线,再看 HumanPlus 是怎么把"遥操"换成"影子"的。
  3. 如果对底层 RL 控制感兴趣,单独看附录里的奖励设计和 domain randomization;如果对上层模仿学习感兴趣,看 HIT 架构那一节,对比 ACT。
  4. 最后回头想:"如果我要复现,最难的是哪一步?"——大概率是实时姿态估计 + 重定向的延迟链路。

为什么值得读

人形机器人这两年在工业界爆发(Figure、1X、Tesla Optimus、Unitree),而学术界在"如何高效给人形教技能"上其实没有统一答案。HumanPlus 给出了一个简洁有力的回答人就是最好的示教接口,人形就是最好的执行体

这篇论文的价值不在于某个 SOTA 数字,而在于它把"全身人形 + 实时人体接口 + 模仿学习"这三件事第一次工程化地串起来,并开源了平台。后续大量人形操作工作(如 OmniH2O、ExBody2 系列)都在沿这条路深入。

如果你关心人形机器人怎么从 demo 走向真实任务,这是 2024 年绕不开的一篇。

引用本笔记 / Cite this note
BibTeX
@online{eai_humanplus_2026,
  title       = {(readable note) HumanPlus},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/humanplus/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim