Imitation Learning · Plate Nº 58

HumanPlus

6 min read · 2152 字 · ⭐⭐⭐⭐ · 短摘要

#diffusion #transformer #locomotion #RL #imitation #sim2real

Featured in Issue Nº VI

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

HumanPlus 让机器人当场跟着人做动作，做几十次后机器人自己也会了——把人当成机器人的"示范老师"。

这是个什么场景 — 日常类比

想象你在健身房跟一个新教练学动作。

最笨的方法是教练给你一本说明书："先抬左腿 30 度，再前倾 15 度……"——这就是传统机器人写脚本控制，几十个关节挨个写，又长又容易出错。

稍好一点是教练上手扳你（kinesthetic teaching，手把手教学）——可人形机器人浑身几十个关节，老师根本握不过来。

HumanPlus 走的是镜面跟练那条路：你站在机器人面前做一遍深蹲，它当场跟着蹲；做几十遍后把音乐一放，它自己也能跟着节奏蹲了。这里的"音乐"是机器人头上摄像头看到的画面，看到画面它就知道自己该做哪一步。

之前的人怎么做的 — 3-5 bullet

遥操作（teleoperation）：人戴 VR + 手柄，远程控制双臂机器人——但人形全身（含腿）有 30+ 自由度，手柄根本映不过来。Mobile ALOHA 这一类只解决了双臂 + 移动底盘。
动捕重定向（mocap retargeting）：把人体动捕数据离线转换成机器人关节轨迹——但实时性差，且仿真到真机（sim-to-real）gap 大，机器人容易摔。
强化学习（RL）从零训练：在仿真里跑几亿步学站立行走（如 AnymalRL），技能单一，换任务要重训。
行为克隆（behavior cloning）：录视频然后训策略——但缺乏"人体到机器人形态"的中间桥梁，数据效率低。

差距：没有一个系统能让"人当场动几下，机器人就当场学会"。

这篇论文的关键想法

两阶段 + 共享形态——像先"陪练"再"自己练"。

阶段 1（影子模仿，shadowing，像跟着教练做）：人在摄像头前做动作 → 实时姿态估计 → 重定向到机器人 → 机器人立即跟着做。这一步本质是给机器人开了一个"人体接口"，人就是遥控器。
阶段 2（自主技能学习，像看自己录像复习）：阶段 1 收集到的"人类视频 + 机器人执行轨迹"配对数据，喂给一个模仿学习策略；之后机器人看自己的第一视角图像就能复现技能。

关键洞察：人形机器人和人长得像——胳膊、腿、躯干位置基本对应，所以人体动作几乎可以一对一抄过来，不用搞复杂的运动规划。换成机械臂就抄不动了，因为形态对不上。

它怎么做的（方法）— 3-4 段

底层控制器（low-level policy）——像专门管腿的"教练"：你跳舞时不会主动想"我现在要怎么平衡"，那是小脑自动管的。论文在仿真里用强化学习（RL）训一个"小脑"——输入是目标关节角度 + 当前状态，输出是各关节力矩；不管上面让它做什么动作，腿都不摔。这样上层就只管"想做什么"，不用操心"怎么不摔"。具体仿真器和奖励设计需读原文。

等等，先慢一拍 — 力矩是什么？简单说就是"关节往哪个方向用多大劲"，类似你抬胳膊时肩膀肌肉的发力。RL 学的就是这个发力策略。

实时姿态估计 + 重定向（retargeting）——像同声传译：人说中文，翻译当场转成英文。这里把"人体姿态"当场翻成"机器人能听懂的关节角度"。流程是：一个普通摄像头拍人 → 现成的 3D 人体姿态模型（类似 SMPL 系工作）解出人体骨架 → 按机器人的骨长和关节限位重新算一遍 → 把目标姿态喂给底层控制器。这条链路慢一点机器人就跟不上人，所以延迟是系统能不能"实时影子"的关键。

自主策略学习（Humanoid Imitation Transformer, HIT）——像学生抄作业：阶段 1 收集了一堆"我看到了什么 + 我做了什么"的配对数据，HIT 这个 Transformer 模型就照着抄：给它一张第一视角画面，它就预测接下来该做的一串动作（动作分块，action chunking，一次预测未来 K 步而不是单步，思路来自 ACT/Diffusion Policy）。

任务清单：折衣服、穿鞋系带、清扫桌面、扔垃圾、倒水等家务级任务——用阶段 1 的影子模仿收集约 40 次演示，阶段 2 训练后机器人能自主复现。具体每个任务的成功率需读原文。

实验在做什么

主要验证三件事：

影子模仿能不能实时做到：人做动作，机器人跟得上吗？是否会失稳摔倒？衡量指标包括追踪误差、稳定时长。
自主技能能学到什么程度：阶段 1 收集 N 次演示后，阶段 2 训出来的策略在新场景下成功率多少？是否对物体位置/光照鲁棒？
消融：去掉底层 RL 策略行不行（用纯 PD 控制对比）？数据量从 10 → 50 次演示成功率怎么变？

实验平台是一台真实的成人尺寸人形机器人（具体型号需查原文，社区报道是基于 Unitree H1 改装）。

你应该懂的几个新词 — 4-6 个

Shadowing（影子模仿）：机器人实时跟踪人体动作，延迟在百毫秒级，人怎么动它怎么动。
Egocentric video（第一视角视频）：摄像头装在头部/胸前，看到的是"机器人自己看到的世界"——和遥操作时操作员看的画面一致，便于学习。
Whole-body control（全身控制）：同时管手、腰、腿、脚——对比之下机械臂只管手。难点是平衡耦合（手伸出去重心会偏）。
Retargeting（重定向）：把一个形态（人）的动作映射到另一个形态（机器人）。即使都是人形，骨长、关节限位也不同，需要 IK + 约束优化。
Action chunking（动作分块）：策略一次输出未来 K 步动作而不是单步——降低高频抖动，借鉴 ACT 论文。
Sim-to-real gap：仿真里训的策略到真机会失效（摩擦、电机延迟、传感器噪声不同）。HumanPlus 用 domain randomization 缓解。

它和其他论文什么关系

Mobile ALOHA（同组前作，2024）：双臂 + 底盘的遥操作 + 模仿学习。HumanPlus 把"双臂"扩展到"全身人形"，把"遥操作"换成了"影子模仿"——遥操接口自然度大幅提升。
OpenVLA / RT-2：走的是大模型 + 互联网数据的路线；HumanPlus 走的是小数据 + 人体接口的路线，互补关系。
ACT / Diffusion Policy：HIT 的策略架构思想来源——动作分块 + Transformer 解码。
AnymalRL / 类似四足 RL：底层控制器的思路来源，但 HumanPlus 把 RL 锁在底层不动，上层用模仿学习——这种"RL 当腿，IL 当脑"的分工后来被很多人形工作沿用。
SMPL 类人体重建：阶段 1 的姿态估计模块依赖这一系工作。

我建议这样读 — 3-4 步

先看项目主页（humanoid-ai.github.io）的视频——影子模仿这种事，看 30 秒视频比读 10 页论文都直观。
读 Mobile ALOHA 的方法部分作为前置——理解"双臂遥操 + 模仿学习"的基线，再看 HumanPlus 是怎么把"遥操"换成"影子"的。
如果对底层 RL 控制感兴趣，单独看附录里的奖励设计和 domain randomization；如果对上层模仿学习感兴趣，看 HIT 架构那一节，对比 ACT。
最后回头想："如果我要复现，最难的是哪一步？"——大概率是实时姿态估计 + 重定向的延迟链路。

为什么值得读

人形机器人这两年在工业界爆发（Figure、1X、Tesla Optimus、Unitree），而学术界在"如何高效给人形教技能"上其实没有统一答案。HumanPlus 给出了一个简洁有力的回答：人就是最好的示教接口，人形就是最好的执行体。

这篇论文的价值不在于某个 SOTA 数字，而在于它把"全身人形 + 实时人体接口 + 模仿学习"这三件事第一次工程化地串起来，并开源了平台。后续大量人形操作工作（如 OmniH2O、ExBody2 系列）都在沿这条路深入。

如果你关心人形机器人怎么从 demo 走向真实任务，这是 2024 年绕不开的一篇。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_humanplus_2026,
  title       = {(readable note) HumanPlus},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/humanplus/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)