Simulation & Sim2Real · Plate Nº 106

Habitat 3.0

7 min read · 2405 字 · ⭐⭐⭐ · 短摘要

#language #manipulation #locomotion #navigation #RL #sim2real

本笔记基于摘要 + 公开资料，未读全文。

一句话讲什么（TL;DR）

在虚拟的家里加一个会走会动的"假人"，让机器人练习扫地搬东西时，得学会一边干活一边躲人、配合人。

这是个什么场景 — 日常类比

想象你周末在厨房做饭，室友进来想顺手帮忙拿盘子。两个人不用说话也有默契：你拉冰箱门她会自动后退半步；她端着热汤穿过过道，你会把锅铲收一下让出空间；最后你们还能分工——她负责切菜、你负责炒。这种"两个人挤在同一个屋子里既不撞、还能配合"的能力，人类觉得是常识，机器人却完全不会。

之前主流的家用机器人仿真器（就是给机器人练手的"虚拟样板间"）几乎都是"空屋子里就一台机器人"，它可以把整个家折腾得鸡飞狗跳也不用顾忌别人——更像独居练拳，不像跟家人住一起。Habitat 3.0 做的事很简单：在虚拟的屋子里加一个"假人"，这个假人会自己走、会自己拿东西、会挡机器人的路，也能跟机器人一起搬桌子。机器人从此得学一件新事——屋里还有别人。

Plate Nº IHabitat 3.0 — 场景示意：这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

Habitat 1.0/2.0：Meta 自家前作。Habitat 1 主打导航（PointNav 之类），Habitat 2 加了可交互家具（开抽屉、拿东西），但场景里只有机器人。
AI2-THOR / ManipulaTHOR / iGibson：同期家居仿真平台，物理交互各有侧重，人形 agent 大多缺席或只是装饰摆件，不可被策略控制。
多智能体 RL（MARL）研究：在网格世界、StarCraft、足球这类抽象环境里研究协作，但缺失"真实物理 + 真实家居布局 + 真人体动作"。
VR teleop 数据：用 VR 让真人遥控仿真里的虚拟人，能拿到真实人类行为，但成本高、规模有限。
结果：之前要研究 human-robot collaboration（HRC，人机协作）只能在受限的桌面 setup 或动捕实验室里做，规模化训练很难。

这篇论文的关键想法

像搭一个"机器人 + 真人混住的虚拟样板间"：把可控的假人、机器人、家居环境、高速渲染四样东西拼进同一个仿真器。这个假人很灵活——可以被脚本驱动（按剧本做家务）、可以被强化学习训练（自己学行为）、还可以被真人戴 VR 头盔接管（直接示范"人类会怎么干"）。机器人就和它一起住在屋里。

更关键的是：作者顺手把"协作"做成了可以打分的考试题，给出两个标准任务——Social Navigation（机器人跟着主人走但不挡路，像跟着妈妈逛超市的小孩）和 Social Rearrangement（机器人和人一起整理屋子，像两口子一起收拾客厅）。这样别的研究者就能在同一套题目上比谁的机器人更会"跟人共处"。

Plate Nº IIHabitat 3.0 — 方法示意：核心 pipeline

它怎么做的（方法）— 3-4 段

人形 avatar 的实现 — 像捏一个会动的橡皮人：你玩过那种 3D 动画里的"骨架小人"吗？作者用了 SMPL-X 这种"标准人体模板"（一个学界通用的、有骨头有关节、能调胖瘦高矮的虚拟人模型）来捏出假人，让它会走路、转身、伸手、拿东西放东西。

等等，先慢一拍 — 「motion primitives（运动基元）」是什么？想象你不是一帧一帧画动作，而是攒了一个"动作积木盒"：里面有"向前走一步"、"伸右手"、"蹲下"这些预制片段，要做家务时把积木拼起来就行。这样既快，看起来又自然。低层用积木做动作，高层（"现在该去拿什么"）由策略网络或脚本来决定。

仿真速度 — 像同时跑两个游戏画面：Habitat 系列一直的招牌是"快"，单张 GPU 一秒能渲染上万帧逼真画面（差不多是普通游戏帧率的 100 倍以上，因为机器人要在里面练成千上万次）。3.0 把这速度延伸到"屋里有两个 agent"，工程上要处理双方撞不撞、谁挡住谁的视线、动作怎么同时推进等问题。具体吞吐数字需读原文。

两个基准任务 — 像出两道考试题：(1) Social Navigation：机器人要在屋里找到主人并跟着走，但不能挡路（像跟着妈妈逛超市的小孩）；(2) Social Rearrangement：机器人和假人一起把客厅杂物各归各位（像两口子一起收拾屋子），既要分工、又不能撞车。背景房间用 HSSD（Habitat Synthetic Scenes Dataset，Habitat 团队自己做的合成 3D 家居数据集）提供，房型够多够杂。

baseline 与评测 — 像找几种"对照组选手"：作者拉了几类对照——纯靠端到端 RL（强化学习从零学）、heuristic（手写死规则的启发式方法）、planning-based（先想再做的规划方法）——一起跑这两道题。打分维度包括：任务成功率、用了多久、撞了人几次、有没有打扰到人。具体每个 baseline 表现 + 数值需读原文。

实验在做什么

实验主要回答三个问题：

能不能在 Habitat 3.0 里训练出会协作的策略：把 RL 跑在 Social Nav / Social Rearrangement 上，看成功率随训练提升的曲线，验证仿真器跑得动这种规模的训练。
协作策略 vs 单干策略的差距：让机器人当作屋里没人去做任务，对比"会感知人"的策略，看碰撞次数、效率有没有改善。这是验证"屋里有人"这件事是否值得建模。
不同 human policy 下机器人能不能 generalize：人有时是脚本驱动、有时是 learned policy、有时是 VR 真人接管，机器人面对不同"人类风格"是否仍能完成任务。这是验证 sim-to-real 之前的"sim-to-human-variation"。

具体数字（成功率多少、碰撞下降多少 %、训练多少小时）需读原文。

你应该懂的几个新词 — 4-6 个

humanoid avatar：仿真器里的"虚拟人"，有骨骼、有关节、能走能拿东西；本文里它既是任务的一部分（机器人要跟它配合），也是数据来源（VR 接管时拿真人行为）。
Social Navigation / Social Rearrangement：本文提出的两类协作 benchmark，前者是"跟着人走但不打扰"，后者是"跟人一起整理东西"。
HSSD（Habitat Synthetic Scenes Dataset）：Habitat 团队的合成 3D 家居场景库，提供大量可交互房型，给协作任务做舞台。
MARL（Multi-Agent RL）：多智能体强化学习。Habitat 3.0 给 MARL 提供了一个"真实家居 + 物理 + 视觉"的舞台，跟以前网格世界 MARL 完全不是一个量级。
kinematic vs dynamic 仿真：人形动作可以走 kinematic（位姿插值，简单快但不真实碰撞）或 dynamic（真物理引擎，慢但真实）。Habitat 3.0 在两者之间做工程取舍。
embodied AI：具身智能，强调"agent 要有身体、要在世界里行动"，跟纯文本 LLM 区分开。Habitat 系列是该领域核心仿真平台之一。

它和其他论文什么关系

承接 Habitat 1.0（导航）→ Habitat 2.0（交互）→ Habitat 3.0（协作）：是 Meta Habitat 三部曲的第三章，每代加一个维度。
平行于 AI2-THOR / iGibson / RoboCasa：都是家居具身 AI 仿真平台，但 Habitat 3 在"人形 avatar 可控+协作 benchmark"这个交集上更系统。
下游对接 sim-to-real 工作：Habitat 训出的策略最终要部署到真机器人（如 Spot、Stretch），3.0 的"人在场"训练可以减少真机面对人时的 surprise。
跟 OpenX-Embodiment / RT-X 的关系：那一类是"用真实数据规模化训机器人"，Habitat 3 是"用仿真规模化训协作"，两条路互补——仿真便宜、真实数据真。
跟 LLM-as-policy 的连接：协作任务的"高层调度"未来可能交给 LLM，Habitat 3 提供了底层执行环境。

我建议这样读 — 3-4 步

先看演示视频和官网（habitat.ai）：30 秒看明白"人形 avatar 在屋里走来走去 + 机器人配合"的画面，比读 6 页文字快。
跳到 Section 介绍两个 benchmark 的部分：Social Nav 和 Social Rearrangement 的 task definition + 评测指标，搞懂"什么算成功"。
再回头看人形 avatar 是怎么做的：motion primitives + 高层 policy 的分层设计，这是论文工程贡献的核心。
最后扫一眼 baseline 表格：知道当前 SOTA 在协作任务上的水位（不高），这是你将来如果做相关方向的入手缝隙。

为什么值得读

如果你关注具身智能 / 家用机器人：Habitat 3.0 是目前研究"机器人怎么跟人共处"最系统的开源仿真平台，方法论和工程细节都值得借鉴。
如果你关注多智能体协作：它把 MARL 从网格世界拉到了真实家居，给了一个不再"玩具"的舞台。
如果你关注sim-to-real：屋子里加了"会动的人"这一变量，让仿真训练离真实部署近了一步——真实世界里机器人永远不是孤儿。
如果你关注LLM agent + 物理世界：未来 LLM 当"高层 planner"驱动机器人和人协作时，Habitat 3 这类基建是必要的练兵场。

读它的性价比：1-2 小时扫完正文 + demo，能拿到"协作仿真现在做到哪一步"的清晰判断，并且知道下一步可以从哪里推。

◼

引用本笔记 / Cite this note

BibTeX

@online{eai_habitat_3_2026,
  title       = {(readable note) Habitat 3.0},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/habitat-3/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)