回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Simulation & Sim2Real · Plate Nº 106

Habitat 3.0

7 min read · 2405 字 · ⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

在虚拟的家里加一个会走会动的"假人",让机器人练习扫地搬东西时,得学会一边干活一边躲人、配合人。

这是个什么场景 — 日常类比

想象你周末在厨房做饭,室友进来想顺手帮忙拿盘子。两个人不用说话也有默契:你拉冰箱门她会自动后退半步;她端着热汤穿过过道,你会把锅铲收一下让出空间;最后你们还能分工——她负责切菜、你负责炒。这种"两个人挤在同一个屋子里既不撞、还能配合"的能力,人类觉得是常识,机器人却完全不会。

之前主流的家用机器人仿真器(就是给机器人练手的"虚拟样板间")几乎都是"空屋子里就一台机器人",它可以把整个家折腾得鸡飞狗跳也不用顾忌别人——更像独居练拳,不像跟家人住一起。Habitat 3.0 做的事很简单:在虚拟的屋子里加一个"假人",这个假人会自己走、会自己拿东西、会挡机器人的路,也能跟机器人一起搬桌子。机器人从此得学一件新事——屋里还有别人

Habitat 3.0 — 场景示意:这论文要解决的现实问题
Plate Nº IHabitat 3.0 — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • Habitat 1.0/2.0:Meta 自家前作。Habitat 1 主打导航(PointNav 之类),Habitat 2 加了可交互家具(开抽屉、拿东西),但场景里只有机器人。
  • AI2-THOR / ManipulaTHOR / iGibson:同期家居仿真平台,物理交互各有侧重,人形 agent 大多缺席或只是装饰摆件,不可被策略控制。
  • 多智能体 RL(MARL)研究:在网格世界、StarCraft、足球这类抽象环境里研究协作,但缺失"真实物理 + 真实家居布局 + 真人体动作"。
  • VR teleop 数据:用 VR 让真人遥控仿真里的虚拟人,能拿到真实人类行为,但成本高、规模有限。
  • 结果:之前要研究 human-robot collaboration(HRC,人机协作)只能在受限的桌面 setup 或动捕实验室里做,规模化训练很难。

这篇论文的关键想法

像搭一个"机器人 + 真人混住的虚拟样板间":把可控的假人、机器人、家居环境、高速渲染四样东西拼进同一个仿真器。这个假人很灵活——可以被脚本驱动(按剧本做家务)、可以被强化学习训练(自己学行为)、还可以被真人戴 VR 头盔接管(直接示范"人类会怎么干")。机器人就和它一起住在屋里。

更关键的是:作者顺手把"协作"做成了可以打分的考试题,给出两个标准任务——Social Navigation(机器人跟着主人走但不挡路,像跟着妈妈逛超市的小孩)和 Social Rearrangement(机器人和人一起整理屋子,像两口子一起收拾客厅)。这样别的研究者就能在同一套题目上比谁的机器人更会"跟人共处"。

Habitat 3.0 — 方法示意:核心 pipeline
Plate Nº IIHabitat 3.0 — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

人形 avatar 的实现 — 像捏一个会动的橡皮人:你玩过那种 3D 动画里的"骨架小人"吗?作者用了 SMPL-X 这种"标准人体模板"(一个学界通用的、有骨头有关节、能调胖瘦高矮的虚拟人模型)来捏出假人,让它会走路、转身、伸手、拿东西放东西。

等等,先慢一拍 — 「motion primitives(运动基元)」是什么?想象你不是一帧一帧画动作,而是攒了一个"动作积木盒":里面有"向前走一步"、"伸右手"、"蹲下"这些预制片段,要做家务时把积木拼起来就行。这样既快,看起来又自然。低层用积木做动作,高层("现在该去拿什么")由策略网络或脚本来决定。

仿真速度 — 像同时跑两个游戏画面:Habitat 系列一直的招牌是"快",单张 GPU 一秒能渲染上万帧逼真画面(差不多是普通游戏帧率的 100 倍以上,因为机器人要在里面练成千上万次)。3.0 把这速度延伸到"屋里有两个 agent",工程上要处理双方撞不撞、谁挡住谁的视线、动作怎么同时推进等问题。具体吞吐数字需读原文。

两个基准任务 — 像出两道考试题:(1) Social Navigation:机器人要在屋里找到主人并跟着走,但不能挡路(像跟着妈妈逛超市的小孩);(2) Social Rearrangement:机器人和假人一起把客厅杂物各归各位(像两口子一起收拾屋子),既要分工、又不能撞车。背景房间用 HSSD(Habitat Synthetic Scenes Dataset,Habitat 团队自己做的合成 3D 家居数据集)提供,房型够多够杂。

baseline 与评测 — 像找几种"对照组选手":作者拉了几类对照——纯靠端到端 RL(强化学习从零学)、heuristic(手写死规则的启发式方法)、planning-based(先想再做的规划方法)——一起跑这两道题。打分维度包括:任务成功率、用了多久、撞了人几次、有没有打扰到人。具体每个 baseline 表现 + 数值需读原文。

实验在做什么

实验主要回答三个问题:

  1. 能不能在 Habitat 3.0 里训练出会协作的策略:把 RL 跑在 Social Nav / Social Rearrangement 上,看成功率随训练提升的曲线,验证仿真器跑得动这种规模的训练。
  2. 协作策略 vs 单干策略的差距:让机器人当作屋里没人去做任务,对比"会感知人"的策略,看碰撞次数、效率有没有改善。这是验证"屋里有人"这件事是否值得建模。
  3. 不同 human policy 下机器人能不能 generalize:人有时是脚本驱动、有时是 learned policy、有时是 VR 真人接管,机器人面对不同"人类风格"是否仍能完成任务。这是验证 sim-to-real 之前的"sim-to-human-variation"。

具体数字(成功率多少、碰撞下降多少 %、训练多少小时)需读原文。

你应该懂的几个新词 — 4-6 个

  • humanoid avatar:仿真器里的"虚拟人",有骨骼、有关节、能走能拿东西;本文里它既是任务的一部分(机器人要跟它配合),也是数据来源(VR 接管时拿真人行为)。
  • Social Navigation / Social Rearrangement:本文提出的两类协作 benchmark,前者是"跟着人走但不打扰",后者是"跟人一起整理东西"。
  • HSSD(Habitat Synthetic Scenes Dataset):Habitat 团队的合成 3D 家居场景库,提供大量可交互房型,给协作任务做舞台。
  • MARL(Multi-Agent RL):多智能体强化学习。Habitat 3.0 给 MARL 提供了一个"真实家居 + 物理 + 视觉"的舞台,跟以前网格世界 MARL 完全不是一个量级。
  • kinematic vs dynamic 仿真:人形动作可以走 kinematic(位姿插值,简单快但不真实碰撞)或 dynamic(真物理引擎,慢但真实)。Habitat 3.0 在两者之间做工程取舍。
  • embodied AI:具身智能,强调"agent 要有身体、要在世界里行动",跟纯文本 LLM 区分开。Habitat 系列是该领域核心仿真平台之一。

它和其他论文什么关系

  • 承接 Habitat 1.0(导航)→ Habitat 2.0(交互)→ Habitat 3.0(协作):是 Meta Habitat 三部曲的第三章,每代加一个维度。
  • 平行于 AI2-THOR / iGibson / RoboCasa:都是家居具身 AI 仿真平台,但 Habitat 3 在"人形 avatar 可控+协作 benchmark"这个交集上更系统。
  • 下游对接 sim-to-real 工作:Habitat 训出的策略最终要部署到真机器人(如 Spot、Stretch),3.0 的"人在场"训练可以减少真机面对人时的 surprise。
  • 跟 OpenX-Embodiment / RT-X 的关系:那一类是"用真实数据规模化训机器人",Habitat 3 是"用仿真规模化训协作",两条路互补——仿真便宜、真实数据真。
  • 跟 LLM-as-policy 的连接:协作任务的"高层调度"未来可能交给 LLM,Habitat 3 提供了底层执行环境。

我建议这样读 — 3-4 步

  1. 先看演示视频和官网(habitat.ai):30 秒看明白"人形 avatar 在屋里走来走去 + 机器人配合"的画面,比读 6 页文字快。
  2. 跳到 Section 介绍两个 benchmark 的部分:Social Nav 和 Social Rearrangement 的 task definition + 评测指标,搞懂"什么算成功"。
  3. 再回头看人形 avatar 是怎么做的:motion primitives + 高层 policy 的分层设计,这是论文工程贡献的核心。
  4. 最后扫一眼 baseline 表格:知道当前 SOTA 在协作任务上的水位(不高),这是你将来如果做相关方向的入手缝隙。

为什么值得读

  • 如果你关注具身智能 / 家用机器人:Habitat 3.0 是目前研究"机器人怎么跟人共处"最系统的开源仿真平台,方法论和工程细节都值得借鉴。
  • 如果你关注多智能体协作:它把 MARL 从网格世界拉到了真实家居,给了一个不再"玩具"的舞台。
  • 如果你关注sim-to-real:屋子里加了"会动的人"这一变量,让仿真训练离真实部署近了一步——真实世界里机器人永远不是孤儿。
  • 如果你关注LLM agent + 物理世界:未来 LLM 当"高层 planner"驱动机器人和人协作时,Habitat 3 这类基建是必要的练兵场。

读它的性价比:1-2 小时扫完正文 + demo,能拿到"协作仿真现在做到哪一步"的清晰判断,并且知道下一步可以从哪里推。

引用本笔记 / Cite this note
BibTeX
@online{eai_habitat_3_2026,
  title       = {(readable note) Habitat 3.0},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2024 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/habitat-3/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim