回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
Simulation & Sim2Real · Plate Nº 98

Habitat: A Platform for Embodied AI Research

17 min read · 6056 字 · ⭐⭐ · auto 摘要

这是一份给"完全没接触过 AI"的读者看的精读笔记。语言尽量像聊天,公式全部翻译成人话。

一句话讲什么(TL;DR)

给家用机器人造一个跑得飞快的"VR 房子",让它在里面绕路撞墙练几千万步,再上岗去你家。

所以这一节是想说:这篇论文做出了一个跑得飞快的 3D 室内仿真平台,让具身 AI 终于能"大规模训练"。


这是个什么场景

下班回家,你瘫在沙发上跟家里那台扫地机器人说:"去厨房看看我那杯咖啡是不是还在桌上,在的话端过来。" 这一句话听着简单,机器人却得同时干好几件事——听懂你说的话 + 认出咖啡杯和桌子 + 在客厅厨房之间找路、绕开椅子腿

问题来了:这种机器人怎么训练出来?最直观的想法是——买 1000 台真机器人放进 1000 个真房子里练。但你想想:

  • 真实世界只能 1 倍速:现实一天就是 24 小时,没法按快进键。
  • 真实房子不可并行:你不能让 8 台机器人在同一个客厅里各自试错,会撞作一团。
  • 真实世界容易出事:练失败的机器人可能把花瓶撞下桌、把猫吓飞。
  • 真实世界贵到爆:1000 台机器人 + 1000 间样板间,预算直接劝退。
  • 真实世界没法重来:上一次撞翻咖啡的那个光线、那只猫的位置,永远复刻不出来。

那怎么办?做一套"机器人版的赛车游戏"——把真实房子用 3D 扫描器扫进电脑,让一个虚拟的机器人在屏幕里的房子里转悠、撞墙、找路。撞坏了重启就行,速度还能开 1000 倍快进。这就是 Habitat 要造的东西:一个专门给"室内机器人"练功的虚拟房子。

所以这一节是想说:Habitat 要造的是"室内机器人"的 VR 训练场,让它在虚拟房子里学走路、学认物。


Habitat — 场景示意:这论文要解决的现实问题
Plate Nº IHabitat — 场景示意:这论文要解决的现实问题

之前的人怎么做的,为什么不够好

具身 AI 圈在 2017-2018 年其实已经有一堆仿真器(House3D、AI2-THOR、MINOS、Gibson、CHALET),各做各的。问题是:

  • 跑得太慢:大多数只能跑 10-100 帧每秒。意思是 AI 训练 1 个月,相当于在虚拟世界里只走了几百万步。实验跑不完,没法判断"模型到底学没学到位"。
  • 任务、模拟器、数据集焊死在一起:比如 Gibson 仿真器只能用 Gibson 自己的房子数据,AI2-THOR 只能跑它内置任务。换个房子或换个任务就要重写一切
  • 机器人参数写死了:智能体大小、能转多少度、能走多远,都写在源码里。想做对照实验比如"机器人换大一点会怎样",得改源码
  • 结果没法跨平台对比:A 论文用 House3D,B 论文用 MINOS,两边数字根本不能放一起比
  • 不能随便摆家具:想测试机器人遇到障碍物会怎么办,没法用代码动态摆个椅子上去。

总结一句话:每个仿真器都是个"封闭花园",社区没法形成合力。Habitat 的目标就是当那个通用的、跑得超快的、能让所有人接进来的底座

所以这一节是想说:以前的仿真器又慢又封闭,研究做不大也做不公平,Habitat 要把整个软件栈打通。


这篇论文的新想法

把仿真器底层写成 C++ + 极致优化的渲染管线,让单线程飙到几千 FPS、多进程飙到 10000 FPS;再上面套一层灵活的 Python API,把数据集、任务、智能体都解耦。

跑得快不是炫技——速度直接决定了"能不能让 AI 训练 7500 万步"这种过去做不了的实验。

所以这一节是想说:核心创新是"把仿真器做到比训练 AI 还快",从此瓶颈不再是仿真,而是模型本身。


它分几步做的(方法)

把整篇论文想成"装修一套出租屋":先把毛坯房的水电(渲染引擎)做到极致快;再把家具(数据集)做成宜家那种自由组装;再把电器接口(任务 API)做成统一插座。最后请几个朋友(智能体)来实测——结果发现以前的"经验之谈"全都被推翻了。

具体就是 4 件事:底层渲染引擎、数据集解耦、任务 API、用这套东西做一组以前没法做的大规模实验。

1. Habitat-Sim:把渲染速度榨到极致

类比

老式仿真器像家用打印机——一张一张慢慢出图,要给彩色 / 深度 / 语义各打一遍。Habitat-Sim 像复印店的工业打印机——一次走纸三色同出,机器只过一遍。

它在干什么

  • 用 C++ 写底层(不是 Python),调用 Magnum 这个轻量级图形库直接走 OpenGL。
  • 整个 3D 房子用一种叫"场景图"的数据结构组织起来,所有家具、墙壁、贴图都共享缓存——同一个椅子模型在 100 个房间里只占一份内存。
  • 多附件渲染(multi-attachment uber-shader):一次渲染就同时输出彩色图、深度图、语义分割图。传统做法是渲三遍。
  • 渲完的图直接通过共享内存当成 PyTorch 张量给 AI 用,少一次拷贝。

FPS(frames per second):每秒能渲染多少张图。AI 一边走一边看图,FPS 越高,AI 一秒能"走"的步数就越多。

场景图(scene graph):把 3D 世界组织成一棵树。根节点是整个房间,子节点是家具,孙节点是家具上的细节。好处是改一个父节点的位置,所有子节点跟着动。

uber-shader:一段集成了多种渲染功能的 GPU 程序,一次跑完同时产出多种图(彩色、深度、语义)。

OpenGL-CUDA 互操作:让 OpenGL 渲出来的图直接留在 GPU 显存里,不用绕道 CPU。省掉 GPU→CPU→GPU 这趟来回拷贝。

为什么这步有用

  • 单线程几千 FPS、多进程上万 FPS——比同期最强的 House3D 快约 30 倍,比 MINOS / Gibson 快约 100 倍,比 AI2-THOR / CHALET 快约 1000 倍
  • 速度高到一种程度:比从硬盘读图片还快。这意味着不用预存数据集,每次训练都能现渲染,体验还更新鲜。
  • 训练瓶颈从此从"仿真器"变成"神经网络本身"。AI 想吃多少数据就吃多少。

所以这一节是想说:底层用 C++ + 一次渲多图 + 显存直通,把速度提到比读硬盘还快,训练再也不卡仿真。


2. 通用数据集 API:换房子像换墙纸

类比

旧仿真器就像 Wii 的专属游戏卡——AI2-THOR 卡只能塞 AI2-THOR 主机。Habitat 像 USB——Matterport3D / Gibson / Replica 三种数据集插上就能用,写代码时不用 care 自己用的是哪一种。

它在干什么

  • 不管底下来源是 Matterport3D(真实房子激光扫描)、Gibson(真实房子 + 计算机视觉重建)、还是 Replica(高精度合成场景),全部统一翻译成"场景图"格式。
  • 提供一个统一接口:config = habitat.get_config("pointnav.yaml"); env = habitat.Env(config)——三行代码。换数据集只改 yaml 里的一行。

Matterport3D:用 Matterport 公司的专业 3D 扫描相机扫出来的 90 套真实建筑,含语义标注。

Gibson:斯坦福扫的 572 套真实建筑,但很多有重建瑕疵(破洞、贴图错乱)。Habitat 团队人工筛掉大部分,留下 106 套高质量的。

Replica:Facebook Reality Labs 自己扫的 18 套超高精度合成场景,质量最好但数量少。

为什么这步有用

  • 跨数据集泛化实验第一次变得可行:在 Gibson 上训、在 Matterport3D 上测,反过来也行——一行代码切换。
  • 后来的论文能直接用 Habitat 当通用底座,结果横向可比了。这就是"基础设施的价值"。

所以这一节是想说:数据集和仿真器解耦,换房子就像换 yaml,跨数据集实验从此能做。


3. Habitat-API:把任务、智能体、传感器都拆开

类比

旧仿真器像一体机:键盘鼠标主机焊在一起。Habitat-API 像组装台式机——CPU、显卡、键盘、鼠标各自一块,谁不喜欢谁就换

它在干什么

把"具身任务"拆成几个可替换的零件:

  • Agent(智能体):身高、形状、能做哪些动作。换个轮椅形状的智能体?改一行配置。
  • Sensor(传感器):RGB 相机、深度相机、GPS、指南针、接触传感器……自由组合。想加一个 LIDAR?写个插件接进去。
  • Task(任务):定义"什么算完成"和"怎么打分"。点目标导航 PointGoal、问答 EmbodiedQA、视觉语言导航 VLN,都用同一套 API。
  • Episode(一次训练片段):包含起点、终点、场景 id、最短路径长度。

PointGoal navigation(点目标导航):智能体被扔到房子里某个起点,告诉它"目标在你东北方 5 米",让它自己走过去。是具身 AI 最基础的任务。

SPL(Success weighted by Path Length):评分标准。意思是"成功 × 最短路径 / 实际走的路径"。只走对了不够,还要走得短。在最短路径上完美完成给 1.0 分,原地兜圈子完成给 0 分多。

为什么这步有用

  • 同一份代码可以测 4 种传感器配置(盲、RGB、深度、RGBD)× 2 种数据集 × 多种基线方法。16 组对照实验只需写一份训练脚本。
  • 后续社区基于这套 API 长出了 Habitat 2.0、Habitat 3.0(加物理 / 加人类)、ObjectNav、ImageNav 等等,它成了具身 AI 的事实标准

所以这一节是想说:把任务零件拆开,做对照实验从"重写代码"变成"改一行 yaml"。


4. 用这套底座做了"以前做不了的实验":学习 vs SLAM 终极对决

类比

以前给两个跑步选手比赛,跑 50 米就喊停——结果 A 赢了。但其实 A 只是起跑快,B 在 200 米处会反超。Habitat 的速度让我们把赛道延长到 7500 万步,看到了完全不同的结论。

它在干什么

  • 比赛双方:
    • 学习派:一个 PPO(强化学习算法)训练的神经网络智能体。给它 RGB / 深度图,让它自己学怎么走。
    • 传统派:经典 SLAM 方法(ORB-SLAM2 + 经典定位规划),人工设计的导航流水线。
  • 测试方式:在 Gibson、Matterport3D 两个数据集上跑 PointGoal 任务,记录 SPL。
  • 关键变量:训练步数从过去文献的 5M 步拉到 75M 步——15 倍。

SLAM(Simultaneous Localization and Mapping):经典机器人导航流水线。"边走边画地图,同时知道自己在地图哪里"。靠摄像头 / 激光雷达提取特征点,几何推理。

PPO(Proximal Policy Optimization):一种强化学习算法,让 AI 通过试错学策略。"走对了奖励、撞墙了扣分"。

Blind agent(盲智能体):没有视觉传感器,只有 GPS+指南针。后面会发现它居然能贴墙走出 0.42 SPL,挺会"摸黑"。

为什么这步有用

  • 5M 步以内:SLAM 完胜(毕竟人家不需要训练)。这就是过去论文得出的结论。
  • 30M 步以后:学习派的 Depth 智能体反超 SLAM,差距越拉越大。
  • 75M 步:Depth-RL 在 Gibson 拿 0.79 SPL,SLAM 只有 0.51。
  • 这个反转只有 Habitat 这种快仿真器能验证——别人想跑 75M 步要等几个月。
  • 顺手做了一组跨数据集泛化实验(Gibson 训→Matterport3D 测,反之亦然),发现只有深度传感器能跨场景泛化——RGB 训出来的智能体一换房子就拉胯。

所以这一节是想说:Habitat 的速度让"训练 75M 步"变得日常,反转了"SLAM 比学习强"的旧结论。


Habitat — 方法示意:核心 pipeline
Plate Nº IIHabitat — 方法示意:核心 pipeline

关键数字(What works)

数字本身不重要,重要的是它们告诉你什么"设计选择"才是关键。

数字 1:单线程 4093 FPS(RGB,128×128)

  • 怎么算的:在 Matterport3D 一个测试场景上,单进程渲染彩色图。
  • 对比:House3D 约 300 FPS,MINOS / Gibson 约 100 FPS,AI2-THOR / CHALET 几十 FPS。
  • 生活语言:Habitat 一秒能给 AI 看 4000 张图,比上一代快 30-100 倍。AI 训练再也不会被仿真器拖后腿。

数字 2:多进程 10592 FPS(5 进程 × 128×128)

  • 怎么算的:5 个仿真器进程共用 1 张 GPU,加起来的总吞吐。
  • 对比:之前没有任何室内仿真器进过 5 位数。
  • 生活语言:一张消费级显卡就能撑起 5 个并行训练流,云成本砍到 1/5

数字 3:训练 75M 步 vs 过去的 5M 步

  • 怎么算的:智能体在仿真世界里走的总步数。
  • 对比:之前论文 [20, 16] 都是在 5M-10M 步规模上做的对比。
  • 生活语言:相当于把跑步比赛的赛道从 50 米延长到 750 米,结论彻底反转——学习派后程发力赢了 SLAM。

数字 4:Depth-RL 在 Gibson 拿 0.79 SPL,SLAM 只有 0.51

  • 怎么算的:在 Gibson 测试集上,75M 步训练后的对比。
  • 对比:Blind 0.42、RGB 0.46、RGBD 0.70、SLAM 0.51。
  • 生活语言深度信息单独用比 RGBD 还强——加 RGB 反而拖后腿。原因:RGB 信号噪声大、容易过拟合训练房子的装修风格。

数字 5:跨数据集泛化掉 0.13-0.17 SPL

  • 怎么算的:Gibson 训→Gibson 测拿 0.70,Gibson 训→Matterport3D 测掉到 0.53(RGBD 智能体)。
  • 对比:但 Depth 智能体只掉一点点,泛化最好。
  • 生活语言:用 RGB 训的 AI 像"只认识自家小区"的导航——换个小区就懵。深度传感器训的 AI 学的是"几何而非装修",跨房子也能用。这指向了 Sim2Real 的关键:用深度,少用 RGB。

数字 6:训练总开销 2267 GPU-小时

  • 怎么算的:4 种传感器配置 × 75M 步训练,加起来的 GPU 时间。
  • 生活语言:约 2200 GPU-小时,按云上 $1/小时算约 $2200。单个研究组负担得起——这就是把基础设施做快做开放的意义。

所以这一节是想说:这些数字共同说明——基础设施的速度提升直接改变了科学结论的样子。


你应该懂的几个新词

具身 AI(Embodied AI):让 AI 不只是看图分类,而是能"动起来"——在环境里看、走、抓、问。"互联网 AI"研究的是被动识别,"具身 AI"研究的是主动行动。

仿真器(simulator):用代码模拟真实世界的程序。具身 AI 的仿真器要能渲染房子、模拟物理、让虚拟智能体动起来。

FPS(frames per second):仿真器每秒能产出多少张图。直接决定 AI 训练速度。

场景图(scene graph):3D 世界的树状数据结构。根是房间,子是家具,孙是家具上的零件。Habitat 用它统一了不同来源的数据集。

PointGoal 导航:最基础的具身任务——"从这里走到东北方 5 米的目标点"。SPL 是它的标准打分。

SPL(Success weighted by Path Length):成功率 × 最短路径 / 实际路径。完美走一遍给 1.0,瞎绕给接近 0。

SLAM:经典机器人导航——"边走边画地图"。靠几何特征推理位置,不需要训练。

PPO(Proximal Policy Optimization):一种强化学习算法。让 AI 在仿真器里反复试错,学出策略。

Depth sensor(深度传感器):每像素返回"这点离相机多远"的设备。不受光照、贴图影响,只看几何。是跨场景泛化的最佳传感器。

Sim2Real(仿真到现实):把在仿真里训练好的模型部署到真机器人上。深度信号比 RGB 更容易迁移。

所以这一节是想说:上面这十几个词以后看任何具身 AI 论文都会反复出现,先把它们和生活类比挂钩。


它有什么搞不定的

Habitat 不是万能的,论文自己也老实交代:

  • 没有物理交互:2019 版只能"看 + 走 + 转",不能拿东西、推门、踢沙发。后来的 Habitat 2.0 才补上物理引擎。
  • 没有动态环境:房间是静态扫描的,没有来回走动的猫、没有被风吹动的窗帘。复杂行为研究受限。
  • GPS+指南针太理想:实验里的智能体被给了"完美定位"。真机器人室内 GPS 几乎不能用,需要后续工作研究"无 GPS 怎么办"。
  • Sim2Real gap 没解决:仿真里的 RGB 和真摄像头的画风差很远(光照、噪声、运动模糊),论文也提到这是后续要解决的事。

所以这一节是想说:Habitat 1.0 只是"能看能走"的训练舱,"能拿能推"和"对接现实"还要后面几代继续补。


它和别的论文是什么关系

  • 时间线:House3D / AI2-THOR / MINOS / Gibson(2017-2018,第一代仿真器,速度慢)→ Habitat(2019,速度爆发) → Habitat 2.0(2021,加物理)→ Habitat 3.0(2023,加人类)→ 一票后继工作。
  • 集合关系:Habitat 是"具身 AI 软件栈"的基座层。LLaVA 一类视觉语言模型站在云端,Habitat 是给它们提供"训练数据 + 评估场地"的地基
  • 对照本系列其他论文
    • LLaVA 比:LLaVA 是"会看图聊天的脑子",Habitat 是"让脑子在房子里走的身体"。两者完全互补——LLaVA 的视觉能力可以接到 Habitat 的智能体上做 EmbodiedQA。
    • PaLM-E / RT-2 / OpenVLA(VLA 系)比:那些工作在做"视觉+语言→动作"的端到端模型,但训练时往往就跑在 Habitat 或它的后代仿真器里。Habitat 是它们的"练功房"。
  • 因果关系
    • Habitat 速度跨越 导致 后来 PointNav、ObjectNav、ImageNav 这些 benchmark 才有可能办起来。
    • Habitat 的"深度比 RGB 跨域更稳"指向了后来"用 depth + 深度补图"的多个工作。
    • Habitat Challenge(CVPR 2019 起)塑造了具身 AI 评测的标准范式——上传 Docker 容器,云端跑 unseen 场景。

所以这一节是想说:Habitat 是具身 AI 时代的基建,相当于 ImageNet 之于计算机视觉——它定义了大家共用的"考场"。


我建议这样读这篇

零基础读者不要从头读到尾。建议这样走:

  1. 看摘要 + 引言第一段(5 分钟):先记住"Habitat = 又快又通用的室内仿真器"。
  2. 看 Figure 1 软件栈图(1 分钟):一眼记住"数据集 / 仿真器 / 任务"三层架构。
  3. 跳到 Table 1 性能表(5 分钟):直观感受 4093 FPS 是个什么概念,对比一下 House3D 的 300 FPS。
  4. 读第 4 节"PointGoal at Scale"(15 分钟):搞清楚什么是 PointGoal、SPL、为什么作者挑这个任务。
  5. 看 Figure 3 训练曲线(10 分钟):这是全文最高潮——前 5M 步 SLAM 赢,30M 步后 Depth-RL 反超。理解这张图你就理解了整篇论文的科学价值
  6. 快速扫 Figure 5 跨数据集表(5 分钟):看哪种传感器跨数据集最稳。
  7. 跳过附录代码细节(除非你想自己跑):知道"几行 Python 就能起一个具身环境"足够。

读完这 7 步大约 40-60 分钟,已经能在和别人讨论具身 AI 时报出 Habitat 的核心贡献。

所以这一节是想说:这篇精华全在"基础设施速度 + 一组实验反转",附录可以略读,节省时间。


一些好奇心问答(FAQ)

Q1:Habitat 自己能跑在我笔记本上吗?

可以。Habitat-Sim 在 macOS / Linux / Windows 都能装,只要有 OpenGL 即可(不强求 GPU)。但训练智能体需要 GPU。CPU 模式也能渲染,看 demo / 试 API 完全没问题。

Q2:Matterport3D / Gibson / Replica 这三个数据集要单独申请吗?

是的。Matterport3D 要签学术使用协议,Gibson 类似,Replica 要 Facebook 学术许可。对学生免费,但都是非商用。Habitat 自己开源,但数据集不是它的。

Q3:为什么深度传感器比 RGBD 还强?

论文给的解释:PointGoal 导航的关键信息是"哪里有空间能走"——深度图直接告诉你。RGB 提供的纹理 / 颜色对这个特定任务没用,反而增加了过拟合风险(每个房子装修不一样,模型学到的可能是"这种沙发后面通常有走廊"这种伪规律)。这说明任务和传感器要匹配——做物体识别 RGB 必不可少,但做导航深度更胜任。

Q4:Habitat 现在还在更新吗?

非常活跃。Habitat 2.0(2021)加了物理引擎和可交互物体;Habitat 3.0(2023)加了虚拟人类,做"人机协作"研究。最新代码在 github.com/facebookresearch/habitat-lab 和 habitat-sim。

Q5:Habitat 仿真里训出来的智能体能直接搬到真机器人上吗?

不能直接搬,但比纯仿真已经好很多。论文末尾就提到 Sim2Real gap 是接下来的核心问题。后续的 Habitat 衍生工作(如 PyRobot 桥接、Sim2Real benchmark)就在专门补这个缺口。用深度传感器训出来的模型迁移成功率比 RGB 高得多——这是 Habitat 实验给出的关键启示。

Q6:为什么 Blind 智能体居然能拿 0.42 SPL?

因为它有 GPS+Compass。每一步都知道自己离目标多远。它学到的策略是"贴墙走"——遇到墙就右拐。这虽然蠢但确实能在小房子(Gibson)里走到目标。在大房子(Matterport3D)里就拉胯了,掉到 0.25。这反过来说明 Gibson 测试集偏简单,论文也承认了这点。

Q7:Habitat Challenge 和 ImageNet 比赛有什么不一样?

ImageNet 比赛交"答案文件"——你预测的 1000 张图分类标签。Habitat Challenge 交"代码文件"——你的智能体行为程序,组织方在云端跑它走未见过的房子。这是从"被动预测"到"主动决策"的范式转变。这种"交容器"的评测方式后来被很多具身 AI benchmark 沿用

Q8:我现在该用 Habitat 还是 Isaac Gym / Genesis 这些更新的仿真器?

看任务。做导航 / EmbodiedQA / 视觉语言导航:Habitat 仍是首选,生态最成熟。做精细操作(抓、拧、装配):Isaac Lab、Genesis、ManiSkill 物理更准。做大规模 RL(百万级并行):Isaac Gym 走 GPU 物理更快。三者各有所长,不互斥。

所以这一节是想说:实操问题(多少钱跑、跨域怎么办、和现代仿真器比怎样)作者基本都想到或预言了。


如果你想再深入

按"前传 → 同期对手 → 续作 → 衍生方向"四类排序:

  1. 前传:Gibson Env(CVPR 2018) — Habitat 之前最强的真实房子仿真器,但只能用 Gibson 自己的数据。读完它再读 Habitat,能清楚看到"专用平台 → 通用平台"的演化。
  2. 前传:MINOS(2017) — Savva 等人之前的工作(同一作者团队),导航任务的早期仿真器。Habitat 在很多设计上吸取了 MINOS 的经验。
  3. 同期对手:AI2-THOR(2017) — Allen Institute 做的可交互家庭仿真器,强在物体交互和厨房任务。Habitat 强在导航速度。两者长期并行发展。
  4. 续作:Habitat 2.0(NeurIPS 2021) — 同一组人加上物理引擎和可移动家具,开始做"重新整理房间"这种带交互的任务。真要做现代具身 AI,请直接读这版
  5. 衍生:Habitat-Web(2022) — 在 Habitat 上收集人类演示数据,给模仿学习用。是连接 Habitat 和 imitation learning / VLA 路线的桥梁。

所以这一节是想说:把 Habitat + Habitat 2.0 + Gibson Env 这三篇连起来读,就能看到 2018-2021 年具身 AI 仿真器的全貌。


最后一个画面

想象一下:2019 年之前,研究者训练一个导航智能体可能要等一个月才能跑完 5M 步——结果发现 SLAM 比学习强,于是认定"传统方法赢了"。

Habitat 出来之后,同样的实验两天就能跑完 75M 步。结论彻底反转:学习派后程发力,把 SLAM 拉开了 30 个 SPL 点。

这一刻揭示的不只是"哪个方法强",而是更深的科学方法论:当基础设施速度变化一个数量级,结论本身可能就被改写。Habitat 的真正价值不在 4000 FPS 这个数字,而在它让具身 AI 这个领域第一次有了"做得起大规模实验"的底气

所以最后一节是想说:Habitat 不只是一个仿真器,它是把整个具身 AI 研究从"小作坊"推向"大工业"的那把钥匙。

引用本笔记 / Cite this note
BibTeX
@online{eai_habitat_2026,
  title       = {(readable note) Habitat: A Platform for Embodied AI Research},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2019 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/habitat/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim