回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
World Model & Video Policy · Plate Nº 155

Navigation World Models

7 min read · 2468 字 · ⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

让机器人"走"之前先在脑子里放一段未来几秒的画面,看会不会撞墙,再决定真的怎么走。

这是个什么场景 — 日常类比

晚上回家,电梯门一开你愣了一下——这栋楼和你住的那栋长得几乎一样。你下意识做的第一件事不是拔腿就走,而是在脑子里先放一遍:「往左走 5 步,应该能看到那盆绿萝;要是看不到,就是走错楼了。」

这个"脑子里先放一遍"就是世界模型(world model)干的事——拿你打算执行的动作在脑袋里跑一遍,看会出现什么画面,再决定要不要真走。

NWM 把这件事交给模型来做:

  • 输入:你现在看到的画面(一张或几张第一人称图)+ 你打算怎么走(往哪走、转多少度)
  • 输出:照这么走下去几秒后你应该会看到的画面

它不是在地图上画路线,而是直接生成"未来的视频帧"。这种思路对机器人特别重要——很多场景没有事先建好的地图(mapless),手里只有一台相机和自己刚做出的动作。

Navigation World Models — 场景示意:这论文要解决的现实问题
Plate Nº INavigation World Models — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • 传统 SLAM + 规划:先建几何地图(占用栅格 / 点云),再在地图上做 A*/RRT 规划。问题:依赖深度传感、对动态场景脆弱,且地图本身不会"想象未见过的画面"。
  • 端到端 RL 导航(如 Habitat 上的 PointNav baseline):直接学 policy「画面 → 动作」。问题:sample efficiency 差,跨环境泛化弱。
  • 早期视觉 world model(Dreamer 系列、World Models Ha&Schmidhuber):在 latent 空间预测下一步,主要在 Atari/DM Control,未在真实第一人称导航的高分辨率视频上 scale
  • 图像驱动导航(image-goal navigation, ViNT 等):用大模型学习"从当前图到目标图"的 policy,但仍以 reactive 为主,规划是隐式的。
  • 视频生成模型(Sora、AnimateDiff 等):擅长生成漂亮视频,但不以动作为条件、不可控,没法用来规划。

NWM 的差异点:把视频生成的"质量"和导航的"动作可控性"合在一起。

这篇论文的关键想法

核心洞见:导航的本质是"预测自己动作的视觉后果"。如果一个模型能可靠回答"我执行这串动作后会看到什么",那它天然可以:

  1. 用来做规划:枚举多条动作序列,选一条预测画面"最像目标"的。
  2. 用来评估其他 policy:把别的导航策略丢进 NWM 里跑,看它会不会"想象出撞墙画面"。
  3. 用来做数据增强:在没有真机器人的情况下生成大量第一人称轨迹。

技术上的赌注:把扩散 Transformer(DiT,Diffusion Transformer,本来用来生图/视频的)改成 action-conditioned 的形式,并 scale 到 1B 参数级别。规模是关键——只有足够大的模型,才能在多样化的真实环境视频上学到"动作-画面"的因果关系。

Navigation World Models — 方法示意:核心 pipeline
Plate Nº IINavigation World Models — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

架构:Conditional DiT — 像给画师补一句"按这个动作画"

普通的视频生成模型像一个会画画的人,丢一段噪声进去,它能把噪声"擦"成一段视频。NWM 多做一件事:在画师身边再站一个翻译,每画一帧之前都告诉他"主人公接下来前进 0.5 米、左转 15°",画师就照这个动作去画下一帧。

技术上:DiT(Diffusion Transformer,用 Transformer 当骨干的扩散模型,替代旧版的 U-Net)本来只吃噪声潜变量(latent),NWM 在它上面加了动作条件——每个动作 token(比如 "前进 0.5m + 左转 15°")和噪声 latent 一起喂进 Transformer。生成目标是未来 N 帧的 latent,再用 VAE 解码回图像。1B 参数大致对应中等规模的视频扩散模型,具体层数/隐维度需读原文。

等等,先慢一拍——latent 是什么? 把图像压成一串短得多的数字(像把一张照片压成 ZIP),模型在这个压缩空间里画画比直接画像素快得多。VAE 负责"压"和"解压"。

训练数据:多源第一人称导航视频 — 像给学厨师的人混合菜谱

要让一个学徒学会"做菜",光看一家餐厅不够,得看川菜、粤菜、日料都尝一遍。NWM 也一样:作者很可能混合了户外 driving 数据(如 nuScenes 风格)、室内导航数据(Habitat / Matterport / RECON / SACSoN 等)、以及 ego-centric(第一人称)视频。每条样本长这样:「(过去几帧画面, 未来一段动作, 未来几帧画面)」——也就是"看过的+打算做的+实际发生的"三件套。具体数据集组合和比例需读原文。

动作表示 — 像描述"往前两步右拐",不是说"走到 GPS 坐标 X"

第一人称导航的动作通常是相对位姿(relative pose):(Δx, Δy, Δθ),意思是"相对我现在的姿态、前进多少米、转多少度"。这种表示不依赖全局坐标系(不用知道自己在哪个房间的哪个角落),换一个新环境也能直接用。

用世界模型做规划 — 像下棋时心里先走三步

最直接的用法是 MPC(Model Predictive Control,模型预测控制)。象棋高手不会一上来就落子,而是心里先模拟几条走法,看哪条最接近赢面。NWM 同理:给定一张目标图像,先随机 sample 一批候选动作序列,每条都丢进 NWM 生成预测画面,挑画面最像目标的一条;然后只执行第一步,再重新规划。这种"在脑子里搜索"是 NWM 区别于 reactive(反射式直接出动作)policy 的核心。

实验在做什么

预期实验维度(论文应该覆盖大部分):

  • 生成质量:FVD / FID 等视频生成指标,跨域评估 NWM 预测的画面和真实未来帧的差距。
  • 导航成功率:在 Habitat 等仿真器上跑 image-goal navigation,对比 reactive baseline(直接 policy)和有 NWM 规划的版本。
  • 跨环境泛化:训练集没见过的房间/街区上的表现,检验"世界模型"是否真的学到了通用的物理-视觉映射。
  • Scaling 实验:从 100M 到 1B 参数,看生成质量和下游导航成功率怎么变。这一条对"为什么要 1B"是关键。
  • 失败模式可视化:当模型预测不准时,画面会"糊掉" / 出现幽灵物体——这些恰好是规划该避开的高不确定区域。

具体数字(成功率 / FVD / horizon 多长)需读原文。

你应该懂的几个新词 — 4-6 个

  • World Model(世界模型):能根据当前状态 + 动作预测未来状态的模型。早期是 latent 空间(Dreamer),NWM 是直接像素/视频空间。
  • DiT(Diffusion Transformer):用 Transformer 做骨干的扩散模型,由 Peebles & Xie 提出,Sora 类模型的核心架构。
  • Conditional Diffusion:扩散模型的条件版——除了噪声 latent,还输入额外条件(文本、图像、动作)来引导生成。
  • Ego-centric / First-person:第一人称视角,相机绑在 agent 身上看到的画面,区别于第三人称俯视图。
  • Image-goal Navigation:导航任务的一种——目标用一张"目的地的照片"给定,agent 要走到能拍出这张图的位置。
  • MPC(Model Predictive Control):用一个 forward model 在脑子里 rollout 多条动作,挑最优的执行第一步,然后重新规划。NWM 的下游用法之一。

它和其他论文什么关系

  • 延续 world-models-ha / dreamer-v1 / dreamer-v2 的"learn to imagine"传统,但跳出 latent space,直接做 pixel/video 级别的世界模型。代价是算力,收益是表达力。
  • 架构上和 dit-policymmdiff 同属 DiT 家族,区别在于条件不是文本/语言,而是机器人/agent 的动作序列。
  • 任务上和 habitat 仿真器、image-goal navigation 系列对接——NWM 可以看作 Habitat 训练数据上的"反向"产物:从轨迹学回世界模型。
  • cosmos-policy 相关:Cosmos 是 NVIDIA 的物理世界视频生成模型,思路同源(大规模视频生成 → 用于具身),但 Cosmos 更强调通用物理仿真,NWM 更聚焦导航。
  • 3drimr / millimap 这种"用感知建图再规划"的路线对比鲜明:NWM 不显式建图,地图信息隐式存在权重里。

我建议这样读 — 3-4 步

  1. 先看 Figure 1 + intro:搞清楚"输入是什么、输出是什么、和谁比"。重点看 demo 视频——NWM 的卖点是视觉直观。
  2. 跳到 Method 的架构图:搞清楚动作 token 怎么注入 DiT、生成的是单帧还是多帧 latent、horizon 多长。
  3. 看 MPC 怎么用 world model 规划:这是"world model 不只是好看"的关键证据。理解 candidate 动作怎么 sample、怎么打分。
  4. 回头扫 scaling 曲线和失败案例:判断这个方向的天花板在哪、什么场景下还不行。

如果时间紧,看 1+3 就能 get 主要卖点。

为什么值得读

  • 思路转换:从"学 policy"到"学 world model",是 embodied AI 当前的一个主线分歧。NWM 在导航这个具体任务上给了一个 frontier-scale 的样板。
  • 架构借鉴:DiT + action conditioning 的范式,可以迁移到 manipulation(参见 dit-policy)、driving、AR/VR 等场景。
  • 未来方向的入口:如果你关心 Cosmos、Sora-as-simulator、Genie 这些"视频生成做世界模型"的工作,NWM 是导航这条线的代表作,读完能更快搭起这个大方向的脉络。
  • CVPR 2025 frontier:作为 2024 年底放出、2025 CVPR 的工作,它代表了"视频生成 × 具身"在这个时间点能做到什么程度——是后续跟进的基线参考。

引用本笔记 / Cite this note
BibTeX
@online{eai_navigation_world_models_2026,
  title       = {(readable note) Navigation World Models},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/navigation-world-models/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim