回 Jason 主站·Embodied AI Reading Station
没主意?快捷入口
World Model & Video Policy · Plate Nº 152

Cosmos World Foundation Model Platform

7 min read · 2284 字 · ⭐⭐⭐⭐⭐ · 短摘要

本笔记基于摘要 + 公开资料,未读全文。

一句话讲什么(TL;DR)

NVIDIA 用 2000 万小时真实视频,训了一个能"猜下一秒物理世界长啥样"的大模型,给机器人和无人车当通用底座。

这是个什么场景 — 日常类比

你刚买了个扫地机器人。它第一次进你家,会不会撞翻花瓶、卡在沙发底下、把猫的尾巴当障碍物绕?大概率会,因为它对"这屋子里下一秒会发生什么"完全没概念——只能撞一次记一次。

教机器人(包括无人车)的两条路:

  • 路线 A:直接让它在真实世界里乱试,撞坏了再总结(在线强化学习,烧钱也烧时间)
  • 路线 B:先让它"刷视频"——把人类拍的几千万小时真实画面看一遍,脑子里先长出"杯子掉地上会碎"、"车在弯道会甩"这种物理常识,再上岗

Cosmos 走的是路线 B 的极致版本:2000 万小时视频,相当于一个人不睡觉连看 2000 多年。模型先把物理世界的"下一秒"学会预测,再交给具体任务(机器人抓杯子、汽车变道)去专门化。

再换个类比:像厨师先在中央厨房学完所有基础刀工和火候(基模),再去川菜馆 / 法餐厅做特化训练(post-training),比每家餐厅从零教徒弟高效得多。

Cosmos World Foundation Model Platform — 场景示意:这论文要解决的现实问题
Plate Nº ICosmos World Foundation Model Platform — 场景示意:这论文要解决的现实问题

之前的人怎么做的 — 3-5 bullet

  • Dreamer 系列(V1/V2/V3):在小环境里学 latent dynamics,"想象训练" RL agent,但视觉规模和泛化都很有限(玩 Atari、DMC 这种)。
  • Genie / GAIA-1:用大量游戏视频或驾驶视频训生成式世界模型,但聚焦单一域(游戏 / 自驾)。
  • Sora / 视频扩散基模:通用视频生成很强,但目标是"好看",不是"可控、可作为下游 agent 的环境模拟器"。
  • 机器人侧(RT-2, OpenVLA, π0):把 VLM/VLA 当作策略骨干,但缺一个"通用的物理世界仿真器 / 预测器"作为预训练信号。
  • 传统仿真器(Isaac, MuJoCo, Habitat):物理精确但视觉假、域差距大,难以覆盖真实世界长尾。

Cosmos 的卡位是:填上"通用、视觉真实、可作为基础模型的世界预测器"这个空缺。

这篇论文的关键想法

NVIDIA 没把它当成"又一个视频生成模型"卖,而是当成宜家家具——给你板材、螺丝、说明书,让你自己拼。具体讲三件事:

  1. 大规模真实视频是通用世界模型的"互联网":就像 ChatGPT 是把全网文本喂出来的,世界模型也得有对应规模的"教材"。Cosmos 的 2000 万小时视频就是这套教材,规模本身就是质变。
  2. 两条技术路线并行:扩散模型(diffusion,像画师一样从噪点慢慢涂出画面,重质量)+ 自回归(autoregressive,像打字一样一帧一帧往后蹦,重因果),分别适合不同下游。
  3. 平台化交付:不只放权重,还把数据流水线、tokenizer、guardrail(安全护栏)、post-training 食谱(recipe)一起打包,机器人 / 自驾团队拿来即用。

诚实点讲:核心创新不是某个单点 trick,而是工程规模 + 平台化的组合拳——这是 NVIDIA 最擅长的事。

Cosmos World Foundation Model Platform — 方法示意:核心 pipeline
Plate Nº IICosmos World Foundation Model Platform — 方法示意:核心 pipeline

它怎么做的(方法)— 3-4 段

数据流水线。像剪辑师整理素材库——2000 万小时原片堆在硬盘里没法直接用,得先去重(删掉重复镜头)、按镜头切分、给运动质量打分(晃得太厉害的扔掉)、再让 VLM(视觉语言模型)给每段写一句话描述(caption),相当于自动给素材打标签。论文花了大篇幅讲怎么把这条流水线工业化(具体过滤比例需读原文)。

Tokenizer(token 化器)。等等,先慢一拍——什么叫 token 化?类比成把一本书拆成"词",模型才能逐词学。视频也一样:原始像素太多没法直接喂给 transformer,得先压成一串"视频词"。Cosmos 训了一套连续 + 离散两种 tokenizer,等价于 LLM 里的 BPE 分词,决定了后面所有训练效率的上限。

两个基模分别训练。像同一批食材开两家店:扩散版本(Cosmos-Diffusion)像精修画师,适合"给我生成一段反事实场景"(如果车这时候左转会怎样);自回归版本(Cosmos-Autoregressive)像说书人,一帧接一帧往下讲,更适合"给定动作预测未来"这种 agent 嵌入式用法。两条线共享同一套 tokenizer 和数据流水线。

Post-training 配方。光给你一袋面粉没用,还得附食谱。论文给了机器人操控、自动驾驶、多视角生成几个典型案例,手把手教用户怎么把通用基模特化到自己的任务上。

实验在做什么

我没读全文,从摘要和公开资料推测,实验大概覆盖:

  • 生成质量评估:在标准视频生成 benchmark 上和 Sora、Veo、SVD 等比 FID / FVD / 用户偏好(具体分数需读原文)。
  • 物理一致性 / 可控性:给定相机轨迹或动作条件,模型能不能预测出物理上合理的画面(碰撞、刚体、流体表现)。
  • 下游迁移:post-training 到机器人或驾驶任务后,性能比从零训练或比其他基模迁移有多大提升。
  • Tokenizer 重建质量:连续 vs 离散 tokenizer 在压缩率和重建 PSNR 上的取舍。
  • 规模效应:数据量 / 模型参数 / 计算量增加时,世界模型能力的 scaling curve(这是平台叙事最关键的一环)。

你应该懂的几个新词 — 4-6 个

  • World Foundation Model(世界基模):能对物理世界做通用预测的基础模型,类比 LLM 之于语言。
  • Tokenizer(视频 token 化器):把连续视频压成离散或低维 token,让 transformer 能处理;类似图像里的 VQ-VAE。
  • Post-training(后训练 / 特化训练):在通用基模上用领域数据继续训练,让它擅长某个具体任务;不等同于 fine-tuning,规模通常更大。
  • Diffusion vs Autoregressive World Model:前者生成质量高、并行采样;后者天然适合"给动作预测下一帧"的因果场景。
  • Guardrail(安全护栏):过滤不当生成内容的机制,平台级交付绕不过的合规要求。
  • Action Conditioning(动作条件化):把 agent 的动作作为输入送给世界模型,让它生成"如果我这么做会发生什么"的画面,是世界模型用作仿真器的核心接口。

它和其他论文什么关系

  • 承接 Sora / Veo 的视频基模:技术栈类似,但目标从"生成好看视频"转向"做下游 agent 的环境"。
  • 接续 Dreamer 系列的世界模型理念:把 Dreamer 那套"在想象中训练"的思路,扩展到真实视频规模。
  • 服务于 OpenVLA / π0 / RT-X 这类 VLA 模型:基模负责生成训练数据和反事实场景,VLA 负责做策略,两者互补。
  • 和 Genie / GAIA-1 同类但更通用:Genie 偏游戏、GAIA-1 偏自驾,Cosmos 想做跨域基模。
  • 和你已读的 cosmos-policy.md 强相关:那是 Cosmos 在 robot policy 方向的具体应用,本篇是平台底座。建议两篇对照读。

我建议这样读 — 3-4 步

  1. 第一遍只读摘要 + 引言 + 图 1(30 分钟):搞懂"它把世界模型平台化"这个核心叙事,建立心智地图。
  2. 第二遍跳读数据流水线和 tokenizer 章节(1 小时):这是工程价值最大的部分,对将来自己做大规模视频项目有直接参考。
  3. 第三遍精读 post-training 案例(1 小时):挑机器人那个案例,看它怎么把基模特化到操控任务上,对照 cosmos-policy.md。
  4. 可选:扫一眼实验和 scaling 曲线:如果关心"规模到底带来多少收益",scaling 章节值得细看;不关心可以跳。

为什么值得读

  • 平台叙事的范本:未来几年具身智能领域最值钱的不是单个模型,而是"基模 + 数据 + 工具链"打包交付。Cosmos 是这种打法的标杆,读它能学到 NVIDIA 怎么把研究包装成产品。
  • 数据流水线的工程含金量:2000 万小时视频处理是稀缺经验,光是 caption 生成、去重、质量打分这几步就够你学半年。
  • 世界模型范式的拐点信号:从 Dreamer 的玩具规模到 Cosmos 的工业规模,世界模型从"RL 辅助"变成"通用基础设施",这个范式变化值得认真理解。
  • 跨方向连接器:视频生成 / 机器人 / 自动驾驶 / VLA 几条线在这里汇合,是难得的"一篇文章串起多个领域"的机会。
  • 诚实提醒:这是工程驱动、规模驱动的论文,理论新意有限。如果你期待数学上的优雅突破,会失望;如果你想看"大力如何出奇迹"以及如何把它产品化,这是必读。

引用本笔记 / Cite this note
BibTeX
@online{eai_cosmos_world_foundation_2026,
  title       = {(readable note) Cosmos World Foundation Model Platform},
  author      = {Zhou, Jason},
  year        = {2026},
  note        = {Note on a 2025 paper},
  howpublished = {\url{https://estelledc.github.io/embodied-ai-reading-station/papers/cosmos-world-foundation/}},
  organization = {Embodied AI Reading Station}
}

All 156 papers (full index)
  1. 1. LLaVA: Visual Instruction Tuning
  2. 2. 3DShape2VecSet: 3D Shape Representation for Diffusion Models
  3. 3. SayCan: Do As I Can, Not As I Say
  4. 4. OpenVLA: An Open-Source Vision-Language-Action Model
  5. 5. VLAS: VLA Model With Speech Instructions
  6. 6. MLA: Multisensory Language-Action Model
  7. 7. Cosmos Policy: Fine-Tuning Video Models for Visuomotor Control
  8. 8. CartoRadar: RF-Based 3D SLAM Rivaling Vision Approaches
  9. 9. mmCLIP: Boosting mmWave-based Zero-shot HAR via Signal-Text Alignment
  10. 10. mmNorm: Non-Line-of-Sight 3D Object Reconstruction via mmWave Surface Normal Estimation
  11. 11. Proactive Hearing Assistants that Isolate Egocentric Conversations
  12. 12. NeuralAids: Wireless Hearables With Programmable Speech AI Accelerators
  13. 13. Creating speech zones with self-distributing acoustic swarms
  14. 14. Conv-TasNet: Surpassing Ideal Time-Frequency Magnitude Masking for Speech Separation
  15. 15. SoundStream: An End-to-End Neural Audio Codec
  16. 16. AudioLM
  17. 17. Conformer
  18. 18. Dual-path RNN
  19. 19. EnCodec
  20. 20. Meta-StyleSpeech
  21. 21. MusicLM
  22. 22. Robust Speech Recognition via Large-Scale Weak Supervision
  23. 23. SeamlessM4T
  24. 24. Stable Audio
  25. 25. Universal Source Separation with Weakly Labelled Data
  26. 26. Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
  27. 27. RLBench: The Robot Learning Benchmark & Learning Environment
  28. 28. robosuite: A Modular Simulation Framework and Benchmark for Robot Learning
  29. 29. BridgeData V2
  30. 30. CALVIN
  31. 31. LIBERO
  32. 32. RH20T
  33. 33. What Matters in Learning from Offline Human Demonstrations for Robot Manipulation
  34. 34. DROID
  35. 35. Open X-Embodiment
  36. 36. RoboCasa
  37. 37. SimplerEnv
  38. 38. Diffusion Policy: Visuomotor Policy Learning via Action Diffusion
  39. 39. 3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations
  40. 40. Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation
  41. 41. EquiBot: SIM(3)-Equivariant Diffusion Policy
  42. 42. DiT-Policy
  43. 43. Diffusion Policy Policy Optimization (DPPO)
  44. 44. Affordance-based Robot Manipulation with Flow Matching
  45. 45. FlowPolicy: 3D Flow-based Policy via Consistency Flow Matching
  46. 46. FAST: Efficient Action Tokenization for VLA
  47. 47. pi_0: Vision-Language-Action Flow Model
  48. 48. pi_0.5: VLA with Open-World Generalization
  49. 49. A Reduction of Imitation Learning and Structured Prediction to No-Regret Online Learning
  50. 50. Generative Adversarial Imitation Learning
  51. 51. Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware (ACT/ALOHA)
  52. 52. AnyTeleop
  53. 53. Behavior Transformers: Cloning k Modes with One Stone
  54. 54. Implicit Behavioral Cloning
  55. 55. RoboCat
  56. 56. ALOHA 2
  57. 57. DexCap
  58. 58. HumanPlus
  59. 59. Generalizable Humanoid Manipulation with 3D Diffusion Policies (iDP3)
  60. 60. Mobile ALOHA
  61. 61. SmolVLA
  62. 62. Universal Manipulation Interface
  63. 63. Behavior Generation with Latent Actions (VQ-BeT)
  64. 64. ImageBind: One Embedding Space To Bind Them All
  65. 65. Connecting Touch and Vision via Cross-Modal Prediction
  66. 66. AnyMAL: An Efficient and Scalable Any-Modality Augmented Language Model
  67. 67. AudioPaLM
  68. 68. FROMAGe: Grounding LLMs to Images
  69. 69. OneLLM
  70. 70. X-VLM: Multi-Grained Vision Language Pre-Training
  71. 71. Tactile Beyond Pixels (Sparsh-X)
  72. 72. Sparsh: Self-supervised Touch Representations
  73. 73. Tactile-VLA
  74. 74. TLA: Tactile-Language-Action
  75. 75. Code as Policies: Language Model Programs for Embodied Control
  76. 76. Inner Monologue: Embodied Reasoning through Planning with Language Models
  77. 77. LLM+P: Empowering LLMs with Optimal Planning
  78. 78. PaLM-E: An Embodied Multimodal Language Model
  79. 79. ProgPrompt
  80. 80. ChatGPT for Robotics
  81. 81. GenSim
  82. 82. RoboFlamingo
  83. 83. Tree-Planner
  84. 84. VoxPoser
  85. 85. See Through Smoke: Robust Indoor Mapping with Low-cost mmWave Radar
  86. 86. Can WiFi Estimate Person Pose?
  87. 87. 3DRIMR: 3D Reconstruction and Imaging via mmWave Radar based on Deep Learning
  88. 88. milliEgo: Single-chip mmWave Radar Aided Egomotion Estimation via Deep Sensor Fusion
  89. 89. High Resolution Point Clouds from mmWave Radar
  90. 90. RadarSLAM: Radar based Large-Scale SLAM in All Weathers
  91. 91. Through-Wall Pose Imaging in Real-Time with a Many-to-Many Encoder/Decoder Paradigm
  92. 92. RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals
  93. 93. RFPose-OT: RF-Based 3D Human Pose Estimation via Optimal Transport Theory
  94. 94. Argus: Multi-View Egocentric Human Mesh Reconstruction Based on Stripped-Down Wearable mmWave Add-on
  95. 95. Diffusion Model is a Good Pose Estimator from 3D RF-Vision
  96. 96. Enabling Visual Recognition at Radio Frequency (PanoRadar)
  97. 97. Wave-Former: Through-Occlusion 3D Reconstruction via Wireless Shape Completion
  98. 98. Habitat: A Platform for Embodied AI Research
  99. 99. Isaac Gym: High Performance GPU-Based Physics Simulation For Robot Learning
  100. 100. DexMV
  101. 101. Habitat 2.0
  102. 102. ManiSkill
  103. 103. ProcTHOR
  104. 104. SAPIEN: A SimulAted Part-based Interactive ENvironment
  105. 105. BEHAVIOR-1K
  106. 106. Habitat 3.0
  107. 107. Isaac Lab
  108. 108. MuJoCo Playground
  109. 109. RT-1: Robotics Transformer for Real-World Control at Scale
  110. 110. 3D Diffusion Policy (DP3)
  111. 111. Octo: An Open-Source Generalist Robot Policy
  112. 112. RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
  113. 113. RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches
  114. 114. 3D-VLA
  115. 115. DexVLA
  116. 116. GR-2: Generative Video-Language-Action Model
  117. 117. OpenHelix
  118. 118. OpenVLA-OFT
  119. 119. RDT-1B: Diffusion Foundation Model for Bimanual Manipulation
  120. 120. RoboMamba
  121. 121. SpatialVLA
  122. 122. TinyVLA
  123. 123. TraceVLA: Visual Trace Prompting
  124. 124. Learning Transferable Visual Models From Natural Language Supervision
  125. 125. Flamingo: a Visual Language Model for Few-Shot Learning
  126. 126. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
  127. 127. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  128. 128. DeepSeek-VL: Towards Real-World Vision-Language Understanding
  129. 129. EVA-CLIP: Improved Training Techniques for CLIP at Scale
  130. 130. FILIP: Fine-grained Interactive Language-Image Pre-Training
  131. 131. Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks
  132. 132. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
  133. 133. Improved Baselines with Visual Instruction Tuning
  134. 134. OBELICS
  135. 135. Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond
  136. 136. Sigmoid Loss for Language Image Pre-Training
  137. 137. What matters when building vision-language models?
  138. 138. Expanding Performance Boundaries of Open-Source Multimodal Models with Model, Data, and Test-Time Scaling
  139. 139. The Llama 3 Herd of Models
  140. 140. LLaVA-NeXT-Interleave
  141. 141. LLaVA-OneVision: Easy Visual Task Transfer
  142. 142. Long-CLIP: Unlocking the Long-Text Capability of CLIP
  143. 143. Pixtral 12B
  144. 144. Dream to Control: Learning Behaviors by Latent Imagination
  145. 145. World Models
  146. 146. DayDreamer
  147. 147. Mastering Atari with Discrete World Models
  148. 148. Dreamer V3: Mastering Diverse Domains through World Models
  149. 149. Transformers are Sample-Efficient World Models
  150. 150. TWM: Transformer-based World Models
  151. 151. 1X World Model Challenge
  152. 152. Cosmos World Foundation Model Platform
  153. 153. GAIA-1
  154. 154. Genie: Generative Interactive Environments
  155. 155. Navigation World Models
  156. 156. UniSim